【图片】市面上具有代表性的22款模型深度测评【deepseek吧】

02月26日漏签0天

deepseek吧关注：99,115贴子：163,608

1 2 3 4 5 6 下一页尾页
75回复贴，共6页
，跳到页

<返回deepseek吧

市面上具有代表性的22款模型深度测评

取消只看楼主收藏回复

之前发过一个测评帖，坑开的有点大，出现了各种问题，所以整理了一下重新开一个。
测试包括市面上具有代表性的22款优秀模型，20个问题，共440多轮对话，涵盖各个方面进行全面的总结。

送TA礼物

IP属地:陕西

1楼2025-02-17 22:43回复

测了一部分了已经，贴吧排版太难受了，我先测完整理好再发。

IP属地:陕西

3楼2025-02-17 22:48

总算测完了

IP属地:陕西

来自Android客户端6楼2025-02-19 09:41

坑开的太大了全文总结了5万多字，我勒个天。

IP属地:陕西

来自Android客户端7楼2025-02-19 09:44

本来我寻思给百度的面子加了一个百度的免费小模型。然后发现那玩意儿是真的不行，然后换成通义千问的一个小模型了。

IP属地:陕西

来自Android客户端8楼2025-02-19 09:45

IP属地:陕西

9楼2025-02-19 09:46

收起回复

IP属地:陕西

10楼2025-02-19 09:47

收起回复

先介绍以下参赛选手。
deepseek全家桶自不必多说
Anthropic，openai,谷歌家的旗舰也很出名

IP属地:陕西

11楼2025-02-19 09:48

Doubao-1.5-vision-pro和qwen2.5-vl-72b大家可能不太熟，算是国内乃至国际最强的两个视觉模型了。除去GPT这样的多模态大模型，他俩的识别能力可以说是天花板了。
有时候deepseek没有图像输入能力就很难受，就可以试试他俩，语言能力也不差，视觉能力顶呱呱

IP属地:陕西

12楼2025-02-19 09:51

Llama-3.3-70b和deepseek-70b应该是一个模型，然后从r1蒸馏的参数。可以对比一下看看进步大不大

IP属地:陕西

13楼2025-02-19 09:52

doubao-1.5-lite，gpt-4o-mini以及qwen-Turbo都是蛮好用的轻量级模型，价格都在1元/百万token以内，非常划算。不需要太高智商的话，单纯问个问题聊聊天啥的，或者当个翻译工具足矣。

IP属地:陕西

14楼2025-02-19 09:54

第一题，豆包的视觉模型拉跨了，其余全对。
其实这一题不太能代表什么，就是一个幻觉而已。看个乐子吧。

IP属地:陕西

15楼2025-02-19 09:56

2，3题也一样，代表不了什么智商。尤其是第三题，全军覆没，只能说现在的AI缺乏常识。
deepseek1.5B数字母都能数对，和智商关系不大的。

IP属地:陕西

16楼2025-02-19 09:59

收起回复

个人感觉Claude不一定是最聪明的，但是是最能体会用户潜台词的模型。

豆包这一题发挥也还行。
总结太多了，大伙看个分儿就行了

IP属地:陕西

17楼2025-02-19 10:03

前五题用处都不大，体现不出智商。
这题以前是个经典的幻觉，现在基本都修复了。
deepseek-7B和1.5B实际上不是识别不出来，是话都说不利索。

IP属地:陕西

19楼2025-02-19 10:06

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1 2 3 4 5 6 下一页尾页
75回复贴，共6页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

市面上具有代表性的22款模型深度测评

登录百度账号

扫二维码下载贴吧客户端