deepseek吧 关注:99,115贴子:163,608

市面上具有代表性的22款模型深度测评

取消只看楼主收藏回复

之前发过一个测评帖,坑开的有点大,出现了各种问题,所以整理了一下重新开一个。
测试包括市面上具有代表性的22款优秀模型,20个问题,共440多轮对话,涵盖各个方面进行全面的总结。


IP属地:陕西1楼2025-02-17 22:43回复
    测了一部分了已经,贴吧排版太难受了,我先测完整理好再发。


    IP属地:陕西3楼2025-02-17 22:48
    回复
      总算测完了


      IP属地:陕西来自Android客户端6楼2025-02-19 09:41
      回复
        坑开的太大了全文总结了5万多字,我勒个天。


        IP属地:陕西来自Android客户端7楼2025-02-19 09:44
        回复
          本来我寻思给百度的面子加了一个百度的免费小模型。然后发现那玩意儿是真的不行,然后换成通义千问的一个小模型了。


          IP属地:陕西来自Android客户端8楼2025-02-19 09:45
          回复


            IP属地:陕西9楼2025-02-19 09:46
            收起回复


              IP属地:陕西10楼2025-02-19 09:47
              收起回复
                先介绍以下参赛选手。
                deepseek全家桶自不必多说
                Anthropic,openai,谷歌家的旗舰也很出名


                IP属地:陕西11楼2025-02-19 09:48
                回复
                  Doubao-1.5-vision-pro和qwen2.5-vl-72b大家可能不太熟,算是国内乃至国际最强的两个视觉模型了。除去GPT这样的多模态大模型,他俩的识别能力可以说是天花板了。
                  有时候deepseek没有图像输入能力就很难受,就可以试试他俩,语言能力也不差,视觉能力顶呱呱


                  IP属地:陕西12楼2025-02-19 09:51
                  回复
                    Llama-3.3-70b和deepseek-70b应该是一个模型,然后从r1蒸馏的参数。可以对比一下看看进步大不大


                    IP属地:陕西13楼2025-02-19 09:52
                    回复
                      doubao-1.5-lite,gpt-4o-mini以及qwen-Turbo都是蛮好用的轻量级模型,价格都在1元/百万token以内,非常划算。不需要太高智商的话,单纯问个问题聊聊天啥的,或者当个翻译工具足矣。


                      IP属地:陕西14楼2025-02-19 09:54
                      回复

                        第一题,豆包的视觉模型拉跨了,其余全对。
                        其实这一题不太能代表什么,就是一个幻觉而已。看个乐子吧。


                        IP属地:陕西15楼2025-02-19 09:56
                        回复


                          2,3题也一样,代表不了什么智商。尤其是第三题,全军覆没,只能说现在的AI缺乏常识。
                          deepseek1.5B数字母都能数对,和智商关系不大的。


                          IP属地:陕西16楼2025-02-19 09:59
                          收起回复

                            个人感觉Claude不一定是最聪明的,但是是最能体会用户潜台词的模型。

                            豆包这一题发挥也还行。
                            总结太多了,大伙看个分儿就行了


                            IP属地:陕西17楼2025-02-19 10:03
                            回复

                              前五题用处都不大,体现不出智商。
                              这题以前是个经典的幻觉,现在基本都修复了。
                              deepseek-7B和1.5B实际上不是识别不出来,是话都说不利索。


                              IP属地:陕西19楼2025-02-19 10:06
                              回复