deepseek吧 关注:98,869贴子:163,032

市面上具有代表性的22款模型深度测评

只看楼主收藏回复

之前发过一个测评帖,坑开的有点大,出现了各种问题,所以整理了一下重新开一个。
测试包括市面上具有代表性的22款优秀模型,20个问题,共440多轮对话,涵盖各个方面进行全面的总结。


IP属地:陕西1楼2025-02-17 22:43回复
    测了一部分了已经,贴吧排版太难受了,我先测完整理好再发。


    IP属地:陕西3楼2025-02-17 22:48
    回复


      IP属地:福建来自Android客户端4楼2025-02-18 11:19
      回复
        加油


        IP属地:山东来自Android客户端5楼2025-02-19 09:37
        回复
          总算测完了


          IP属地:陕西来自Android客户端6楼2025-02-19 09:41
          回复
            坑开的太大了全文总结了5万多字,我勒个天。


            IP属地:陕西来自Android客户端7楼2025-02-19 09:44
            回复
              本来我寻思给百度的面子加了一个百度的免费小模型。然后发现那玩意儿是真的不行,然后换成通义千问的一个小模型了。


              IP属地:陕西来自Android客户端8楼2025-02-19 09:45
              回复


                IP属地:陕西9楼2025-02-19 09:46
                收起回复


                  IP属地:陕西10楼2025-02-19 09:47
                  收起回复
                    先介绍以下参赛选手。
                    deepseek全家桶自不必多说
                    Anthropic,openai,谷歌家的旗舰也很出名


                    IP属地:陕西11楼2025-02-19 09:48
                    回复
                      Doubao-1.5-vision-pro和qwen2.5-vl-72b大家可能不太熟,算是国内乃至国际最强的两个视觉模型了。除去GPT这样的多模态大模型,他俩的识别能力可以说是天花板了。
                      有时候deepseek没有图像输入能力就很难受,就可以试试他俩,语言能力也不差,视觉能力顶呱呱


                      IP属地:陕西12楼2025-02-19 09:51
                      回复
                        Llama-3.3-70b和deepseek-70b应该是一个模型,然后从r1蒸馏的参数。可以对比一下看看进步大不大


                        IP属地:陕西13楼2025-02-19 09:52
                        回复
                          doubao-1.5-lite,gpt-4o-mini以及qwen-Turbo都是蛮好用的轻量级模型,价格都在1元/百万token以内,非常划算。不需要太高智商的话,单纯问个问题聊聊天啥的,或者当个翻译工具足矣。


                          IP属地:陕西14楼2025-02-19 09:54
                          回复

                            第一题,豆包的视觉模型拉跨了,其余全对。
                            其实这一题不太能代表什么,就是一个幻觉而已。看个乐子吧。


                            IP属地:陕西15楼2025-02-19 09:56
                            回复


                              2,3题也一样,代表不了什么智商。尤其是第三题,全军覆没,只能说现在的AI缺乏常识。
                              deepseek1.5B数字母都能数对,和智商关系不大的。


                              IP属地:陕西16楼2025-02-19 09:59
                              收起回复