deepseek吧 关注:99,120贴子:163,366

回复:市面上具有代表性的22款模型深度测评

取消只看楼主收藏回复

代码上,gpt-o3mini 感觉是最强的,o1可能很强我不敢用,太贵了。但是其实大家都挺强的,每家模型有每家的容易出的Bug,让他们互相找bug才是正确用法。
r1经常思考太多,过度思考写出运行不了的。建议把温度参数调成0


IP属地:陕西54楼2025-02-20 12:16
回复
    r1非常非常偏科,推理能力断崖式领先,生成方面你要是写点猫娘啊啥的不打紧,真正的有用的文章写不了一点,完全不按你的要求来,脑子里全是自己的想法。
    最喜欢奇奇怪怪的比喻和量子力学。


    IP属地:陕西来自Android客户端55楼2025-02-20 12:20
    回复
      claude感觉有些过时了,优势不是很大。这个模型正处于青黄不接的时候,新旗舰模型还没出,老旗舰已经有点老了。sonnet其实不是旗舰模型,opus才是,不过opus已经有些老了。不过作为曾经冲过会员的忠实用户,个人体验,它是最能理解用户隐藏需求的模型,有时候跟他随便聊聊天什么的,尺度拿捏的非常到位,像是你肚子里的蛔虫。


      IP属地:陕西来自Android客户端56楼2025-02-20 12:23
      回复
        翻译方面,gemini一如既往的强,翻译重要的东西可以用这个。
        嫌gemini贵的话可以用v3,效果也很不错。
        翻译网页的话可以用沉浸式翻译插件加豆包2.5 lite,效果过得去的同时非常非常便宜。
        再低就不介意了,豆包已经非常非常便宜了。


        IP属地:陕西来自Android客户端58楼2025-02-20 12:26
        回复
          豆包和千问的pk,个人感觉这几组里豆包都略胜一筹。不过也不好说,测试的量还是太少,没有拉开差距。


          IP属地:陕西来自Android客户端59楼2025-02-20 12:29
          回复
            Deepseek的蒸馏模型,不建议本地部署。除非你能部署32b以上的版本,才能勉强0.6元/百万token的轻量级模型pk,一年都不一定能省几块钱。


            IP属地:陕西来自Android客户端61楼2025-02-20 12:33
            回复
              然后再推荐一下这两个视觉模型,这俩模型的语言能力是够用的,拍个题搜索啥的,当个小猿搜题的平替很不错的。


              IP属地:陕西来自Android客户端62楼2025-02-20 12:34
              回复
                再来一个附加题测试最强的编程能力。


                IP属地:陕西来自Android客户端68楼2025-02-21 08:05
                回复
                  这一轮的规则是这样的。我把要写的程序告诉ai,不满意的地方我会让他一直修改,直到我满意或者对话太长,或者他修改不动了为止,模拟用ai编程的真实情况,综合来看整体体验如何。


                  IP属地:陕西来自Android客户端69楼2025-02-21 08:22
                  回复
                    请你实现一个界面精美、功能完善的单文件俄罗斯方块网页程序,我们需要在400行代码的规模内尽可能还原现代俄罗斯方块的体验。以下是一些关键点:
                    控制方法:
                    空格:硬降
                    Z:逆旋转
                    上键:顺旋转
                    下键:软降到底
                    X:180度旋转
                    C:暂存
                    R:重开
                    DAS 和 ARR:
                    DAS(Delayed Auto-Shift)设置为100ms
                    提供ARR(Auto-Repeat Rate)设置为0的选项,以便用极简操作游玩
                    功能特性:
                    下落预览
                    Bag7出块(确保7个方块在一个“袋子”中随机出现)
                    6个预览
                    旋转系统:
                    虽然简化,但要考虑极简操作的兼容性。
                    这是题目


                    IP属地:陕西71楼2025-02-21 08:24
                    回复

                      作为现代块老玩家,对俄罗斯方块的熟悉程度可以说是非常敏感了,一点点不对就会大幅影响我的成绩,让AI写这个程序,然后我按照我的手感来打分。还是满分5分。


                      IP属地:陕西72楼2025-02-21 08:26
                      回复

                        o3mini非常强,虽然手感怪怪的,但是基本符合要求。距离本人的记录差了17秒,但非常了不起了,基本上极简操作全都能匹配上,一般的简陋俄罗斯方块我是断然进不了一分钟的。


                        IP属地:陕西73楼2025-02-21 08:43
                        收起回复
                          Deep seek还没测完,但是明显比不上o3-mini,现在希望他能输出一个勉强能玩的就行了。看来代码能力还是得这样去测试。


                          IP属地:陕西来自Android客户端74楼2025-02-21 09:02
                          回复
                            deepseek生成的很慢还没改完,我先大概说一下感觉。
                            前几版我都感觉要凉了,完全运行不起来。后面改着改着还好,现在有希望能达o3-mini差不多的程度了,但是真的慢


                            IP属地:陕西来自Android客户端75楼2025-02-21 10:02
                            回复
                              最大的感受是他的知识面还是没有o3广,俄罗斯方块现代化算是个比较小众的领域,o3理解方块初始位置,das和arr大概念,极简操作的原理,以及如何简化旋转系统同时兼容极简操作,这些东西都没有让我解释太多。但是deepseek需要我一个一个给他解释清楚,很多细节他都不知道,所以改了半天最终版还没出来。


                              IP属地:陕西来自Android客户端76楼2025-02-21 10:04
                              收起回复