【图片】回复：市面上具有代表性的22款模型深度测评【deepseek吧】

02月26日漏签0天

deepseek吧关注：99,120贴子：163,366

首页上一页 1 2 3 4 5 6 下一页尾页
75回复贴，共6页
，跳到页

<返回deepseek吧

回复：市面上具有代表性的22款模型深度测评

取消只看楼主收藏回复

代码上，gpt-o3mini 感觉是最强的，o1可能很强我不敢用，太贵了。但是其实大家都挺强的，每家模型有每家的容易出的Bug，让他们互相找bug才是正确用法。
r1经常思考太多，过度思考写出运行不了的。建议把温度参数调成0

IP属地:陕西

54楼2025-02-20 12:16

r1非常非常偏科，推理能力断崖式领先，生成方面你要是写点猫娘啊啥的不打紧，真正的有用的文章写不了一点，完全不按你的要求来，脑子里全是自己的想法。
最喜欢奇奇怪怪的比喻和量子力学。

IP属地:陕西

来自Android客户端55楼2025-02-20 12:20

claude感觉有些过时了，优势不是很大。这个模型正处于青黄不接的时候，新旗舰模型还没出，老旗舰已经有点老了。sonnet其实不是旗舰模型，opus才是，不过opus已经有些老了。不过作为曾经冲过会员的忠实用户，个人体验，它是最能理解用户隐藏需求的模型，有时候跟他随便聊聊天什么的，尺度拿捏的非常到位，像是你肚子里的蛔虫。

IP属地:陕西

来自Android客户端56楼2025-02-20 12:23

翻译方面，gemini一如既往的强，翻译重要的东西可以用这个。
嫌gemini贵的话可以用v3，效果也很不错。
翻译网页的话可以用沉浸式翻译插件加豆包2.5 lite，效果过得去的同时非常非常便宜。
再低就不介意了，豆包已经非常非常便宜了。

IP属地:陕西

来自Android客户端58楼2025-02-20 12:26

豆包和千问的pk，个人感觉这几组里豆包都略胜一筹。不过也不好说，测试的量还是太少，没有拉开差距。

IP属地:陕西

来自Android客户端59楼2025-02-20 12:29

Deepseek的蒸馏模型，不建议本地部署。除非你能部署32b以上的版本，才能勉强0.6元/百万token的轻量级模型pk，一年都不一定能省几块钱。

IP属地:陕西

来自Android客户端61楼2025-02-20 12:33

然后再推荐一下这两个视觉模型，这俩模型的语言能力是够用的，拍个题搜索啥的，当个小猿搜题的平替很不错的。

IP属地:陕西

来自Android客户端62楼2025-02-20 12:34

再来一个附加题测试最强的编程能力。

IP属地:陕西

来自Android客户端68楼2025-02-21 08:05

这一轮的规则是这样的。我把要写的程序告诉ai，不满意的地方我会让他一直修改，直到我满意或者对话太长，或者他修改不动了为止，模拟用ai编程的真实情况，综合来看整体体验如何。

IP属地:陕西

来自Android客户端69楼2025-02-21 08:22

请你实现一个界面精美、功能完善的单文件俄罗斯方块网页程序，我们需要在400行代码的规模内尽可能还原现代俄罗斯方块的体验。以下是一些关键点：
控制方法：
空格：硬降
Z：逆旋转
上键：顺旋转
下键：软降到底
X：180度旋转
C：暂存
R：重开
DAS 和 ARR：
DAS（Delayed Auto-Shift）设置为100ms
提供ARR（Auto-Repeat Rate）设置为0的选项，以便用极简操作游玩
功能特性：
下落预览
Bag7出块（确保7个方块在一个“袋子”中随机出现）
6个预览
旋转系统：
虽然简化，但要考虑极简操作的兼容性。
这是题目

IP属地:陕西

71楼2025-02-21 08:24

作为现代块老玩家，对俄罗斯方块的熟悉程度可以说是非常敏感了，一点点不对就会大幅影响我的成绩，让AI写这个程序，然后我按照我的手感来打分。还是满分5分。

IP属地:陕西

72楼2025-02-21 08:26

o3mini非常强，虽然手感怪怪的，但是基本符合要求。距离本人的记录差了17秒，但非常了不起了，基本上极简操作全都能匹配上，一般的简陋俄罗斯方块我是断然进不了一分钟的。

IP属地:陕西

73楼2025-02-21 08:43

收起回复

Deep seek还没测完，但是明显比不上o3-mini，现在希望他能输出一个勉强能玩的就行了。看来代码能力还是得这样去测试。

IP属地:陕西

来自Android客户端74楼2025-02-21 09:02

deepseek生成的很慢还没改完，我先大概说一下感觉。
前几版我都感觉要凉了，完全运行不起来。后面改着改着还好，现在有希望能达o3-mini差不多的程度了，但是真的慢

IP属地:陕西

来自Android客户端75楼2025-02-21 10:02

最大的感受是他的知识面还是没有o3广，俄罗斯方块现代化算是个比较小众的领域，o3理解方块初始位置，das和arr大概念，极简操作的原理，以及如何简化旋转系统同时兼容极简操作，这些东西都没有让我解释太多。但是deepseek需要我一个一个给他解释清楚，很多细节他都不知道，所以改了半天最终版还没出来。

IP属地:陕西

来自Android客户端76楼2025-02-21 10:04

收起回复

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

首页上一页 1 2 3 4 5 6 下一页尾页
75回复贴，共6页
，跳到页

<返回deepseek吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

回复：市面上具有代表性的22款模型深度测评

登录百度账号

扫二维码下载贴吧客户端