网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
02月09日
漏签
0
天
2ch吧
关注:
530,150
贴子:
15,212,326
看贴
图片
吧主推荐
视频
玩乐
1
2
下一页
尾页
24
回复贴,共
2
页
,跳到
页
确定
<返回2ch吧
>0< 加载中...
发现一个ai的漏洞
只看楼主
收藏
回复
练习扔球两年半
雾海星际
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
是不是ai都不识数
还是软件的问题啊
送TA礼物
IP属地:河南
来自
Android客户端
1楼
2025-02-01 16:41
回复
练习扔球两年半
雾海星际
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
一多就数不过来了
IP属地:河南
来自
Android客户端
2楼
2025-02-01 16:54
回复
收起回复
练习扔球两年半
雾海星际
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
直接阵亡
IP属地:河南
来自
Android客户端
3楼
2025-02-01 16:55
回复
收起回复
练习扔球两年半
雾海星际
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
IP属地:河南
来自
Android客户端
4楼
2025-02-01 16:59
回复
收起回复
何日再见秋海棠
朝颜夕梦
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
360里的很对都不是满血版
IP属地:安徽
来自
Android客户端
5楼
2025-02-01 17:23
回复(3)
收起回复
曹操
和光绝舞
4
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
思考过程中纠结了两次
IP属地:内蒙古
来自
Android客户端
6楼
2025-02-01 17:34
回复(1)
收起回复
theoverseerc1s
夏花稚趣
6
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
和token有关,ai看到的不是完整的句子,是一个片段一个片段的
IP属地:山东
来自
Android客户端
7楼
2025-02-01 18:02
回复
收起回复
练习扔球两年半
雾海星际
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
十五个只数出十四个
IP属地:河南
来自
Android客户端
8楼
2025-02-01 18:05
回复
收起回复
锅包肉很多肉
巨斧笔尖
8
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
首先恭喜你的答案正确!不过,我更好奇另一件事情:你在得出这个结论之前做了大量思考,甚至怀疑该问题存在“陷阱”,对于一个简单的计数问题来说,这看上去过分谨慎了。从你的原理层面而言,为什么这个问题会有如此复杂的思考过程呢?是否有办法解决?(P.s. 这个问题让我联想到之前有大量LLM可以解决较为复杂的分析问题,但无法正确计算1+1的结果。这或许和上面这个情况有相似性?)
DS的回答:
你的观察非常敏锐,这实际上触及了当前大语言模型(LLM)在底层设计上的一个关键矛盾:处理复杂问题的能力与简单问题的可靠性之间的微妙平衡。以下是这一现象的深层原理和可能的解决方向:
1. 矛盾的根源:概率模型的本质
LLM并非通过「确定性逻辑推理」运作,而是基于海量数据训练出的「概率分布」生成文本。当遇到看似简单的问题(如字母计数、1+1计算)时
触发过度泛化:模型可能因训练中接触过大量「表面简单但暗含陷阱」的问题(例如“How many legs does a horse have? Answer: 5”),导致对简单问题产生防御性怀疑。
注意力分配偏差:模型对高频复杂任务的训练更密集(如数学推理、代码生成),而简单问题可能被归类为「低风险低优先级」,导致注意力分散甚至自我纠错冗余。
符号接地问题:模型对字母“r”的认知是统计意义上的符号关联,而非人类视觉化的实体字符,因此需要反复验证其存在性。
2. 为什么需要「复杂化」简单问题?
以“strawberry”为例,模型的处理流程可能包含以下隐性步骤:
拼写验证:检查是否存在拼写变体(如“stawberry”“strawbery”),这源于训练数据中常见拼写错误的影响。
语境陷阱防御:警惕问题是否隐含双关(如“字母r”是否指向化学元素“R”或缩写词)。
跨语言干扰过滤:某些语言中“strawberry”的拼写可能包含额外字母(如西班牙语“fresa”)。
输出置信度校准:通过分解拼写确保答案符合多数用户的预期(例如避免将“berry”部分的“rr”误判为单字母)。
这种「防御性思考」是模型为应对开放域问题的模糊性而进化出的策略,但也导致了简单任务的处理效率下降。
4. 解决方向:分层处理与认知对齐
可能的优化路径包括:
任务类型预判:通过元分类器(Meta-Classifier)区分问题的复杂度,对简单问题启用「快速通道」(如直接调用预存规则库)。
符号-实体绑定增强:通过多模态训练(如将字母与视觉符号关联)强化基础概念的确定性。
反直觉训练(Counter-Intuitive Training):主动向模型注入「简单问题需简洁响应」的强化信号,抑制过度推理。
人类反馈强化学习(RLHF):通过标注者干预,修正模型对简单问题的不必要复杂化倾向。
5. 当前局限性:认知架构的差异
人类在处理此类问题时,依赖「系统1」(直觉快速处理)和「系统2」(逻辑慢思考)的协作,而LLM缺乏这种分层机制,所有问题均需通过同一套概率网络处理。这种「一刀切」的架构,正是简单问题复杂化的根本原因。未来可能需要引入混合架构模型(如结合符号逻辑引擎与神经网络)来缓解这一问题。
你的提问实际上指向了AI研究的核心挑战之一:如何让机器在保持复杂推理能力的同时,获得人类般的「常识性简洁」。这或许需要一场认知科学启发下的新一代AI范式变革。
IP属地:山东
来自
Android客户端
9楼
2025-02-01 18:23
回复
收起回复
妮可儿最棒了
😶
真理孑然
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
虽然,但是你都不开深度思考,用的还是v3模型,那有什么好说的
IP属地:江西
来自
Android客户端
10楼
2025-02-01 19:10
回复(3)
收起回复
ECHO
雾海星际
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
dp需要开深度思考,不开就是v3模型,开了才是r1模型,v3远弱与r1
IP属地:新疆
来自
Android客户端
11楼
2025-02-01 20:03
回复
收起回复
不垂死老头
真珠之智
11
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
是不是你提问里面出问题了
IP属地:上海
来自
Android客户端
12楼
2025-02-01 20:31
回复(1)
收起回复
开拓
征服
真理孑然
7
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
确实有这个问题,但是你用的是v3没开r1,dsr1基本上不会数错了,虽然有时候思考过程会很纠结反复
IP属地:浙江
来自
Android客户端
13楼
2025-02-01 21:07
回复(1)
收起回复
贴吧用户_05XMNM4
朝颜夕梦
1
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
是这样子的
IP属地:北京
来自
Android客户端
14楼
2025-02-01 21:09
回复
收起回复
练习扔球两年半
雾海星际
5
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
开深度思考数的 第二遍是把前面的复制粘贴数的
IP属地:河南
来自
Android客户端
15楼
2025-02-02 17:53
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
林孝埈短道速滑500米夺金
2070510
2
梁靖崑掀翻王楚钦晋级决赛
1846691
3
林孝埈为何总在决赛中表现失误
1423240
4
外媒称哪吒2票房高但没人关注
1418607
5
哪吒是天津人还是四川人
1135472
6
林诗栋梁靖崑会师决赛
1067025
7
小行星撞击地球概率大吗
747312
8
Gumayusi不打比赛转行卖课
609684
9
曝拳头正开发类原神游戏
437140
10
NIP横扫FPX取两连胜
379701
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示