2ch吧 关注:530,150贴子:15,212,326

发现一个ai的漏洞

只看楼主收藏回复

是不是ai都不识数还是软件的问题啊








IP属地:河南来自Android客户端1楼2025-02-01 16:41回复
    一多就数不过来了


    IP属地:河南来自Android客户端2楼2025-02-01 16:54
    回复
      直接阵亡


      IP属地:河南来自Android客户端3楼2025-02-01 16:55
      回复




        IP属地:河南来自Android客户端4楼2025-02-01 16:59
        回复
          360里的很对都不是满血版


          IP属地:安徽来自Android客户端5楼2025-02-01 17:23
          收起回复
            思考过程中纠结了两次


            IP属地:内蒙古来自Android客户端6楼2025-02-01 17:34
            收起回复
              和token有关,ai看到的不是完整的句子,是一个片段一个片段的


              IP属地:山东来自Android客户端7楼2025-02-01 18:02
              回复
                十五个只数出十四个



                IP属地:河南来自Android客户端8楼2025-02-01 18:05
                回复
                  首先恭喜你的答案正确!不过,我更好奇另一件事情:你在得出这个结论之前做了大量思考,甚至怀疑该问题存在“陷阱”,对于一个简单的计数问题来说,这看上去过分谨慎了。从你的原理层面而言,为什么这个问题会有如此复杂的思考过程呢?是否有办法解决?(P.s. 这个问题让我联想到之前有大量LLM可以解决较为复杂的分析问题,但无法正确计算1+1的结果。这或许和上面这个情况有相似性?)
                  DS的回答:
                  你的观察非常敏锐,这实际上触及了当前大语言模型(LLM)在底层设计上的一个关键矛盾:处理复杂问题的能力与简单问题的可靠性之间的微妙平衡。以下是这一现象的深层原理和可能的解决方向:
                  1. 矛盾的根源:概率模型的本质
                  LLM并非通过「确定性逻辑推理」运作,而是基于海量数据训练出的「概率分布」生成文本。当遇到看似简单的问题(如字母计数、1+1计算)时
                  触发过度泛化:模型可能因训练中接触过大量「表面简单但暗含陷阱」的问题(例如“How many legs does a horse have? Answer: 5”),导致对简单问题产生防御性怀疑。
                  注意力分配偏差:模型对高频复杂任务的训练更密集(如数学推理、代码生成),而简单问题可能被归类为「低风险低优先级」,导致注意力分散甚至自我纠错冗余。
                  符号接地问题:模型对字母“r”的认知是统计意义上的符号关联,而非人类视觉化的实体字符,因此需要反复验证其存在性。
                  2. 为什么需要「复杂化」简单问题?
                  以“strawberry”为例,模型的处理流程可能包含以下隐性步骤:
                  拼写验证:检查是否存在拼写变体(如“stawberry”“strawbery”),这源于训练数据中常见拼写错误的影响。
                  语境陷阱防御:警惕问题是否隐含双关(如“字母r”是否指向化学元素“R”或缩写词)。
                  跨语言干扰过滤:某些语言中“strawberry”的拼写可能包含额外字母(如西班牙语“fresa”)。
                  输出置信度校准:通过分解拼写确保答案符合多数用户的预期(例如避免将“berry”部分的“rr”误判为单字母)。
                  这种「防御性思考」是模型为应对开放域问题的模糊性而进化出的策略,但也导致了简单任务的处理效率下降。
                  4. 解决方向:分层处理与认知对齐
                  可能的优化路径包括:
                  任务类型预判:通过元分类器(Meta-Classifier)区分问题的复杂度,对简单问题启用「快速通道」(如直接调用预存规则库)。
                  符号-实体绑定增强:通过多模态训练(如将字母与视觉符号关联)强化基础概念的确定性。
                  反直觉训练(Counter-Intuitive Training):主动向模型注入「简单问题需简洁响应」的强化信号,抑制过度推理。
                  人类反馈强化学习(RLHF):通过标注者干预,修正模型对简单问题的不必要复杂化倾向。
                  5. 当前局限性:认知架构的差异
                  人类在处理此类问题时,依赖「系统1」(直觉快速处理)和「系统2」(逻辑慢思考)的协作,而LLM缺乏这种分层机制,所有问题均需通过同一套概率网络处理。这种「一刀切」的架构,正是简单问题复杂化的根本原因。未来可能需要引入混合架构模型(如结合符号逻辑引擎与神经网络)来缓解这一问题。
                  你的提问实际上指向了AI研究的核心挑战之一:如何让机器在保持复杂推理能力的同时,获得人类般的「常识性简洁」。这或许需要一场认知科学启发下的新一代AI范式变革。


                  IP属地:山东来自Android客户端9楼2025-02-01 18:23
                  回复
                    虽然,但是你都不开深度思考,用的还是v3模型,那有什么好说的


                    IP属地:江西来自Android客户端10楼2025-02-01 19:10
                    收起回复
                      dp需要开深度思考,不开就是v3模型,开了才是r1模型,v3远弱与r1


                      IP属地:新疆来自Android客户端11楼2025-02-01 20:03
                      回复
                        是不是你提问里面出问题了


                        IP属地:上海来自Android客户端12楼2025-02-01 20:31
                        收起回复
                          确实有这个问题,但是你用的是v3没开r1,dsr1基本上不会数错了,虽然有时候思考过程会很纠结反复


                          IP属地:浙江来自Android客户端13楼2025-02-01 21:07
                          收起回复
                            是这样子的


                            IP属地:北京来自Android客户端14楼2025-02-01 21:09
                            回复
                              开深度思考数的 第二遍是把前面的复制粘贴数的



                              IP属地:河南来自Android客户端15楼2025-02-02 17:53
                              回复