中国人口吧 关注:941,360贴子:15,547,078

回复:有无懂chatgpt原理的科普一下

只看楼主收藏回复

3


IP属地:贵州来自Android客户端169楼2023-05-12 00:21
回复
    这玩意没联网啊,我甚至好奇它后来是咋改对的


    IP属地:山东来自Android客户端170楼2023-05-12 00:22
    回复
      gtp有很大的弊端,就是楼主所说的一本正经的胡说八道,你让它推荐一个地区的旅游景点,前几个还正常,超过十个就开始胡说八道了,但是说的比真的还真,还给出这些景点的交通攻略。


      IP属地:安徽来自Android客户端171楼2023-05-12 00:22
      回复
        别人问我话我也喜欢先说个假的


        IP属地:吉林来自Android客户端173楼2023-05-12 00:30
        回复
          3


          IP属地:甘肃来自Android客户端174楼2023-05-12 00:31
          回复
            gpt是一个语言模型


            IP属地:江苏来自Android客户端175楼2023-05-12 00:36
            回复
              它的训练库不联网,也就说它不是根据实际的时间做出回答,而是根据曾经存在过的“星期几”做出回答。得出的结论当然是错的。


              IP属地:江苏来自Android客户端176楼2023-05-12 00:36
              回复
                因为他不是像你一样得到一个问题搜寻相关答案再给出相关答案,他是一个语言模型,使用的逻辑是:你给出了这句话,他将这句话翻译成向量,再根据他拟合出的系统得出他的输出,翻译成语言,最后再给你。也就是说,只要他的用来拟合系统的数据足够奇葩,你完全可以让他相信你说出“今天是什么日子”之后,他应该回复“猪肉应该掺混凝土来制备航母的原料”。他没有你的“意义交流”的语言能力,只有一个猜出来的输入输出间的黑箱


                IP属地:陕西来自Android客户端177楼2023-05-12 00:37
                收起回复
                  我不懂


                  IP属地:河北来自Android客户端178楼2023-05-12 00:37
                  回复
                    我不好说


                    IP属地:海南来自Android客户端179楼2023-05-12 00:40
                    回复
                      不怎么了解 但感觉就是个设置了多种风格和类型的对话模板 然后把搜到的东西无脑套模板来回答的玩意


                      来自Android客户端180楼2023-05-12 00:43
                      收起回复
                        ai第一遍会比较随意


                        IP属地:福建来自Android客户端181楼2023-05-12 00:45
                        回复
                          大模型现在本质上就是算一段文本下一个最有可能出现的词,原生是没办法获取其他任何内容的。能知道日期是因为每段对话开头预设的提示词会告诉它现在的时间


                          IP属地:安徽来自Android客户端182楼2023-05-12 00:49
                          回复
                            大语言模型的基本存储单位是token,一个token约等于一个字,词,标点符号等等。
                            这些token最初是随机排放的,没有任何规律。
                            而喂进去的文章就是生成token之间的参数,把原本随机混乱的token通过在文章中的使用量,使用环境等等相链接起来。
                            所以模型是不会记忆任何资料数据的。口中有人说语言模型是搜索引擎基本就是信口开河。
                            而文字接龙是语言模型的学习与生成方式。它们确实是通过这种模式确定和预测下一个文字的。
                            但这种生成不是随机也不是胡乱预测的。正是利用之前学习的,token之间的关联参数进行选择的。
                            而当参数量达到1000亿时,不可思议的涌现现象出现了...人类目前搞不清除涌现是怎么出现的。
                            胡数八道的原因正是因为模型根据token与参数在选择相关联的回答,也证明了他并不是在引用任何资料。
                            好奇的可以去问问gpt岳母刺字,问bing需要加no_search,目前它们一定会胡说,并给你编一个婆婆给媳妇刺字的故事...
                            而且这个故事有模有样。老外说不定就信了。
                            但其实他们参数里是有喂这个典故的。
                            换成英文或允许bing搜索他们都答的出来。
                            目前大语言模型在成语方面就很稀奇的理解不了。这些缺陷反而都证明它们并不是简单的搜索信息回答,而是真的在用心的胡编在联想。
                            岳母刺字这个问题它们编的故事并不存在任何相关相关文化,完全就是根据岳母就是老婆的妈妈,刺字就是在纹身,然后补充各种新婚前之类的细节瞎说的。


                            IP属地:江苏来自Android客户端185楼2023-05-12 00:56
                            回复
                              我们把openai给ban了,对面放弃中文训练,属于是双向逃离


                              IP属地:陕西来自Android客户端186楼2023-05-12 00:56
                              收起回复