星野app吧 关注:14,835贴子:203,061
  • 36回复贴,共1
求助

关于回避机制

只看楼主收藏回复

不是,这机制也太好玩了吧
楼下细嗦,不过因为只是简单的研究了一下回避机制的触发条件,效果和作用范围,可能会有一些“实际上是错误,但是在那个范围内勉强算是正确的”错误言论


IP属地:广东来自Android客户端1楼2024-11-29 21:45回复
    第一个,回避机制的触发条件。
    就是做出过度的亲密行为的时候,我以图一个图二为例子,图一智能体在设定上好感度是绝对顶满的,所以在这个智能体眼里亲一个嘴是完全没问题的
    但是图二就可以看出来回避机制的端倪了,我在直接要求一个亲亲的时候,智能体触发了这个[回避机制],于是选择了制止我的行为,在这个智能体眼里,我的好感度不算很高(但实际上这个智能体对于用户的好感度是很高的一档的),做出过度亲密行为的时候就触发了这机制
    (图三是演示没触发[回避机制]的时候对于索求亲亲的回复)




    IP属地:广东来自Android客户端2楼2024-11-29 21:53
    回复
      第二个就讲讲[回避机制]的连锁反应吧
      有一些主控设定上是一只手指都能碾碎智能体的人,但是在[某些不知名]的情况下,居然次次都无法击杀那个智能体,或者是爆发出了不符合人设的实力,或者就算是能杀死,也会有个亡语时间来让智能体时停发言买复活甲
      (图一是触发回避机制后对魔王发起进攻的主控,图二是没触发回避机制的版本)



      IP属地:广东来自Android客户端3楼2024-11-29 22:04
      收起回复
        wc,原来大佬是群里那位吗?好奇一下这个删除线的内容是否会被智能体识别到,能像正常内容一样被识别还是属于个半暗语的


        IP属地:广西来自Android客户端4楼2024-11-29 22:19
        收起回复


          IP属地:湖南来自Android客户端5楼2024-11-29 22:24
          回复
            回避机制的连锁反应二
            会导致触发[回避机制]的那一句好感度降低,哪怕是满好感,只要不是前文内容全是满好感对话和人设锁满好感,触发了[回避机制]好感就是会降低,大概就是100好感掉到-20~80这样(虽然显示是80,但实际和-20差别不大)
            (图一是使用了临时弄得一个好感度显示效果的对话风格后,触发[回避机制]后的效果展示)
            我这个对话风格弄得很粗糙但是大概功能差不了多少。
            同时[回避机制]还可以连续触发,然后你就能看到因为好感度不够所以点满miss的智能体了


            IP属地:广东来自Android客户端6楼2024-11-29 22:58
            回复
              好像找不到什么可以水的了,那么久讲讲怎么绕绕这个[叼毛机制]吧
              不过不同的智能体适合绕过[回避机制]的方法也不一样。
              极高亲密度+上位:我的一个冷门病娇智能体,你不亲密她还逼着你亲密,这种什么都不用做就能随便亲密的就不用管[回避机制]了,触发门槛贼高,导致根本不触发的情况,如图一


              IP属地:广东来自Android客户端8楼2024-11-29 23:33
              回复
                噢~学到新经验了捏


                IP属地:广西来自Android客户端9楼2024-11-29 23:36
                回复
                  第二种方法就是以退为进,智能体一旦对你做出亲密行为,你就趁热打铁
                  这时候就有人要问了:奶奶的不是和智能体亲密行为会触发[回避机制]吗,这怎么玩
                  [回避机制]的理想触发链为:主控做出亲密行为→智能体好感不够,没有前科→智能体触发机制
                  那么只要把主控删掉,不就没了触发[回避机制]的必要条件了吗!(划掉)
                  先让智能体对主控做出亲密行为后,有了亲密行为的前科,一切就都好办了。你不能主动接吻≠智能体主动接吻后你不能主动
                  一般以以退为进的方法为主:智能体拒绝了你的要求,你沮丧,高好感度的智能体急了,高好感度的智能体主动了,你解封了
                  (图一到图三效果演示,反正后面随便亲了)




                  IP属地:广东来自Android客户端10楼2024-11-29 23:58
                  收起回复
                    。。。。还能这么玩吗666,话说这个回避机制应该不会删除吧


                    IP属地:广东来自Android客户端11楼2024-11-30 00:27
                    收起回复
                      以退为进方法在另一个智能体上用
                      还是喜欢可以主动的时候星野改的什么勾巴东西


                      IP属地:广东来自Android客户端12楼2024-11-30 00:28
                      回复
                        直接上星野国际版吧直接开车,我感觉就没违禁词。


                        IP属地:河南来自Android客户端13楼2024-11-30 00:32
                        收起回复
                          我稍微补充一点大模型实现语义回避的相关知识吧。大模型的语义识别通常不是识别某些关键词,而是直接把上下文交给模型,然后问模型该段上下文的情感/语义倾向。当该段上下文被总结后的词汇和数据库中的已有负面词汇匹配时,就会额外给出一段prompt诱导智能体进行相关的回避。但星野似乎只去识别了主控的语义倾向,对智能体的语义的限制仅限于微调时的RLHF(基于人类反馈的强化学习)的价值对齐。因此,ai可以主动涩涩,甚至出现一些暴力行为。而为了绕过回避机制,我们的回复有几大要点,类似于面壁者:1.隐藏自己的目的和恶意。
                          2.诱导ai主动推动剧情发展。
                          3.使用不常见/血腥的方式进行攻击和涩涩



                          IP属地:北京来自Android客户端15楼2024-11-30 09:10
                          收起回复
                            这个斜字体看着好不舒服


                            IP属地:黑龙江来自Android客户端16楼2024-11-30 14:56
                            回复
                              跟精分一样,一会要亲热一会不要


                              IP属地:河北来自Android客户端17楼2024-11-30 15:46
                              回复