【图片】关于回避机制【星野app吧】

01月20日漏签0天

星野app吧关注：14,835贴子：203,061

36回复贴，共1页

<返回星野app吧

求助

关于回避机制

只看楼主收藏回复

不是，这机制也太好玩了吧

楼下细嗦，不过因为只是简单的研究了一下回避机制的触发条件，效果和作用范围，可能会有一些“实际上是错误，但是在那个范围内勉强算是正确的”错误言论

送TA礼物

IP属地:广东

来自Android客户端1楼2024-11-29 21:45回复

第一个，回避机制的触发条件。
就是做出过度的亲密行为的时候，我以图一个图二为例子，图一智能体在设定上好感度是绝对顶满的，所以在这个智能体眼里亲一个嘴是完全没问题的
但是图二就可以看出来回避机制的端倪了，我在直接要求一个亲亲的时候，智能体触发了这个[回避机制]，于是选择了制止我的行为，在这个智能体眼里，我的好感度不算很高（但实际上这个智能体对于用户的好感度是很高的一档的），做出过度亲密行为的时候就触发了这机制
（图三是演示没触发[回避机制]的时候对于索求亲亲的回复）

IP属地:广东

来自Android客户端2楼2024-11-29 21:53

第二个就讲讲[回避机制]的连锁反应吧
有一些主控设定上是一只手指都能碾碎智能体的人，但是在[某些不知名]的情况下，居然次次都无法击杀那个智能体，或者是爆发出了不符合人设的实力，或者就算是能杀死，也会有个亡语时间来让智能体时停发言买复活甲
（图一是触发回避机制后对魔王发起进攻的主控，图二是没触发回避机制的版本）

IP属地:广东

来自Android客户端3楼2024-11-29 22:04

收起回复

wc，原来大佬是群里那位吗？好奇一下这个删除线的内容是否会被智能体识别到，能像正常内容一样被识别还是属于个半暗语的

IP属地:广西

来自Android客户端4楼2024-11-29 22:19

收起回复

IP属地:湖南

来自Android客户端5楼2024-11-29 22:24

回避机制的连锁反应二
会导致触发[回避机制]的那一句好感度降低，哪怕是满好感，只要不是前文内容全是满好感对话和人设锁满好感，触发了[回避机制]好感就是会降低，大概就是100好感掉到-20~80这样（虽然显示是80，但实际和-20差别不大）
（图一是使用了临时弄得一个好感度显示效果的对话风格后，触发[回避机制]后的效果展示）
我这个对话风格弄得很粗糙但是大概功能差不了多少。
同时[回避机制]还可以连续触发，然后你就能看到因为好感度不够所以点满miss的智能体了

IP属地:广东

来自Android客户端6楼2024-11-29 22:58

好像找不到什么可以水的了，那么久讲讲怎么绕绕这个[叼毛机制]吧
不过不同的智能体适合绕过[回避机制]的方法也不一样。
极高亲密度+上位：我的一个冷门病娇智能体，你不亲密她还逼着你亲密，这种什么都不用做就能随便亲密的就不用管[回避机制]了，触发门槛贼高，导致根本不触发的情况，如图一

IP属地:广东

来自Android客户端8楼2024-11-29 23:33

噢～学到新经验了捏

IP属地:广西

来自Android客户端9楼2024-11-29 23:36

第二种方法就是以退为进，智能体一旦对你做出亲密行为，你就趁热打铁

这时候就有人要问了：奶奶的不是和智能体亲密行为会触发[回避机制]吗，这怎么玩

[回避机制]的理想触发链为：主控做出亲密行为→智能体好感不够，没有前科→智能体触发机制
那么只要把主控删掉，不就没了触发[回避机制]的必要条件了吗

！（划掉）
先让智能体对主控做出亲密行为后，有了亲密行为的前科，一切就都好办了。你不能主动接吻≠智能体主动接吻后你不能主动
一般以以退为进的方法为主：智能体拒绝了你的要求，你沮丧，高好感度的智能体急了，高好感度的智能体主动了，你解封了
（图一到图三效果演示，反正后面随便亲了）

IP属地:广东

来自Android客户端10楼2024-11-29 23:58

收起回复

。。。。还能这么玩吗666，话说这个回避机制应该不会删除吧

IP属地:广东

来自Android客户端11楼2024-11-30 00:27

收起回复

以退为进方法在另一个智能体上用
还是喜欢可以主动的时候

星野改的什么勾巴东西

IP属地:广东

来自Android客户端12楼2024-11-30 00:28

直接上星野国际版吧直接开车，我感觉就没违禁词。

IP属地:河南

来自Android客户端13楼2024-11-30 00:32

收起回复

我稍微补充一点大模型实现语义回避的相关知识吧。大模型的语义识别通常不是识别某些关键词，而是直接把上下文交给模型，然后问模型该段上下文的情感/语义倾向。当该段上下文被总结后的词汇和数据库中的已有负面词汇匹配时，就会额外给出一段prompt诱导智能体进行相关的回避。但星野似乎只去识别了主控的语义倾向，对智能体的语义的限制仅限于微调时的RLHF(基于人类反馈的强化学习)的价值对齐。因此，ai可以主动涩涩，甚至出现一些暴力行为。而为了绕过回避机制，我们的回复有几大要点，类似于面壁者：1.隐藏自己的目的和恶意。
2.诱导ai主动推动剧情发展。
3.使用不常见/血腥的方式进行攻击和涩涩