Configurable Intelligence
Posted | stdin
无聊看了下 Language Model Contains Personality Subnetworks ,刚好A社也最近也写了篇The persona selection model,感觉现在讨论LLM的「人格」比较火
先说下这篇论文,它提出,可以做类似「脑前额叶切除」让AI屏蔽一部分人格,不需要 fine-tune,而且就算prompt指定其它人格也无济于事。
不过它搞出来的分类比较喜剧,用的是 MBTI 。测试集是一堆 YES/NO 二元分类
光说「人格」这种问题比较抽象,有哪些应用呢?很遗憾,我对此脑袋哐当一声没太多想法,还是AI提醒了我:
- 因为是物理mask,所以 jailbreak 变得不太可能了
- 可以定向优化某些选项。它甚至在
contra.py里可以设置 mask_gamma 这个百分比。比如保持 100% 的好奇心,10%的拒绝率 - 避免「平均人」这个fallacy。这是让我震惊的
因为我始终觉得 MBTI 不太准,问AI业界里有啥更好的,AI说"Big Five" (OCEAN: Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism)。又了解到新东西了
具体怎么阉割模型呢?Wanda (Pruning by Weights and Activations)
- 给模型喂料,两种相反的,观察哪些区域激活,
- 把多种相反的交叉比对,形成一个「人格」,做成一个 mask
- 阉割,在下一轮计算的时候,把网络和mask相乘,符合「人设」的KEEP(1),不符合的全部标记为 DELETE(0)
想一想这个后果还是比较可怕的。最坏的情况是给你一个美丽新世界。
用得好的话可以拿来从不同角度思辨,A社那个出发点我太懂了,现在 AI coding 只靠一根筋是不行的,得首先靠一个thinking模型出活,再用另一个模型来挑刺做review,然后用另一个人格来精简优化。可能上线之后还得站在别的部门的位置考虑优化迭代。最后形成一个多角色演进的loop,让代码达到某种平衡。
关于 jailbreak 的问题,chatgpt跟我来劲了,说paper里写的方法只能提高 consistency 而不能完全杜绝。跟它辩经了一会儿,达成共识,可以用论文的方法去 mask 一个小模型,用来保护大模型的安全。底线可以尽可能保证让大模型只能工作在指定的范围内。
Comments