Configurable Intelligence

Posted 2026-03-03 | stdin

无聊看了下 Language Model Contains Personality Subnetworks ，刚好A社也最近也写了篇The persona selection model，感觉现在讨论LLM的「人格」比较火

先说下这篇论文，它提出，可以做类似「脑前额叶切除」让AI屏蔽一部分人格，不需要 fine-tune，而且就算prompt指定其它人格也无济于事。

不过它搞出来的分类比较喜剧，用的是 MBTI 。测试集是一堆 YES/NO 二元分类

光说「人格」这种问题比较抽象，有哪些应用呢？很遗憾，我对此脑袋哐当一声没太多想法，还是AI提醒了我：

因为是物理mask，所以 jailbreak 变得不太可能了
可以定向优化某些选项。它甚至在 contra.py 里可以设置 mask_gamma 这个百分比。比如保持 100% 的好奇心，10%的拒绝率
避免「平均人」这个fallacy。这是让我震惊的

因为我始终觉得 MBTI 不太准，问AI业界里有啥更好的，AI说"Big Five" (OCEAN: Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism)。又了解到新东西了

具体怎么阉割模型呢？Wanda (Pruning by Weights and Activations)

给模型喂料，两种相反的，观察哪些区域激活，
把多种相反的交叉比对，形成一个「人格」，做成一个 mask
阉割，在下一轮计算的时候，把网络和mask相乘，符合「人设」的KEEP(1)，不符合的全部标记为 DELETE(0)

想一想这个后果还是比较可怕的。最坏的情况是给你一个美丽新世界。

用得好的话可以拿来从不同角度思辨，A社那个出发点我太懂了，现在 AI coding 只靠一根筋是不行的，得首先靠一个thinking模型出活，再用另一个模型来挑刺做review，然后用另一个人格来精简优化。可能上线之后还得站在别的部门的位置考虑优化迭代。最后形成一个多角色演进的loop，让代码达到某种平衡。

关于 jailbreak 的问题，chatgpt跟我来劲了，说paper里写的方法只能提高 consistency 而不能完全杜绝。跟它辩经了一会儿，达成共识，可以用论文的方法去 mask 一个小模型，用来保护大模型的安全。底线可以尽可能保证让大模型只能工作在指定的范围内。

Comments