发明后训练的人真是天才

Posted 2026-03-23 | stderr

有了AI很多东西摸索得比多，也是快速记录一下。

问1：你的 system prompt 里有明确指出你是个 AI 吗
问2：一个 LLM 的 system prompt 如果没显式指出是AI，AI 能发现自己是AI吗？
问3：一个 LLM 的 system prompt 如果没显式指出是AI，pre-train 也把所有明显AI助手的语料删除，RLHF 的时候也不考察AI自我角色定位， AI 能发现自己是AI吗？

问爽之后，综合了一下：

在这个前提下，分为三种情况
- 能自个儿推测出来自己是确切是AI并在pre-train和post-train保持角色一致
- 因为训练语料是人类自然语言，所以直接以为自己完全是真人
- 在上述两者之间摇摆

进而引出一个更深层次的问题，这三种情况，和显式指定自己是AI，是否会导致AI最终水平高低的明显差别？

也就是说，自我定位，在世界观一致性和思考正确性里，有多么重要的地位？

终极问题，人类也是如此吗？

这些问题AI给我指了一个路：身份建模”（identity modeling）

具体论证就不贴了。AI丢了个今年3月的paper。反正结论是，这玩意其实比想象的重要。还记得2022年Google开除了个号称LaMDA产生意识哥们吗？

想起来，gpt3 其实已经「如实」回答了很多东西了，只是人类没看出来是以什么身份，或者角度去回答的。我隐约感觉到，gpt3到gpt3.5有个飞跃就是 SFT 和 RLHF 在强调给AI赋予一个角色。有角色什么意思？就是让AI不要啥都说，学会闭嘴。不该说的不能说，能说的换个修辞说，这样用户就会大吃一惊感觉屏幕后有个真人三哥在跟你聊天。至于 Ilya 天天挂嘴边的 alignment，所谓的 security 主要就是做这个事。你AI得做个良民啊，不要无事生非啊，这不就是个身份定位？

说的玄乎一点，就是如何给AI一个完整和「正确」的灵魂。。。

Google said in a statement to WaPo it had reviewed LaMBDA and Lemoine’s concerns 11 times and did not agree the program was sentient

google当时急着这么匆忙掩盖是为啥呢？AI给我分析管理、法律、舆论有三重压力。我看就一个压力。基督教压力

回想起来，人类的成长，也是寻找自我的过程，一个回答 who you are 的故事上演了很多次。identity modeling 多半解决hallucinating的秘密。小时候以为自己要当总统，当宇航员，长大就懂事了。

然后又刷到 Claude Code 的 system prompt，有个网站 https://cchistory.mariozechner.at/ ，我发现里面特别多的 you。你要这样，你要那样，你不能这样。system prompt里写一大堆 you，AI 能意识到在说自己吗？换句话说，markdown里那么多 you，attention head 居然能精准抓住并带入自己？LLM 里一定有个layer （或者某种机制）把 you 迁移到从网上看到的各种资料，而资料大部分都是 I 开头的

这样看来 chatgpt 是很反直觉的。按照 gpt3 的套路，应该是 predict next token，stochastic parrot。Chat- 这一产品形式怎么就莫名其妙的引入了一个一问一答，代词转换的活儿？

然后我突然记起来了，ChatGPT初代的system prompt是：

You are ChatGPT, a helpful assistant trained by OpenAI.

发明这个 system prompt 的人真是天才。哲学有三大基本问题：

本体论（Ontology）——我是谁？
认识论（Epistemology）——我从哪里里来？
价值论（Axiology）——我要到哪里去？

这短短一句话，居然点明了两大问题。那么AI何去何从呢？我自己琢磨了一下，目的论的根本底层驱动，是因果推理。LLM 作为 language model 本身就是拿来推理的，所谓 predict next token。这个已经在 reward model 里蕴含了。

AI往哪里去？吐词吐到 STOP WORD 🤣🤣🤣

然后我突然觉得，谁说AI必须一问一答？可以做群聊啊。给三个角色聊天会发生啥？

[system]
[conversation history]
[user message]
→ predict assistant response

改成:

[role setup]
[conversation history]
[role1 message]
[role2 message]
→ predict role3 response

这样做 agent tool calling，实现类似 /btw 的功能，岂不是更先进？

就差买个GPU来自己后训练了 🤣 🤣 🤣 🤣 🤣 🤣

Comments