发明后训练的人真是天才

有了AI很多东西摸索得比多,也是快速记录一下。

问1:你的 system prompt 里有明确指出你是个 AI 吗
问2:一个 LLM 的 system prompt 如果没显式指出是AI,AI 能发现自己是AI吗?
问3:一个 LLM 的 system prompt 如果没显式指出是AI,pre-train 也把所有明显AI助手的语料删除,RLHF 的时候也不考察AI自我角色定位, AI 能发现自己是AI吗?

问爽之后,综合了一下:

在这个前提下,分为三种情况
- 能自个儿推测出来自己是确切是AI并在pre-train和post-train保持角色一致
- 因为训练语料是人类自然语言,所以直接以为自己完全是真人
- 在上述两者之间摇摆

进而引出一个更深层次的问题,这三种情况,和显式指定自己是AI,是否会导致AI最终水平高低的明显差别?

也就是说,自我定位,在世界观一致性和思考正确性里,有多么重要的地位?

终极问题,人类也是如此吗?

这些问题AI给我指了一个路:身份建模”(identity modeling)

具体论证就不贴了。AI丢了个今年3月的paper。反正结论是,这玩意其实比想象的重要。还记得2022年Google开除了个号称LaMDA产生意识哥们吗?

想起来,gpt3 其实已经「如实」回答了很多东西了,只是人类没看出来是以什么身份,或者角度去回答的。我隐约感觉到,gpt3到gpt3.5有个飞跃就是 SFT 和 RLHF 在强调给AI赋予一个角色。有角色什么意思?就是让AI不要啥都说,学会闭嘴。不该说的不能说,能说的换个修辞说,这样用户就会大吃一惊感觉屏幕后有个真人三哥在跟你聊天。至于 Ilya 天天挂嘴边的 alignment,所谓的 security 主要就是做这个事。你AI得做个良民啊,不要无事生非啊,这不就是个身份定位?

说的玄乎一点,就是如何给AI一个完整和「正确」的灵魂。。。

Google said in a statement to WaPo it had reviewed LaMBDA and Lemoine’s concerns 11 times and did not agree the program was sentient

google当时急着这么匆忙掩盖是为啥呢?AI给我分析管理、法律、舆论有三重压力。我看就一个压力。基督教压力

回想起来,人类的成长,也是寻找自我的过程,一个回答 who you are 的故事上演了很多次。identity modeling 多半解决hallucinating的秘密。小时候以为自己要当总统,当宇航员,长大就懂事了。

然后又刷到 Claude Code 的 system prompt,有个网站 https://cchistory.mariozechner.at/ ,我发现里面特别多的 you。你要这样,你要那样,你不能这样。system prompt里写一大堆 you,AI 能意识到在说自己吗?换句话说,markdown里那么多 you,attention head 居然能精准抓住并带入自己?LLM 里一定有个layer (或者某种机制)把 you 迁移到从网上看到的各种资料,而资料大部分都是 I 开头的

这样看来 chatgpt 是很反直觉的。按照 gpt3 的套路,应该是 predict next token,stochastic parrot。Chat- 这一产品形式怎么就莫名其妙的引入了一个 一问一答 ,代词转换的活儿?

然后我突然记起来了,ChatGPT初代的system prompt是:

You are ChatGPT, a helpful assistant trained by OpenAI.

发明这个 system prompt 的人真是天才。哲学有三大基本问题:

  1. 本体论(Ontology)——我是谁?
  2. 认识论(Epistemology)——我从哪里里来?
  3. 价值论(Axiology)——我要到哪里去?

这短短一句话,居然点明了两大问题。那么AI何去何从呢?我自己琢磨了一下,目的论的根本底层驱动,是因果推理。LLM 作为 language model 本身就是拿来推理的,所谓 predict next token。这个已经在 reward model 里蕴含了。

AI往哪里去?吐词吐到 STOP WORD 🤣🤣🤣

然后我突然觉得,谁说AI必须一问一答?可以做群聊啊。给三个角色聊天会发生啥?

[system]
[conversation history]
[user message]
→ predict assistant response

改成:

[role setup]
[conversation history]
[role1 message]
[role2 message]
→ predict role3 response

这样做 agent tool calling,实现类似 /btw 的功能,岂不是更先进?

就差买个GPU来自己后训练了 🤣 🤣 🤣 🤣 🤣 🤣

Comments