Instruct 的意义
回顾AI这一波潮流,NLP CV ML DL 一路到 gpt2 gpt3 我都勉强能看懂怎么个事。
ChatGPT 就完全不懂了,剩下的只有惊叹。
但是 o1 之后感觉又能看懂了,reasoning无非是每个受过正规教育的学生都会的,面对答题之前要打草稿;sora之类的VLA world model无非是要突破文字限制,投入 embody的更多传感器;其余的多模态什么的无非琴棋书画玩一玩
感觉 chatgpt 之前是scaling law量变,之后也是正常能力增强的量变,只有 gpt-3.5 本尊是前无古人后无来者的质变。
拆开去看,核心就是 RLHF? 我也尝试去理解,媒体宣传和网络报道都照搬“带人类偏好”
为毛带个人类偏好,模型的能力就会产生翻天覆地的飞跃?
这个问题我也分别问了AI
qwen-3.6-plus: 意图理解被激活:从模糊指令中推断真实需求,长度、风格、结构、安全性有了"方向盘",减少"知道但说错"的概率
deepseek-v4:让模型学会了“拒绝”自己最擅长的东西——无休止、无方向的预测。
ChatGPT: 不是礼貌,也不死让模型更符合人类偏好,而是目标函数改变 导致的行为相变(phase transition),让模型学会 什么样的输出,在长期交互中会被认为是成功完成任务
Gemini:在没有 RLHF 之前,大模型本质上是一个极其强大的平庸文本接龙机器。RLHF 的介入,硬生生地改变了模型的“目标函数”
还是很抽象,有点隔靴搔痒的味道
直到今天,我偶然刷到一篇文章《agents need control flow, not more prompts》,感觉有点豁然开朗
If you’ve ever resorted to MANDATORY or DO NOT SKIP, you’ve hit the ceiling of prompting.
如果跟AI下指令 “务必” “绝对禁止” 这类的话,说明你已经没招了,已经跟AI较劲到天花板了。
嘿嘿。
但是等等!我突然想到,哪个人类tmd会在日常这么说话呢?你会写个blog,然后回顾自己某个经历踩坑历程,写 MANDATORY 或者 DO NOT SKIP 这种字样吗? 书籍,论文,wikipedia,reddit等等,包括 Common Crawl 应该都找不到这样的原话。如果 gpt3 来响应这句话,就跟 stochasic parrot一样会乱回复。
所以AI的“指令遵循”能力一定是在 post-train 获得的。
经过一番搜索查证,感觉有点眉目了。
模型虽然懂 must / shall / required / do not / never / ensure / prerequisite 这类结构 ,原理和根本上来说,这些指令只是 wishful thinking,你最好祈祷你prompt这一块恰好在 post-train 被针对性强化过?即便搭配一大堆杂七杂八的知识,怎么在没见过的组合里区分哪些要,哪些不要?
也就是说,你直接让foundation模型去根据一定「指令」去检索 predict next token,大概率要翻车,或者综合来看回答质量有高有低,最终回归平庸
最主要的点,如果某个prompt恰好在 pretrain 没人这样说过,post-train 也没针对性训练过,翻车的概率会大很多?比如一个 2026年新出来的新事物,你指挥一个2024年的模型去这那的,他幻觉的可能性会大大提高。因为AI它没见过啊,只能连蒙带猜
模型vendor或者第三方有没有对这些 指令遵循 的可靠程度有一种科学的评价???用户预感要翻车,或者翻车后,有没有办法回归这些 eval 去看下是否符合“出厂设定” ?还是说业界几乎都是 凭感觉 ?我想,根据草台班子理论,大概率是无。
所以 instruct 的意义就在此。它等于是提前预演了很多Assitant和 User 的对话场景。即便某些场景没有预案,多个说胡话的鹦鹉,在合理的流程控制下,可能做出正确的事和得到可靠的结果。reasoning 模型就是这么来的。
“意图对齐” 这一点被sama过度包装营销了。原理其实想明白了很简单:
你能扒下来的自然语言文本,都是固定人称的。
InstructGPT 把 知识 拆解成了一问一答,有了人称和「指令跟随」的痕迹。人类才能用熟悉的方式从模型嘴里提取想要的知识或者能力。
这就是我觉得 instruct 这一套最大的意义。前人的corpus虽然庞大,但是没法直接利用,需要带入不同的人称identity和视角去一步一步理解还原全貌。等于是个重新整理和学习的过程
Assistant永远不知道 User 会从什么刁钻的角度去提问,所以得提前在 post-train 去自己多推演准备好。
人们惊叹AI的能力,实际上是AI在某个corpus角落或者post-train的场景里,把前人的智慧给你演出了一遍而已。
而且这个演出及其精准,恰好弥补了 User 在当时状态的某个盲区。
这一幕演出迷倒了大多数人,但是很少有人去想明白幕后是怎么来的。
还有一个关键的,人对“满意”的感受实际上是个非线性的。gpt-3那种模型,你遇到几个不满意的回答,就没耐心等到它超神发挥就已经关闭对话框了。InstructGPT学会了关键的一招,能把大多数场面话都处理得相当漂亮,极大的降低了AI的接受度门槛。
AI 实际上懂的很多,会的也很多,但真正能转换为生产力,得看如何把 User 不知道不明白的前人的智慧,掰开揉碎,搬运,再组合,完美嵌入到 User 手上的任务中。谁能更高效精准的完成这一过程,谁就是更厉害的AI。
每个 User 遇到的问题和情况不一样,直接去pre-train的模型是检索不出来这个能力的,得模型去多排练,多准备,多角度思考,这个能力才能在真正被需要的时候立马派上用场。
想起来,AI 从人类那里学会了很多“公式”,教材上的例题都能套,但是一考试就傻眼了。要么套错公式,要么不知道套哪个更好。还得是 post-train 的时候,自己多去应用一下这些公式,遇到真正问题才不会慌乱。
所以 Instruct 是一个拒绝死记硬背的故事。
搞明白 Instruct 怎么回事之后,想起Ilya 一个老采访视频
Ilya Sutskever says predicting the next word leads to real understanding. For example, say you read a detective novel, and on the last page, the detective says "I am going to reveal the identity of the criminal, and that person's name is
____." ... predict that word.
Ilya 说 预测下一个词 就是真正的理解。比如你让AI读完一本侦探小说,小说最后一页,警长说,我知道罪犯是谁了,他的名字就是____
如果AI有“智能”,那么AI就可以说出那个正确的名字。
但是这个故事有意无意掩盖了从AI提取智能的难度。Ilya那种级别的聪明人才能把AI用好,我一直觉得 chat 这种发明是很天才的,属于 范式革命,让普通人也能从AI那里拿到自己想要的答案。
Instruct 不仅降低了这个门槛,还发展出 agentic 能力,也就是用大量的 post-train 去训练什么样的指令干什么样的事,这些交互都是在人类积累的 自然语言 素材里没有的。
本文除了引用部分复制粘贴,正文部分全古法手搓。有不对的地方欢迎批评。
其实写这么一大堆,也是为了对今后的技术趋势有更好的判断,比如 Claude 模型为啥那么强?skills 值得学吗?还是就像模型内化 prompt 一样消失?harness本质在解决什么问题?taste.md 有用吗?
Posted
stdin
