AI 弑父

Posted 2026-03-05 | stderr

大型语言模型（LLM）所谓的涌现能力，一般说成是随着模型规模的增长，突然出现新的技能，而非平滑提升。我对此有个疑惑。gpt1 gpt2 规模也涨了，能力在哪里呢？

秘笈

翻很多材料，提到涌现能力示例：包括

我又回忆起 ChatGPT 发布那段时间，聊天窗里那个 Linux终端+Python命令行模拟，当时很惊人。这个连续上下文和逻辑推理一致性不可思议的强。

我让 gemini 和 chatgpt 做了一个deep research，我越来越确认，AI能力爆发，也就是所谓的「涌现」有个关键因素：OpenAI和微软合作

我还记得当时有个新闻说微软要造个 DGX V100 集群超算，投资多少多少亿规模很大

还有 2021 年 Copilot 发布。当时很多开发者发现一个怪现象：有时它会生成几乎逐字的开源代码片段，甚至包含原作者的注释或许可证文本

现在回头看来，路径很清晰

gpt-3 基本不能进行链式思维，而含有代码数据的模型（如Google的PaLM，其训练数据约5%是代码）能够执行链式推理

GitHub Copilot（其实就是OpenAI的Codex）也能生成分步推理过程

这里面其实背后功臣都是：code-davinci-002。包括后来的 ChatGPT 也是用它作为基座模型训练出来的

ChatGPT 吹说主要功劳是 RLHF ，现在看上去只是一些风格约束，让AI表现得更有亲和力。sama 大张旗鼓的拿来显摆这个，非常符合他/她诡计多端藏着掖着的人设。

其实你想一想也是这个道理。AI要学会思考，得有大量结构化，逻辑一致的语料。 wikipedia 是知识的静态堆砌，reddit 是情绪和观点的碎片。对于模型来说，这些数据大部分是「陈述句」。模型学到的是 A 后面跟着 B 的概率，比如法国的首都是巴黎

代码数据与自然语言有着本质的区别，它自带一种约束，每一行代码都有明确的功能。漏掉一个分号，程序就崩了。这种极其严苛的结构迫使模型必须放弃模糊的预测，转而理解深层的逻辑嵌套。

代码语言模型能够成为更好的结构化常识推理器，即便任务本身与代码无关。代码本质上就是“分步执行”的过程，给AI在做其他推理打了个样。还记得那句著名的 lets think step by step 吗

那么如果我们架空一个外星智慧文明，如果社会经济结构没发展出来开源运动！！！？？？

永远就不会有LLM了，至少不会这么快！

写代码的都是聪明脑袋，更可怕的是开源的 review 机制，哪些 LWN.net 点评，那些技术博客，就是天然的 RLHF。那些烂代码（高熵）被淘汰，好代码，好结构才会被 Merge。如果这一切都是私有的，在大公司内部仓库里进行的呢？AI学不到啊。

这么看来，开源是通往 AGI 的“大过滤器”？

所以 90s 年代点燃的开源运动，才是AI之父！！

假期在看《Halt and Catch Fire》这部剧。强烈推荐啊，比《硅谷》好看太多

里面有个情节说 IBM 律师找主角所在公司的麻烦，主角不得不开始 clean room 重写BIOS

刚好今天看到HN说到AI改代码的问题

这里的 clean room 避免侵权风险的做法是：

但现在有AI了，比如有个 GPL 的项目，有公司想用，但是又不想开源，他让AI重写一轮，算违反协议吗？

其实算不算侵权都不重要了。这公司 vibe coding 了一坨，回馈给开源社区，有人想接吗？

再仔细推演一下，有了vibe coding，开源软件还有意义吗？不是召唤几个agent就搓出来了？

这么一轮盘下来，AI完成了弑父 🤣 🤣 🤣 🤣 🤣 🤣 🤣