AI 弑父

大型语言模型(LLM)所谓的涌现能力,一般说成是随着模型规模的增长,突然出现新的技能,而非平滑提升。我对此有个疑惑。gpt1 gpt2 规模也涨了,能力在哪里呢?

秘笈

翻很多材料,提到涌现能力示例: 包括

我又回忆起 ChatGPT 发布那段时间,聊天窗里那个 Linux终端+Python命令行模拟,当时很惊人。这个连续上下文和逻辑推理一致性不可思议的强。

我让 gemini 和 chatgpt 做了一个deep research,我越来越确认,AI能力爆发,也就是所谓的「涌现」有个关键因素:OpenAI和微软合作

我还记得当时有个新闻说微软要造个 DGX V100 集群超算,投资多少多少亿规模很大

还有 2021 年 Copilot 发布。当时很多开发者发现一个怪现象:有时它会生成几乎逐字的开源代码片段,甚至包含原作者的注释或许可证文本

现在回头看来,路径很清晰

gpt-3 基本不能进行链式思维,而含有代码数据的模型(如Google的PaLM,其训练数据约5%是代码)能够执行链式推理

GitHub Copilot(其实就是OpenAI的Codex)也能生成分步推理过程

这里面其实背后功臣都是:code-davinci-002。包括后来的 ChatGPT 也是用它作为基座模型训练出来的

ChatGPT 吹说主要功劳是 RLHF ,现在看上去只是一些风格约束,让AI表现得更有亲和力。sama 大张旗鼓的拿来显摆这个,非常符合他/她诡计多端 藏着掖着的人设。

其实你想一想也是这个道理。AI要学会思考,得有大量结构化,逻辑一致的语料。 wikipedia 是知识的静态堆砌,reddit 是情绪和观点的碎片。对于模型来说,这些数据大部分是「陈述句」。模型学到的是 A 后面跟着 B 的概率,比如 法国的首都是巴黎

代码数据与自然语言有着本质的区别,它自带一种 约束,每一行代码都有明确的功能。漏掉一个分号,程序就崩了。这种极其严苛的结构迫使模型必须放弃模糊的预测,转而理解深层的逻辑嵌套。

代码语言模型能够成为更好的结构化常识推理器,即便任务本身与代码无关。代码本质上就是“分步执行”的过程,给AI在做其他推理打了个样。还记得那句著名的 lets think step by step 吗

脑洞

那么如果我们架空一个外星智慧文明,如果社会经济结构没发展出来开源运动!!!???

永远就不会有LLM了,至少不会这么快!

写代码的都是聪明脑袋,更可怕的是开源的 review 机制,哪些 LWN.net 点评,那些技术博客,就是天然的 RLHF。那些烂代码(高熵)被淘汰,好代码,好结构才会被 Merge。如果这一切都是私有的,在大公司内部仓库里进行的呢?AI学不到啊。

这么看来,开源是通往 AGI 的“大过滤器”?

所以 90s 年代点燃的开源运动,才是AI之父!!

弑父

假期在看《Halt and Catch Fire》这部剧。强烈推荐啊,比《硅谷》好看太多

里面有个情节说 IBM 律师找主角所在公司的麻烦,主角不得不开始 clean room 重写BIOS

刚好今天看到HN说AI改代码的问题

这里的 clean room 避免侵权风险的做法是:

但现在有AI了,比如有个 GPL 的项目,有公司想用,但是又不想开源,他让AI重写一轮,算违反协议吗?

其实算不算侵权都不重要了。这公司 vibe coding 了一坨,回馈给开源社区,有人想接吗?

再仔细推演一下,有了vibe coding,开源软件还有意义吗?不是召唤几个agent就搓出来了?

这么一轮盘下来,AI完成了弑父 🤣 🤣 🤣 🤣 🤣 🤣 🤣

Comments