This blog is rated 🔞, viewer discretion is advised

唐宋之变

今天午饭，突然想到一个话题，就跟AI聊了一下，感觉挺有意思的

如果用罗马视角代入唐宋之变，有点像东罗马偏安一隅，然后自废武功，然后被蛮族吞掉？

在得到AI差不多的肯定之后，我又提出：

其实古典罗马就是一群军事贵族，先有罗马王后有元老院共和。六镇关陇魏博本质上一回事

还没等到AI掰扯完，我就迫不及待的问：

Q: 东罗马有出现宋朝那种有能力打，但是种种原因打不回罗马的情况吗？
A: 有，而且还不止一次。东罗马（拜占庭）其实长期都处于一种理论上还有恢复故土能力，但始终差最后一步。这点和宋非常像。最典型的就是查士丁尼收复战争。
查士丁尼一世时期，东罗马一度真的快把西罗马“打回来了”。他手下的贝利撒留灭汪达尔，收复北非，攻下罗马，击败东哥特。从地图上看，几乎完成“罗马复兴”。
东罗马虽然“能打”，却越来越无法长期维持“征服型帝国”。原因和宋很像：财政压力巨大、瘟疫打击人口、内部官僚体系成本高、精锐军队数量有限、收复区难长期维稳、战争收益越来越低。结果就是能赢会战，但吃不下长期统治成本。后来意大利又丢得差不多了。
不是完全打不过，甚至局部经常能赢，财政也不差，技术也先进，但已经没有那种“重新建立大陆征服秩序”的结构性能力。
还有一个和宋更像的阶段，是中期拜占庭。尤其巴西尔二世之后。东罗马在军事上其实一度重新崛起：打保加利亚、控安纳托利亚、财政恢复、军事恢复。但问题在于，帝国越来越依赖职业军、雇佣军、财政税收、宫廷官僚，而不是早期那种“公民-军事共同体”。这点也像宋。于是会出现一种现象，帝国仍有很高文明与行政能力，但缺少原始扩张性。
而真正最像宋的，其实是拜占庭面对突厥和后来的奥斯曼时。尤其曼齐刻尔特战役之后。拜占庭并非立刻灭亡，实际上它后来还恢复过，但整个国家开始出现一种战略上长期守势化。也就是说：还能防御、反击，还能玩外交搞经济，还能出名将，但已经很难重新恢复罗马世界秩序。这和南宋特别像。

真好玩啊。于是我又问：

西罗马灭亡跟关中耕地问题水土下降人口流失经济下降类似吗？

然后学习到一个历史知识，西罗马差了大运河一口气啊。都怪当年地中海航运欠佳，埃及的小麦没送得及时！

之前在zhihu看到讨论大明的漕运弊病，有人回答让人眼前一亮，要不是朝廷把江南大运河周边驻军，南中国早闹事，甚至分裂自立了。所以大运河的作用被严重低估了。虽然它有那么多弊病，但是算牵挂着不让中世纪帝国散架的重要体系了。

我又继续聊：对西方史不熟，西罗马灭亡可不可以看成一次蛮族一方成功了的安史之乱？西罗马提前进入五代十国？AI大惊，觉得离谱又合理。不过AI指出，不同之处在于，五代十国之后中国还能重新整合，文明和官僚体系基本没断。哈哈哈，这恰好应对了我之前所说的，东罗马在小亚细亚这种好比“巴蜀江南”膏腴之地偏安一隅！

最后我总结，罗马与其说是一个帝国，不如说是“元老院和人民”。隋唐帝国被史书光芒掩盖了，它内核其实也是府兵，六镇，关陇，魏博这种军事民主制。天子只是首席执行官

唐朝后期甚至搞出来禁卫军继承制。你就说像不像吧！

唐宋之变我觉得最可惜的就是帝国那种上进，扩张的风气没了。以前看还以为只是经济重心南移。

其实AI给出了很多精彩回答和反驳，我就不贴了。有兴趣的可以自己跟AI探讨下。

Posted 2026-05-13

stderr

外语的课堂教学

基本原理

学习外语的传统方法根深蒂固。早在 1921 年，Harold E. Palmer就指出，理解一种语言是如何运作的与学会如何使用这种语言之间存在着巨大的差别。从那时以来，人们已经找到了许多卓有成效的方法教授学生外语。根据当代所作的深入细微的研究，没有人会对自Palmer以来发展而成的学习外语的基本原理提出重大质疑，尽管在如何才能最好地贯彻这些原理方面仍有相当大的分歧。虽然在外语教学上取得了重大的进步，但是世界上许多地方的教师依然眷恋着过时的教学方法，在一定程度上，他们是用当年自己学外语的方法使旧的教学体系永久化。因此，重述一遍其中一些基本原理，简要探讨如何在课堂上有效地实施这些原理，大概不算不合时宜吧。

学习一门语言，不仅仅是掌握一套规则，积累大量词汇。教师工作的重点不应是告诉学生关于一门语言的知识，而应是使学生能够使用这门语言。衡量学生是否掌握一门语言，最终是要看他运用如何，而不是懂了多少。在这方面，学习语言与学习乐器十分相似。学生所做的操练与练习都是为了达到一个明确的目标：使他成为一个熟练的操作者。一个学生学了许多语法知识却不会运用语言，就像一个弹钢琴的学了许多有关和声的知识却不会弹钢琴一样。因此，衡量学生是否掌握语言并不看他懂了多少，而要看他在人前面前语言运用得如何。

学生要想成为熟练的语言运用者，就必须能够熟练地使用语言单位，而语言单位并不是人们曾经普遍认为的单词，而是句子。学习单词而不考虑它们的作用可能会白白浪费时间，因为单词并不都是同样重要的。我们必须把结构词和词项加以区别。像 I，you，he 等词便是结构词，它们的作用可以准确地加以界定，它们是语法体系的一部分；而像 tree，plant，flower 等词则是单纯的词项，与语法体系毫无关系。就学生而言，运用结构词的技巧是掌握一门语言的关键，因为由句型表达的含义主要依靠把句子联结起来的结构词所起的作用。

虽然以下一点仍待于科学地论证，但每个学习外语的学生可能都有一个也许可以称为“语言极点”的地方，即过了这点他的水平不可能有很大的提高。如果我们接受这一假设，那么，我们的目标就必须是用最有效的方法使学生在其能力范围内尽量多学到一点东西。过时的翻译—语法教学法极端浪费时间且效率很低，因为这种方法实际上是鼓励学生犯错误：让学生在没有充分准备的情况下运用语言技能。使用这种方法的教师无意中制造了他们企图避免的问题。他们的学生在学到一定程度后会不可避免地无法继续往下学：他们不得不回过头来重新开始。他们成了需要补课的学生，教师面临的问题是为学生补课，纠正他们所学到的错误的内容。同别的教学方法相比，这是一种最无益、最浪费时间和效率最低的方法。

应该训练学生学会尽量少犯错误。决不应该要求学生去做力所不及的事情。一本精心设计的教材应考虑到学生所谓的“准备状况”即可使他从易到难循序渐进的那个交接点。要使学生最充分地发挥自己的能力，必须训练他从一开始就采用正确的学习方法。

学什么

学生必须在语言的 4 项基本技能方面得到充分的训练。这些技能是：理解、口语、阅读和写作。在课堂教学中，许多教师把重点完全放在书面文字上。学生接受的训练是如何用眼而不是如何用耳来学习。学生不能掌握正确的发音、重音和语调，不得不主要归咎于书面文字的束缚。教师若想培养学生全面的 4 项基本技能，就必须有效地使用自己的时间。要做到有效，首先就要采用能在最短时间内产生最佳效果的课堂教学法。下列讲课顺序务必作为格言来遵循：

听到的再说；
说过的再读；
读过的再写。

上述技能中，口语与写作是最重要的。在某种程度上，它们是以另外两项技能为前提的。

学着说

在学生的口语能力还不成熟的情况下上传统的“口语课”是毫无意义的。让一个刚学完初级语言课程的学生来参加诸如“今日之电影艺术”这类内容的讨论是不可能的，因为他想表达的思想远远超出了他的表达能力。首先必须训练学生通过做精心设计的循序渐进的听／说练习学会使用句型，只有这样才能使他最终学会表达。

在考虑如何实现这一目标之前，应该注意到语言中的句型可以分成两种截然不同的类型：渐进型的和静态型的。例如，学习回答问题和提出问题就涉及了渐进型的句型。它们属于渐进型，这是因为学生运用这些复杂形式的技能要在很长的一段时间里才能培养起来：从一开始的简单回答，如“Yes, it is”，发展到复杂回答，如“Yes, I should, shouldn’t I”。而静态型的句型，如形容词的比较级，可以在有限的几课课文中讲授，不必占用很长时间。

渐进型句型必须在检查学生理解能力的练习中进行训练。这种练习要求学生回答问题并提出问题，而问题的难度则随着教程的进展而不断加深。必须训练学生用简略形式回答一般疑问句，用肯定形式和否定形式来回答用 or 连接的选择疑问句，回答用 When, Where, How 等疑问词开头的问句。而在每一个阶段，必须训练学生自己提问题。很明显，这些技能不可能在一两课书中学会；在每课书中都必须有这种练习。

与此同时，静态型句型必须在利用语言实验室技术的练习中得到训练。在每一个录音练习中，教师试图引出某一特定的回答。他在一系列口头练习中给学生某种诱导以引出新句型，直到学生可以准确地、下意识地作出反应。

培养学生说的能力也可以通过做口头作文练习的途径来达到目的。这种练习要求学生口头复述一段他所熟悉的英语短文。一开始应该要求学生练习复述叙述性与描写性的文字，待学到相当程度之后，再让他练习复述实质性的论说文。一旦他能够很好地完成这种练习，他便有能力就一些涉及抽象观点的指定的话题同别人交谈了。到了这个时候，他就能够有把握地表达自己的思想，犯的错误也会相对减少。

中级以下水平口语训练所用技巧大概可以归纳如下：

反复训练渐进型句型；
反复训练静态型句型；
练习口头作文。

学着写

在试图教学生写作时，我们同样需要这种精心的分级训练。仍然必须从最简单的陈述句开始。学生常常是在写的能力还不成熟的情况下便要匆匆提笔写作文。在课程的某一阶段，教师会认为是该由他的学生试着写作文的时候了。于是，他规定写一篇短的叙述文章或描写文章，盼望着会得到最好的结果。这种随心所欲、漫无目标的方法会制造大量的补课难题，产生灾难性的后果。如果一个学生在英语写作方面只是在专门编写的句子中做过一些句型填空练习，那么突然塞给他一个作文题目，并期待他能写出一篇语言准确、有可读性的文章来，那实在是太不合情理了。同在不成熟的情况下就规定题目进行讨论一样，我们在这儿做的只是鼓励他犯错误。指望如此这般几年之后（加上教师大量的纠正错误）学生就可以自己提高水平，那是毫无把握的。仅有少数学具有足够的自觉性和高度的主动性，在书面作业批改后认真地检查一遍。即使他们检查了，也绝对无法保证今后他们不会继续犯类似的错误。培养写作技能的最佳途径是做一些精心设计的、有指导的、循序渐进的理解／摘要练习。摘要写作并不仅仅适用于考试目的的、枯燥无味的学究式练习。它可以用来很有效地提高学生的写作能力。在中级以下阶段，学生务必学会造简单句，并列句，复合句，并能根据要点把意思连成文。有指导的摘要写作练习能使学生逐一克服上述难点，并使他在写作文时尽量少犯错误。

中级以下水平学生的写作训练，其主要阶段大概可以归纳如下：

通过有指导的理解练习进行简单句写作训练；
通过有指导的理解练习进行并列句写作训练；
通过有指导的理解练习进行复合句写作训练；
根据给出的要点进行把意思连成文的训练。

教授语法

在传统教程中，所有有关句型的信息都是以“规则”的形式来介绍的，学生将这些规则用于相互没有关联的句子的填空练习或填上括号中所列词的正确词形的练习之中，这种学习语言的方法收效甚微，这点现在已经变得非常清楚。这种方法鼓励教师谈论语言，而不是训练他的学生去使用语言。侧重点是在书面练习上。这种方法的最大弱点是，学生不能将他从这种抽象的练习中所学到的知识转化成其他语言技能，如理解、口语和创作性写作。

每个新句型不应作为某一种抽象的语法规则的范例来介绍，而应作为表达某种思想的方法，也不需要进一步的说明和解释。学生在训练中学会下意识地运用正确的句型，而不是用“语法逻辑”去进行推理。如果需要解释，可以把新句型与已经学会的旧句型联系起来。举例来说，如果学生已经学会了 must 的用法，那么在讲授 have to 的用法时，可以让学生领会这两个句型之间有机的联系。

对中级以下水平的学生可以布置一些回顾练习，即把语言难点同他们熟悉的特定的上下文联系起来。这样可以训练他们凭直觉使用正确的句型。这在无意中也可为教师免去批改作业之苦，因为在大多数情况下，课文本身就可以代劳了。

在现代教程中，传统的填空练习仍有它的一席之地，但有一点重大的区别，即填空练习不应作为教授新句型的一种手段，而应作为巩固已学知识的途径。它们是目的，而不是达到目的的一种手段。从这个意义上讲，填空练习在测验中尤其有用，可以用来分析学生的错误，或让教师评估学生最终的成果。

多功能课文

为了进行上述各项练习，学生务必学习专门编写的课文。每课课文务必可以用来使学生在下列技能方面得到训练：

听力理解；
口语训练（渐进型句型和静态型句型）；
朗读；
口头作文；
听写：
有指导的理解、摘要写作和作文练习（简单句、并列句、复合句）；
回顾语法的书面练习。

这些专门编写的课文大概可以称作多功能课文，因为它们可用来提供各类练习，旨在同时培养多种技能。

要使这些课文适应如此众多的目的，就必须进行特殊的设计。凡是要讲的新句型都必须融合进有上下文的语境中，也就是说，必须组织进每篇课文里。这些反复出现的句型应该贴切自然，要使听者觉得使用这些句型是不可避免的，而不是人工堆砌在一起的。另外还有一条非常重要的标准，即课文务必饶有趣味，引人入胜，使学生感到愉悦，能吸引住他的注意力，从而把反复训练带来的无法避免的厌烦减少到最低限度。如果课文配上插图，那就更加吸引人了。在初学阶段，插图的功能性大于装饰性；而在现阶段，则是装饰性大于功能性：中级以下阶段标志着听/视教学法向听/写教学法的过渡。

速度和深度

传统的教程往往分为“课”，而这些“课”却没有考虑一般长度为45分钟或1小时的课中可以做些什么。它们只是简单地包含“一定量的信息”，而且常常是洋洋洒洒好几页。在课堂教学中，这些“课”可能讲上好几周，因为要做的事情太多了。

“课”应该名副其实：教学内容一般可以在一个课时内完成，可能再加上一些补充的内容在课下作为作业。换句话说，一课书应被视作一个教学单位，仅此而已。现在，让教程设计者决定一个课时内可以做些什么是极其困难的。显然，由聪明学生组成的一个班所完成的内容要多于由不太聪明的学生组成的另一个班。如果课文中含有可以由教师决定取舍的内容，这个问题就可以迎刃而解，当然这种删节不应妨碍学生水平的提高。

出自《新概念英语》序言，通过ChatGPT+Deepseek OCR 得到。

醍醐灌顶，相见恨晚。

Posted 2026-05-11

stdin

Predict Next Word

一个流传很广的视频小朋友识字，笑死我了。其实他一个不认识，只是记性好 1 2

摘录一些评论

妈妈：NOR FLASH；姐姐：NAND FLASH；小孩：磁带
链式存储，不支持随机查找
随机提问，你手机号的第五位是什么
正常，元素周期表中铝上个是什么
上辈子是个磁带
别笑，现在立刻问你周期表21号元素是什么33号元素是什么，大部分人也得青海里皮蓬一个个背过去
钾后面是什么？氢氦锂铍硼...
这很正常 do，re，mi，fa，sol，la，si 那请问，4627513，怎么念
五月有三十一天吗？1月大2月小3月大4月小5月大哦 5月是大有31天[星星眼]
羊的下一个生肖是什么
别笑，我也不知道申猴上一个是什么？等会儿我数数哈。小老鼠排第一，个头不大真神气。牛第二虎第三，兔子第四跑得欢。龙第五蛇第六，马排老七不落后。羊第八猴第九。。。想起来了，未羊！
各位别笑，我问你们，英文字母K后面是哪个?
十二生肖龙是第几位的？
举酒欲饮无短弦的上一句？
元素周期表，第5号元素是什么
金属活动性顺序表，7个是什么金属
老师:请写出mg的电子排布式？我:氢氦锂铍硼…… 同桌:诶呀你直接从钠开始不就好了。我:（好不容易背到氧氟了）诶呀你别说话
给你们来点高难度的十天干中“庚”后面是什么
请听题！“大漠孤烟直”上一句是什么？
每次有人问我身份证后四位，我也这样
那我问你，鲁R是哪里车？等等我顺一下，鲁a济南车鲁b青岛的鲁c淄博鲁d枣庄东营是鲁e 烟台是鲁f 潍坊叫鲁g 济宁挂着鲁h 泰安鲁j车威海是鲁k 日照叫鲁l 鲁m滨州鲁n德州聊城是鲁p 鲁q临沂车鲁r是菏泽，我知道了，是菏泽

跟AI很像啊？！或许，智能真没啥神秘的，就是一些序列片段，就看你会不会重新打乱组合。

Posted 2026-05-10

stdin

Instruct 的意义

回顾AI这一波潮流，NLP CV ML DL 一路到 gpt2 gpt3 我都勉强能看懂怎么个事。

ChatGPT 就完全不懂了，剩下的只有惊叹。

但是 o1 之后感觉又能看懂了，reasoning无非是每个受过正规教育的学生都会的，面对答题之前要打草稿；sora之类的VLA world model无非是要突破文字限制，投入 embody的更多传感器；其余的多模态什么的无非琴棋书画玩一玩

感觉 chatgpt 之前是scaling law量变，之后也是正常能力增强的量变，只有 gpt-3.5 本尊是前无古人后无来者的质变。

拆开去看，核心就是 RLHF？我也尝试去理解，媒体宣传和网络报道都照搬“带人类偏好”

为毛带个人类偏好，模型的能力就会产生翻天覆地的飞跃？

这个问题我也分别问了AI

qwen-3.6-plus：意图理解被激活：从模糊指令中推断真实需求，长度、风格、结构、安全性有了"方向盘"，减少"知道但说错"的概率
deepseek-v4：让模型学会了“拒绝”自己最擅长的东西——无休止、无方向的预测。
ChatGPT：不是礼貌，也不死让模型更符合人类偏好，而是目标函数改变导致的行为相变（phase transition），让模型学会什么样的输出，在长期交互中会被认为是成功完成任务
Gemini：在没有 RLHF 之前，大模型本质上是一个极其强大的平庸文本接龙机器。RLHF 的介入，硬生生地改变了模型的“目标函数”

还是很抽象，有点隔靴搔痒的味道

直到今天，我偶然刷到一篇文章《agents need control flow, not more prompts》，感觉有点豁然开朗

If you’ve ever resorted to MANDATORY or DO NOT SKIP, you’ve hit the ceiling of prompting.

如果跟AI下指令 “务必” “绝对禁止” 这类的话，说明你已经没招了，已经跟AI较劲到天花板了。

嘿嘿。

但是等等！我突然想到，哪个人类tmd会在日常这么说话呢？你会写个blog，然后回顾自己某个经历踩坑历程，写 MANDATORY 或者 DO NOT SKIP 这种字样吗？书籍，论文，wikipedia，reddit等等，包括 Common Crawl 应该都找不到这样的原话。如果 gpt3 来响应这句话，就跟 stochasic parrot一样会乱回复。

所以AI的“指令遵循”能力一定是在 post-train 获得的。

经过一番搜索查证，感觉有点眉目了。

模型虽然懂 must / shall / required / do not / never / ensure / prerequisite 这类结构，原理和根本上来说，这些指令只是 wishful thinking，你最好祈祷你prompt这一块恰好在 post-train 被针对性强化过？即便搭配一大堆杂七杂八的知识，怎么在没见过的组合里区分哪些要，哪些不要？

也就是说，你直接让foundation模型去根据一定「指令」去检索 predict next token，大概率要翻车，或者综合来看回答质量有高有低，最终回归平庸

最主要的点，如果某个prompt恰好在 pretrain 没人这样说过，post-train 也没针对性训练过，翻车的概率会大很多？比如一个 2026年新出来的新事物，你指挥一个2024年的模型去这那的，他幻觉的可能性会大大提高。因为AI它没见过啊，只能连蒙带猜

模型vendor或者第三方有没有对这些指令遵循的可靠程度有一种科学的评价？？？用户预感要翻车，或者翻车后，有没有办法回归这些 eval 去看下是否符合“出厂设定” ？还是说业界几乎都是凭感觉？我想，根据草台班子理论，大概率是无。

所以 instruct 的意义就在此。它等于是提前预演了很多Assitant和 User 的对话场景。即便某些场景没有预案，多个说胡话的鹦鹉，在合理的流程控制下，可能做出正确的事和得到可靠的结果。reasoning 模型就是这么来的。

“意图对齐” 这一点被sama过度包装营销了。原理其实想明白了很简单：

你能扒下来的自然语言文本，都是固定人称的。

InstructGPT 把知识拆解成了一问一答，有了人称和「指令跟随」的痕迹。人类才能用熟悉的方式从模型嘴里提取想要的知识或者能力。

这就是我觉得 instruct 这一套最大的意义。前人的corpus虽然庞大，但是没法直接利用，需要带入不同的人称identity和视角去一步一步理解还原全貌。等于是个重新整理和学习的过程

Assistant永远不知道 User 会从什么刁钻的角度去提问，所以得提前在 post-train 去自己多推演准备好。

人们惊叹AI的能力，实际上是AI在某个corpus角落或者post-train的场景里，把前人的智慧给你演出了一遍而已。

而且这个演出及其精准，恰好弥补了 User 在当时状态的某个盲区。

这一幕演出迷倒了大多数人，但是很少有人去想明白幕后是怎么来的。

还有一个关键的，人对“满意”的感受实际上是个非线性的。gpt-3那种模型，你遇到几个不满意的回答，就没耐心等到它超神发挥就已经关闭对话框了。InstructGPT学会了关键的一招，能把大多数场面话都处理得相当漂亮，极大的降低了AI的接受度门槛。

AI 实际上懂的很多，会的也很多，但真正能转换为生产力，得看如何把 User 不知道不明白的前人的智慧，掰开揉碎，搬运，再组合，完美嵌入到 User 手上的任务中。谁能更高效精准的完成这一过程，谁就是更厉害的AI。

每个 User 遇到的问题和情况不一样，直接去pre-train的模型是检索不出来这个能力的，得模型去多排练，多准备，多角度思考，这个能力才能在真正被需要的时候立马派上用场。

想起来，AI 从人类那里学会了很多“公式”，教材上的例题都能套，但是一考试就傻眼了。要么套错公式，要么不知道套哪个更好。还得是 post-train 的时候，自己多去应用一下这些公式，遇到真正问题才不会慌乱。

所以 Instruct 是一个拒绝死记硬背的故事。

搞明白 Instruct 怎么回事之后，想起Ilya 一个老采访视频

Ilya Sutskever says predicting the next word leads to real understanding. For example, say you read a detective novel, and on the last page, the detective says "I am going to reveal the identity of the criminal, and that person's name is ____." ... predict that word.
Ilya 说预测下一个词就是真正的理解。比如你让AI读完一本侦探小说，小说最后一页，警长说，我知道罪犯是谁了，他的名字就是 ____

如果AI有“智能”，那么AI就可以说出那个正确的名字。

但是这个故事有意无意掩盖了从AI提取智能的难度。Ilya那种级别的聪明人才能把AI用好，我一直觉得 chat 这种发明是很天才的，属于范式革命，让普通人也能从AI那里拿到自己想要的答案。

Instruct 不仅降低了这个门槛，还发展出 agentic 能力，也就是用大量的 post-train 去训练什么样的指令干什么样的事，这些交互都是在人类积累的自然语言素材里没有的。

本文除了引用部分复制粘贴，正文部分全古法手搓。有不对的地方欢迎批评。

其实写这么一大堆，也是为了对今后的技术趋势有更好的判断，比如 Claude 模型为啥那么强？skills 值得学吗？还是就像模型内化 prompt 一样消失？harness本质在解决什么问题？taste.md 有用吗？

Posted 2026-05-08

stdin

Sentry 替代品 Bugsink 安装配置

如果你像我一样需要一个线上异常 traceback 跟踪工具，又没法忍受 Kafka/ClickHouse/Snuba/Zookeeper 这一坨依赖，那么归根结底有三个选择：

sentry<10.0 大概是2019年之前的版本，只依赖db/redis，太老
glitchtip 除了错误跟踪也支持 uptime 等
bugsink。不支持 Android/Java 的在线符号化（无 mapping 上传）

最后选了 bugsink 。记录一下 pip 安装部署的坑

下面的配置指 bugsink-create-conf 命令生成的 bugsink_conf.py

避免安装 MySQLdb

docker编译环境一坨，改纯py的 pymysql 代替，在配置顶部写

import pymysql; pymysql.install_as_MySQLdb()

CSRF

前面有一层 nginx 反代，然后一直报 CSRF 错误，因为 X-Forwarded-Proto 没值，所以 django csrf middleware 当成http给拦了。修改方法是配置里加一行

SECURE_PROXY_SSL_HEADER = ("HTTP_ORIGIN", BUGSINK['BASE_URL'])

厂家遥测

配置里 PHONEHOME = False

如果不这样干，我记得会启动报错。需要

from django.apps import apps
Installation = apps.get_model("phonehome", "Installation")
Installation.objects.create()

绕过 migration 建表

手上没pg，django高版本居然限制死了 mysql > 8.0 无语。

直接配置里加两句

from django.db.backends.mysql.features import DatabaseFeatures
DatabaseFeatures.minimum_database_version = None

实测 bugsink跑在mysql 5.6 完全ok，没用到任何高版本特性。纯纯是 django框架在作妖，懒得支持 EOF

跳过 migration

我执行 bugsink-manage migrate 发现mysql 5.6 太老了。于是想办法直接建表而不是一步一步migrate。获得所有建表语句是：

import os
import django

os.environ.setdefault("DJANGO_SETTINGS_MODULE", "bugsink_conf")
django.setup()

from django.apps import apps
from django.db import connection

with connection.schema_editor(collect_sql=True) as editor:
    for model in apps.get_models():
        editor.create_model(model)

print("\n".join(editor.collected_sql))

打印出来比较乱，建议让AI重新整理一版，让 CONSTRAINT，FOREIGN KEY 都写到一起。更加方便一次性生效

吐槽下 django 这种 migration 真是不方便。明明新系统直接一次性建表就行。

建表之后要登记一下 migration 完毕 python manage.py migrate --fake-initial

日期格式

本来想配置里加

DATETIME_FORMAT = "c"   # ISO 8601
DATE_FORMAT = "Y-m-d"
TIME_FORMAT = "H:i:s"

不过发现bugsink代码里日期格式是写死的。改起来太麻烦，作罢

Posted 2026-05-06

stdout

浏览器通过WebGPU上做AI推理

先说结论，在2026Q2这个时间点，通过浏览器webgpu 做 AI 不值得。

本来看官方demo跑得好好的，自己搓下来也觉得没啥，就一个小问题，fp32的模型有点大，最好换 q8 的。

q8的不能在 webgpu上跑，wasm也凑合用。原因是缺少一些矩阵乘法算子。开源库嘛，也理解。只是速度就慢了一点。

本来前几个月就这样平安无事，结果 transformers.js 升级到 v4，支持 q8 跑webgpu了，甚至 q4 q2 bitnet 这种高级货都支持了。满心欢喜的切过去，结果 webgpu 跟 wasm 一样慢？

于是就不甘心了。一路折腾，发现这个不仅跟算子有关，还跟硬件有关。甚至老掉牙的硬件不支持 shader-f16 。简单的说其实 GPU 原生支持最好的就 IEEE 754 fp32，f16 i8 这种属于要么新一点的硬件才支持，要么就是靠各种算子在软件层奇技淫巧去模拟。

我甚至脑洞大开让AI去搓一个 q8 dequant 到 fp32 ，发现模型也是不好惹的，太多坑了。HF官方甚至也自己搞了一套 q8f16 q4f16，然而 HF 自己的 transformers.js 都支持得不完善。

压死骆驼最后的稻草是，我在macbook上开发完成，最长9s，能忍受的极限，拿出手机、pad，win10台式机一测，发现webgpu大多数不支持，然后wasm推理需要 20s。微软甚至不准备在win100承诺支持WebGPU，因为依赖的 DirectX 12 只会面向win11更新了；高通，联发科这边的 WebGPU 稀碎。要说生态好，还得是Apple。

那还玩个蛋啊。怪不得现在AI几乎都是云上面跑，端上的问题太多了。

国产AI芯片，NPU什么的现在觉得得可以洗洗睡了。CUDA生态不是简单的堆算力问题，transformer模型推理本质上就是矩阵乘法，但是坑就坑在layer的结果需要进一步传播，叠加，汇总。但凡做个 fusion 就很考验对硬件的理解了。

啊啊啊啊，头痛，坑。

Posted 2026-04-25

stdout

Indent Is All You Need

There's an interesting debate around whether "Bash is all you need" for AI agents. Claude Code's Thariq Shihipar argues that LLMs may use Bash for anything

But is that the case? complex LLM generated bash may break on nested quotes, parentheses, and escapes. Even GPT-5.4 struggles with deeply nested inline Bash calls, and some engineers have resorted to wrapping binaries into microcommands, Gated Delta Net, so the model only outputs the inner command, achieving near-perfect reliability. The theory behind this is rooted in formal language classes. Bash's quoting and parentheses matching form a Dyck-k language problem, a type of task that requires maintaining a stack of arbitrary depth. Standard Transformers are in the TC0 complexity class, which makes deep nesting and parity tracking inherently challenging.

Python, by contrast, is almost Transformer-friendly by design: each line's indentation implicitly encodes block depth. This "outsources" state tracking to the syntax itself, effectively converting a potentially hard nesting problem into something the model can handle token by token. That may explain why LLMs have excelled at Python generation from early versions, despite struggling with even basic arithmetic.

Practically, this explains the patterns people see: nested Bash commands are error-prone, while Python functions with proper indentation work reliably. YAML, Markdown, and other indentation-heavy formats behave similarly. Many people say that Markdown math formulas and JSON/XML often cause errors because of brace/bracket mismatches and escapes. Bash mistakes, on the other hand, can be catastrophic, especially when used in agent frameworks that make the AI directly invoke commands.

If we accept that LLMs are "state-tracking challenged," our choice of formats must evolve toward "line-local" state:

JSON/XML: High-risk. Every { is a debt that must be paid with a } 50 tokens later.
TOML: Superior for AI because it is flat. A section header [header.subheader] anchors the state for the following lines, requiring zero long-distance nesting memory.
Markdown/LaTeX: This explains why even the best models still hallucinate unrenderable LaTeX. The moment a formula requires deeply nested curly braces, the Dyck-k problem strikes, and the model "forgets" to close a bracket.

To verify this, one could conduct a simple "Indentation Test" experiment: ask a SOTA model to generate C++ code in two scenarios & then compare accuracy:

Standard C++ with mandatory indentation and newlines.
Minified C++ on a single line where indentation is forbidden.

The divergence in error rates as the nesting depth increases would likely prove that for AI, the "indentation" is the logic.

Ultimately, while Bash is a powerful glue, it is a treacherous foundation for autonomous agents. If we want reliable agents, we should favor languages and formats that offload state into the context.

Indent is all you need.

Translated from Zhihu 胡一鸣 & edited by ChatGPT

Posted 2026-04-21

stdin

语文学习和考试

前面抖了两篇

今天就抬一个具体论据。来自zhihu：

Q: 如果文言文退出中国教育体系，你是支持还是反对？为什么?
A: 文言文真退了，可能就真的不知道以后高中语文课上来是干什么的了。

但是作者不允许转载。我只能先归档 https://archive.md/UUomq

再让AI转述一下这篇回答的精华：

高中语文长期处于一种尴尬状态：教材内容与高考要求之间缺乏明确对应关系，导致教学目标模糊。相比数学、物理、英语等学科，语文老师很难清晰地回答“教这些课文到底是为了什么”。
首先，考试内容与教材几乎脱节。
1. 语文选择题中的拼音字形成语病句这些基础知识，在教材中完全没有体现。
2. 科技文现代文阅读选择题，考验逻辑，教材上完全没有。
3. 现代文阅读主观题和课本上的内容风马牛不相及，
4. 最后的作文，60分，教材介绍了一些什么“三段论”分三个论点，那都是老套筒陈腐不堪的东西，真正要在作文上拿高分，文采和立意方面的讲解，教材一概也无。
其次，现代文课文在功能上不清晰。它既不像学术训练（没有系统语言学、修辞学或逻辑训练），也不像文学训练（缺乏文学史框架与深度阅读体系），同时又不能有效转化为应试能力。因此它在课程中处于“既不像工具课，也不像素养课”的位置。
相比之下，文言文反而形成了一个相对闭环的系统：
它既直接对应考试中的古文阅读与默写题，也在表达层面提供稳定的文化引用资源，使学生能够在作文中实际使用。因此它成为语文课程中少数“教学—考试—成果”之间可以对应的部分。
从更功利的角度看，学生在语文学习中的真实策略也逐渐向应试收敛：基础题靠刷题训练，现代文阅读靠答题模板，作文靠素材与套路积累，而课本现代文本身的作用被弱化。
于是产生一个结构性结果：语文课表面占据重要课时和分值，但实际有效训练主要集中在有限模块（尤其是文言文和应试训练体系），而大量现代文课文难以被明确归类其教学目标。
结论，并不是简单“文言文该不该保留”，而是指出：如果文言文也被移除，那么语文课程中最后一个同时具备“可考性 + 可教学性 + 可评价性”的稳定支点也会消失，高中语文可能进一步陷入目标不清的状态。

作者开头那4个点，对我来说是醍醐灌顶。宝贵的经验必须记录下来，也顺便分享。

以后有时间，我也会写一点关于数学的。

Posted 2026-04-20

stdin

失落的学习兴趣

上一篇如何跟孩子讲学习的意义，最大的批评是，与其给孩子讲利弊，不如培养兴趣。

唉。说来惭愧，这的确是我不好意思谈及，也没能做好的一个点。只能说，优秀的孩子都对学习有兴趣，不幸的孩子各有各的苦衷。

孩子不爱学习，是对学习失去兴趣之后的结果，而不是因为欠缺了兴趣而学习待提高的。

孩子问“为什么要学习”，他真正的问题是 “为什么学习这么痛苦”。

家长说“要对培养对学习的兴趣”，TA真正的诉求是：“如何让孩子对拉分的主科的投入更多兴趣”

我小时候在一个乡镇上学，当地学校的风气普遍是好动，调皮，大家讨论的是《古惑仔》和 98 World Cup。有一次老师挨个问大家的兴趣爱好是什么。大部分人都说踢球、四驱车这些。班上有个成绩差又很内向的男同学，他来了一句：“天文”。班上一片“哇～”。因为当时信息还不发达，大部分家庭还买不起百科全书，科普类书籍比较小众。也还没到开始学习《地理》的年纪，大部分同龄人对天上地下的事一无所知。这位同学说一个土星木星名词就能把我们唬住。

他是对他所说的东西有极大的兴趣的。但是，这个兴趣有用吗？

或者说，家长来看，他这个兴趣，会对他本来就比较差的学习成绩，有所帮助吗？

有人会反驳，会对数理科学相关的课程都感兴趣吧？我觉得这就属于想多了。真要拿本科天文学，给这位同学，他可能也瞬间失去了兴趣。比如

看到这里，我想问有多少天文系毕业的几年过后，能准确说出，什么是 trailing arm 和 leading arm？为什么分者两类？

我知道这个问题的答案，不是因为我能背上面截图里一大堆微扰公式推导，而是因为我真的对这玩意感兴趣过。其实我发现星系有两种「臂」分两种完全是个偶然，当时 vibe了一个粒子系统模拟密度波

https://lab.est.im/galactic_spiral/aistudio-gemini3.1

AI 稀里糊涂给我加了个缠绕度 (Winding Rate) 的slider，我就那么百无聊赖的去把这个 slider 拉到了最左和最右看看效果。不看不知道一看吓一跳！

甚至这玩意的正式中文称呼曳臂导臂，都没太统一。ChatGPT恭维我说，天文/物理相关专业本科生都不一定知道这个区分。本科可能会介绍螺旋星系的分类（Sa, Sb, Sc 等）和密度波理论，甚至有一两句话提及，但不会深入原因。
只有选了星系动力学、N-body模拟或者密度波研究的研究生才会研究这个。

我想，主要原因还是过去模拟需要 N-body 专业昂贵的软件+超算，现在AI 撸一个canvas近似的粒子模拟很方便。话刚说完，AI又给我上强度了，你知道 Wisdom–Holman splitting 吗？星系粒子系统模拟里，“先更新速度再更新位置”的方法，是最基本的 symplectic Euler（或者 velocity Verlet 变体）在一维哈密顿系统上的体现。它保留了相空间体积（Liouville 定理），这是普通显式 Euler 无法做到的。

AI师傅别念了，别念了。我已经失去学习的兴趣了。

所以，回到兴趣这个话题本身，兴趣是什么？兴趣是一些点。学业是什么？学业是线，是面；

不排除有天才的兴趣广泛刚好形成一个可以成功的线、面。

大多数人把“兴趣”投入学习、工作会发现，不感兴趣的的 mundane 部分的 chore 才是最折磨人的。

多年前看过一句话，不要选你喜欢的职业，而选最适合你的职业。非常有哲理。所谓对学习感兴趣的孩子，往往还体现在对某些枯燥耐受性特别强；

我甚至还觉得，因为兴趣所以成绩好，是不是样本偏差？成功的样本里有「兴趣」的比例较高，或许只是相关不能倒推因果啊。
说不定有「兴趣」的人群里也有很多学习很差的人呢？想起那个电视塔采访春运的下偶哈，从已经上车的人群调查大家有没有买到抢手的车票？

兴趣它只是一个状态，甚至不是稳态。可能这学期你对算术感兴趣，下学期换几何，让你求角度了，你挫败感很强，对数学又不感兴趣了

上学期对古诗词感兴趣，这学期现代文又不感兴趣了。你能咋办？

所以我对「兴趣」驱动学习比较悲观。如果说什么兴趣能保证孩子「出成绩」，那么就是跟出题人斗智斗勇猜心思的兴趣。

培养这样的兴趣，无论有意无意，最有效的途径是刷题。。刷多了就有感觉了。哈哈哈

有人说，不要培养特定的兴趣，要鼓励内驱力/精神追求。这一点的确作为「树人」是值得塑造的。很多能力的精进，其实不是为了「交换」这种庸俗的外因，而是被好不好看、优不优雅驱动的；人天生是有好奇心，探索欲；能脱离教程，进行批判性思维的思辨乐趣；甚至“我就是那种会把事情搞懂的人”是一种身份追求，都是比我之前写的高了N个层次。

但是又回到一个问题，孩子会问，我为啥需要好奇？数学的简洁有什么值得追求的？审美又有啥用？批判不批判关我啥事？能比打一把王者，刷几个小时 tiktok 有意义吗？身份感就更糟心了。班上可能风气本来就不太好。

啊啊啊。怎么办？？？

AI说，把“内驱力”拆一下，就没那么玄了。通常混在一起的其实是几样东西：

对新东西不那么抗拒（气质）
遇到困难能多撑一会（耐挫）
做成一件事会有成就感（奖励回路）
身边有没有人、有没有环境在不断给正反馈

讲得真好。我问具体怎么培养内驱力，AI说，难度匹配+及时反馈+局部控制感+可见的进步轨迹

我突然感觉。。。。真tmd不对劲？？？？！！！！！这tmd不就是游戏上瘾机制gamification，网游数值策划干的事吗？

啊。是啊，这个都是成熟得不能再成熟的方法论，为啥没人设计成学习体系啊？

不过我又否认了自己。

我小时候对数学物理很着迷，甚至提前预习教材津津有味，看科技课外书兴趣极大，能自己发现一些课本上不教的公式。属于有内驱力的那种了对吧？？以为自己发现了不得了的知识；其实长大了才知道，这是「笛卡尔」体系的魔力没有前人把崎岖道路做成 linear 的阶梯，学习真的会有那么多「乐趣」吗？学习的乐趣是，是有意无意被「设计」出来的

极端的说，如果放任大部分孩子凭自己「兴趣」探索，解方程，一路推到五次方程，不碰个头破血流？敢打赌99%的人没法靠自驱力突破这一关。。。

很多时候这种靠「兴趣」的沉迷，其实到头来是虚幻的。沉迷文史的毕业之后傻眼了。成谜数理的发现只能硬着头皮去PhD

思来想去，其实反而凸显Hinton那句话的含金量。如果人类能够一天下载 1TB 的知识，这些讨论都失去了意义。

学习的痛苦，为什么要跟孩子探讨学习的意义，悲剧的根源在于人类理解新知带宽太低。

包括说了这么大一堆的内驱力，无非就是为了解决低带宽场景如何得到正反馈罢了。。

内驱力是可以去神秘化的。而且有了LLM，谁说的不能高速下载知识？？？？教学的摩擦凭啥搞这么麻烦？？？为啥不能直达问题核心要跟老师节奏慢悠慢悠？？？？

孩子在心流状态是能吃满带宽的！希望学习体系能更往这个方向上靠

归根结底，孩子对任何事的兴趣，都是需要学校、家庭去长期投入的。你没精力投入，兴趣个卵；这也是为什么孩子丢失兴趣的原因吧。

Posted 2026-04-20

stderr

如何跟孩子讲学习的意义

缘起

本来在tg里刷到个博主syhily讲语言和文字，感觉这老哥知识好渊博。于是慕名点开他的𝕏，好家伙直接丢了个暴论，大概意思说

孩子问他为啥要学习，他想了半天发现不好解释，就说反正父母养育你，孩子能报答的就是努力学习。

我本来想翻一下原文的，发现 syhily 都销号跑路了。syhily自己也说「大号废了」，哈哈哈好几十万的粉的呢。𝕏本来就是大粪坑，这言论一出秒变热门，原生家庭党纷纷出动，被喷死了。

回到正题，我其实最近也被问到这个问题。我也没能免俗，讲「知识改变命运」，学习好将来有出路这些老话我也讲了一些。但是我对孩子讲了三点自己的理解。

一、学习的用处

成年人不谈好坏，只谈利弊。我就直接跟娃说，我作为父母千禧代这一辈人普遍有两个选择，长大要么生活在农村，要么在城市。孩子这一辈估计绝大部分会选择城市了。只有逢年过节去乡下探亲；

城市是什么？一堵城墙（门槛）围起来的市场

市场是什么？交换。

进入这个市场，最便宜最方便，最能拉开差距的本钱就是知识技能。

学习技能可以让你在这个市场上交换到你要的东西，实现你自己的梦想。

知识越多，更有技巧，能力就越强；没有知识，就做体力劳动。

去农村就拿自己体力跟大自然交换。

从「交换」出发，可以推导出所有学科的必要性。

为什么学语文？

syhily也恰好写了

从识字启蒙开始，我们便被训练着去挖掘文字背后的“深意”。一篇课文的中心思想，一句诗词的弦外之音，甚至一个词语的隐含寓意——我们被教导要层层剖析，步步登高，最终将平凡的文字抬升到崇高的高度。

我觉得这个「症状」是存在的，而且我长期以来也对此深恶痛绝。但是最近几年，我愈发觉得「归因」找偏了。

如果要在城市生活，做脑力劳动，从事一个高度分工的行业，你会发现「沟通」是一个最大的成本和摩擦；打工人需要识别出繁杂任务里最要命的关键字；中层需要揣度老板心思，跟手下耍心眼；当老板呢，要从众多市场动向、下属报告、客户假需求里猜出你认为的真金白银；

我们的确需要非常扎实的阅读理解和文笔输出能力；

虽然，我并不认为K12语文教育能做到这一点，或者效率很低。比如实用性的阅读理解，应用文和逻辑教育极大欠缺了。我甚至认为，如果阅读理解原作者不是那个意思，出题人偏要乱考察，应该判刑。

但是逃不开的是，语文还是有必要学好的。

为什么学数学

我觉得数学最有用的，一是线性代数，而是概率与统计。我第一次认识到我这辈子要告别学术生涯，是从大一 Epsilon-Delta 语言开始的🤣 ；PDE更是噩梦中的噩梦。我这智商基本到头了。

但是数学和文科非常不同，最讨厌的一点：你不可能直接学线代和概率。你得从算数开始一步一步积累。数学甚至不是 science，它是先验知识。这种层层依赖的知识没办法，只能硬着头皮学。

为什么学英语

去年年就写过为什么学英语。

为什么学其它

所有学科的学习理由，都可以从「交换」这一角度推导出来。说起来我这一套理论跟 shyily 讲的也高明不了多少。他说的学习是跟父母交换，我说的是学习是为了人跟人交换。

是的，K12虽然凡是点点，但是好歹它提供一个「通识」。否则都话，你在城市里寸步难行，迟早会生活所逼付出高昂的价格重新学习，或被淘汰。

AI 的批评

把这些观点丢给ChatGPT，AI给出的批评——太市侩了。应该温柔一点：

在很多地方，大家更需要的是会想办法的人，而不只是出力的人。
如果你会的东西比较简单，那别人很容易就能找到替代，你就只能按别人的规则来。
但如果你会的东西比较少人会，你就更容易自己选——选做什么、跟谁合作、甚至选过什么样的生活
不是说用脑就一定比用体力好，而是你会的东西越难、越少人会，你就越有主动权。学习只是其中一条比较稳定的路。
你以后不管做什么，其实都在跟别人交换。学习不是让你一定变得更厉害，而是让你多一些别人需要的能力。你会的东西越特别、越不容易被替代，你就越有选择，而不是只能被安排。

这个说法是有力量的。不要为做到普通成绩而沾沾自喜，中式教育最残酷的一点就是它从初中开始，是一个排位赛，淘汰赛，所以你一定要超越同行、同龄人，才有更多的「可选」机会。

二、学习的本质

Hinton 一句话总结了教育的本质这是我近几年受到最一针见血的论断。导致很多时候我对自己和孩子都从「带宽」作为原点去思考。

甚至很多学霸都说，学到最后，最有价值的是「如何快速学习」的能力。

三、为什么要上学

如果说为什么学习可能对孩子太抽象，那么为什么去学校，义务教育怎么来的，就很好解释了。但被很多家长忽视了。实际上人类去「上学」历史并不长。

义务教育其实就是从苏联照搬，苏联又从德国照抄，德国这么干是因为德皇下令，德皇又是容克军官团总代表，容克阶级说白了就是一群祖上搞圣殿骑士的军爷，历史脉络很清晰。

1800s当年拿皇在欧洲吊打周边王国，普鲁士打不过怎么办？扩展学校、扩大征兵；腓特烈·威廉三世在 1806–07 的军事崩溃后认识到，以前是骑士老爷带封邑的泥腿子冲就完了，精英可以决定上限，但底层人口的平均能力决定下限。

拿破仑拳头即它的炮兵联合作战，靠的是当时有代差的军人素质——数学、测量、要塞、军事行政、历史、地理等。

会读写算、会测量、会推演、会协作，从加分项变成了国家生存刚需。容克军官团把以前圈子内私塾体系扩展到全民皆兵，后来也演变成军工产业链，和德国成熟的职校体系。

这就是义务教育怎么来的，为什么必须上学的原因。这也是为啥默认是灌输论，而不是人性化学习；

当然，有人会反驳，说你这段子，扯呢？首先，你能认识破，说明你至少历史知识不错，证明学习还是有用的；其次，跟孩子讲历史英雄人物“演义”，孩子也能听得津津有味，记住历史逸闻的同时，顺便也对现代学校和教育制度有个理解的入手点。

后记

总的来说，上学和学习的目的性是很明确的，但是手段都是欠佳的。回顾我在2020年的时候想到的，后工业化时代的老师，和主播应该是同一类职业，是的，课程很无聊，学校太封闭，课堂很枯燥。很多老师也觉得现在孩子不好教，不好管

但是2023年，AI出现在地平线了。

现在美国高中生里有百分之八十四在用AI做作业，同时接近百分之四十的学校直接把AI屏蔽掉。政策和现实完全脱节。更值得看的是OECD去年的一个研究，让学生用AI学数学，短期成绩可以提升百分之四十八到百分之一百二十七，非常惊人。但是一旦把AI拿走，这些学生的成绩比从来没用过AI学习的同学还要低百分之十七。工具撤了，主体能力没长出来。孩子们借了AI的力气，但没有把那个力气内化成自己的。source

我们有了新工具，却在旧传统里寻找答案？

这才是不好解释为什么要学习的根源。

Posted 2026-04-18

stderr

物权

前些年接触到土地兼并与王朝灭亡周期律，觉得好有道理，但是后来又有人说其实这个学术上并不能实证。

今日手痒键政一下。其实土地兼并只是表面，东亚大国从古至今都没有物权，更何况人权。有人说地契就是私有制的，需要指出，地契的重点是「契」，「契」交易的不是所有权，而是赋税和徭役obligation。所以财政吃紧的时候，中原大片弃耕撂荒。

至于失去物权从什么时候正式开始的呢？汉武帝的《盐铁论》、《算缗令》和《告缗令》。所以不要说什么资本主义萌芽了。首先你得有私有制，然后其次才有商业。

但是汉武帝这么搞其实是有一个具体的战略目标的，那就是穷得平均，搞马政打匈奴。最后真的被他拿下北亚和中亚了。这个逻辑在当时看来不能说错，因为丝绸之路是真的能带来真金白银。这个运作是商鞅算计好了的，老百姓默认是有原罪的，用耕战可以赎罪。

所以这就回到一个底层，我觉得人类财富可以这么分类：

植物系 —— 农业
动物系 —— 畜牧业
人矿系 —— 打秋风和掠夺
煤炭石油系 —— 本质是石炭纪(Carboniferous)超级大电池的集中释放

商君和刘小猪属于把法家这一套执行到很极致，能拿下巨大收益的。吃人矿的意义就是此消彼长，让敌人赚不到钱。

正常中世纪国度应该 1 2 3 兼顾的。物权的特点，我觉得是可以任由主人摆布——可以捐掉，散了，均分给子女，给嫡长子，给幼子。对了，可能你已经看出来了。从古至今实质拥有私有制的只有皇帝一人。

物权的惯性和消亡，最后的灰烬是世家大族。从这往后，华北的坞堡也成为历史，畜牧系政权开始主导东亚北方秩序。

与此代替秩序是科举制。实际上科举制一开始从来不是皇帝好心，给寒门一个上升通道，其根本目的是对世家大族的制衡。说到底隋唐的底色实际上是六镇武川合伙人柱国制度。

科举制搞出来的流官，遇到异族入侵，大多就是朝天开几枪就对得起天子了。跑路要紧。蒙古人打到西欧遇到遍地碉堡的小领主，人家是真的为了一亩三分地无路可退，要跟你拼命。

甚至明末遇到混账皇帝，官僚大规模投降异族也是正常。毕竟换个老板上班没啥心理负担。

科举制坏在哪里呢？这个锅得给李林甫

李林甫发现，汉人官员一旦立战功就可能入朝当宰相，威胁自己的地位。于是他向唐玄宗提议：“胡人没文化，只知道打仗，不会争权夺利！”玄宗一听有道理，当即提拔安禄山、高仙芝等胡将。结果安禄山一人独掌范阳、平卢、河东三镇，手握18万精兵，占全国边防军的40%。

所以后唐和五代十国，胡人和汉人打了几辈人，但是没搞清楚的一点是，你为啥而战？你拿下的战果有任何可继承性吗？

物权对这片苦难的土地就成了诅咒，但反而被半耕半牧半手工的草原系玩明白了。通过极其原始的合伙人制度，迅速把地盘做大做强。辽金元清背后有啥高妙之处吗？反而粗暴得简单，那就是承认可继承的物权。

与其同时，挫怂那边知识分子一直在鼓捣一个理论，那就是如何在皇帝一人当天下所有人的爹同时如何让天下人卖力。。。。这极其扭曲的内核一直延续到明朝就没人能圆，最后被王阳明搞出个「人人都可封圣」给精神体系彻底玩崩。。。

汉人恢复「武人持股」这个死掉的传统从哪里恢复的呢？民国军阀 😂

1840史观下，西方列强说到底，玩的就是秦汉隋唐开疆拓土那一套。甚至就是明晃晃商周武装殖民那一套。东印度公司不就是个武夫（总督）合伙人制度？

我键政得再直白一些：宋明制度的核心缺陷。房间里的大象，就是皇帝一家独占了真正可继承的权力和财富，而其他地方无论文官、武夫、士族、农民，根本没有真正的私有权可操作，甚至连对未来收益的稳定预期都没有。

所以整个国家体系看似繁荣精密——科举体系、赋税制度、文官治理、理学教化——但本质上所有经济、政治、军事决策都被抽象成“皇权的延伸”——可以随意处置土地、财产、军队。

更扯的是，儒家只认嫡长子又加剧了继承机制混乱、导致整个社会没有形成可持续战略性积累。

Posted 2026-04-02

stderr

Bonsai 在 M2 安装

有个 1bit 模型最近很火 https://github.com/PrismML-Eng/Bonsai-demo

我本地环境不知道咋回事，搞混了 x86_64 和 arm64 。还有官方默认 python 3.11 我也不太满意，强行升级一波。

diff --git setup.sh setup.sh
index 543fab0..80c1190 100755
--- setup.sh
+++ setup.sh
@@ -13,7 +13,8 @@ cd "$SCRIPT_DIR"

 VENV_DIR="$SCRIPT_DIR/.venv"
 VENV_PY="$VENV_DIR/bin/python"
-PYTHON_VERSION="3.11"
+# PYTHON_VERSION="3.11"
+PYTHON_VERSION=3.14

 # ────────────────────────────────────────────────────
 #  Helpers
@@ -266,6 +267,10 @@ if [ "$OS" = "Darwin" ]; then
     fi

     step "Building MLX from source (this takes 2-5 minutes on first install) ..."
+    # Force arm64 so CMake does not pick x86_64 (e.g. universal cc / Rosetta); MLX rejects x86_64+Metal on macOS.
+    if [ "$(uname -m)" = "arm64" ]; then
+        export ARCHFLAGS="${ARCHFLAGS:--arch arm64}"
+    fi
     # --no-build-isolation required: MLX's C++/Metal build needs pre-installed setuptools
     uv pip install --python "$VENV_PY" -e mlx/ --no-build-isolation
     step "Installing MLX Python deps (mlx-lm, torch, transformers, ...) ..."

cd mlx

diff --git CMakeLists.txt CMakeLists.txt
index 041a476c..459ddae2 100644
--- CMakeLists.txt
+++ CMakeLists.txt
@@ -56,7 +56,17 @@ message(
 )

 if(${CMAKE_SYSTEM_NAME} MATCHES "Darwin")
-  if(${CMAKE_SYSTEM_PROCESSOR} MATCHES "x86_64")
+  # CMAKE_SYSTEM_PROCESSOR can stay x86_64 on Apple silicon until the toolchain
+  # is fully configured; CMAKE_OSX_ARCHITECTURES reflects the actual target.
+  set(_mlx_macos_targeting_x86 OFF)
+  if(CMAKE_OSX_ARCHITECTURES)
+    if("x86_64" IN_LIST CMAKE_OSX_ARCHITECTURES)
+      set(_mlx_macos_targeting_x86 ON)
+    endif()
+  elseif(${CMAKE_SYSTEM_PROCESSOR} MATCHES "x86_64")
+    set(_mlx_macos_targeting_x86 ON)
+  endif()
+  if(_mlx_macos_targeting_x86)
     if(NOT MLX_ENABLE_X64_MAC)
       message(
         FATAL_ERROR
diff --git setup.py setup.py
index 12505bd1..db0c67c8 100644
--- setup.py
+++ setup.py
@@ -126,6 +126,9 @@ class CMakeBuild(build_ext):
         if build_macos:
             # Cross-compile support for macOS - respect ARCHFLAGS if set
             archs = re.findall(r"-arch (\S+)", os.environ.get("ARCHFLAGS", ""))
+            # Default to native Apple-silicon when ARCHFLAGS is unset (avoids CMAKE_SYSTEM_PROCESSOR=x86_64 with universal toolchains)
+            if not archs and platform.machine() == "arm64":
+                archs = ["arm64"]
             if archs:
                 cmake_args += ["-DCMAKE_OSX_ARCHITECTURES={}".format(";".join(archs))]

然后发现 metal 命令不存在。继续折腾。因为我没升级 macOS 26，还是 Sequoia 15.7.3，XCode从商店安装直接提示

Xcode can’t be installed on “Macintosh HD” because macOS version 26.2 or later is required.

手动：

wget https://download.developer.apple.com/Developer_Tools/Xcode_16/Xcode_16.xip
xip --expand Xcode_16.xip
sudo mv Xcode.app /Applications/
sudo xcode-select -s /Applications/Xcode.app/Contents/Developer
sudo xcodebuild -license accept

有AI代为折腾真好。

最后吐槽下，open-webui什么妖魔鬼怪。就tmd一个界面玩意也整出来好几个GB。

Posted 2026-04-01

stdout

The Porsche Diffusion

Social media and smartphones are sterializing humanity.

There is an absurd claim I saw the other day. It's a popular call out "The Porsche diffusion" on Chinese interwebs. It goes like this

If one woman dates a guy who drives a Porsche, she’s unlikely to settle for less afterward.
Then nine of her BFFs think, “If she can get a Porsche guy, why can’t I?”
Now you have ten women who won’t consider non-Porsche men.
That’s the Porsche Diffusion Law.

I initially dismissed this as a blatantly misogynistic take on hypergamy. It felt like one of those cynical internet takes trying to reduce complex human behavior into a cheap punchline. Then someone did a bit of napkin math:

Imagine a mega city with 10 million people. Say there are about 20,000 people who can visibly signal high status - not just wealth, but performative wealth. Think luxury cars, curated lifestyles, Instagram-ready relationships. Call them “Porsche guy”

That’s 0.2% of the population.

The question isn’t “how many Porsche guys exist from commoner's perception?”

To translate into Math: what’s the probability you’ve seen at least one Porsche guy around you?

Consider a typical social graph. Between friends, coworkers, friends-of-friends, and social media exposure, it’s not unreasonable for someone to be indirectly exposed to a few hundred distinct individuals.

Let’s say 300.

What’s the probability that none of those 300 people are connected (directly or indirectly) to someone in that top 0.2%?

Roughly:

(1 − 0.002)³⁰⁰ ≈ 55%

So there’s about a 45% chance you will encounter at least one “Porsche-level” signal within your immediate social horizon.

Now add recommender algorithms.

You are no longer sampling randomly from 300 people. You are sampling from a biased, algorithmically amplified feed - one that disproportionately surfaces high-status, high-engagement content.

Your effective exposure probability is no longer 45%. It’s closer to saturation.

At that point, the system changes character.

I actually went a bit further into this topic. Checkout my post few weeks back in Chinese.

Thinking about this made me realize something a bit unsettling.

In early development of a human body, every cell starts out basically identical. Same DNA, same potential. Then some local chemicals kick in, and only a tiny fraction become germ cells. The rest become somatic-functional, necessary, but no longer part of reproduction.

No cell is forced. It’s just the gradients.

The system ends up with massive scale, high efficiency-and very few cells actually reproducing.

If you squint, the pattern doesn’t feel entirely alien.

I wrote this blog because of an HN thread. Praise the unholy AI trinity of 搜广推 business (Another Chinese connotation which stands for Search, Ads, and Recommendation engines in case you are wondering).

Posted 2026-03-29

stdin

首页和404更新

觉得每年都得折腾一下。

做了个 404 页面 https://est.im/404 老登们一眼就能get到点。00后可能没见过。

哈哈哈，等有空了去做个多语言版本的 😎

可能没折腾过的不知道这玩意是在 shdoclc.dll 里，通过 Reource Hacker 可以提取出来

本来想去 win10 瞻仰一下遗迹，发现 iexplore.exe 直接强行启动 Edge了。搜到个法子可以绕过，新建个 1.vbs

Set ie = CreateObject("InternetExplorer.Application")
ie.Navigate "about:blank"
ie.Visible = 1

然后地址栏输入 res://shdoclc.dll/http_404.htm 。嘿，您猜怎么着，Win10 连 shdoclc.dll 都没啦。

于是只能去下载个。那个感叹号图标是给 gemini 下令 pixel perfect replica 绘制的，虽然最后还是得手工调整。别的icon就随便找个 emoji 充数了。

首页也折腾了一下 https://est.im/ ，AI搓特效就是快啊。难点主要是提示词，怎么描述这个现象。什么

flowing vibrant color
lava-lamp
no-signal-tv effect

然后 AI 挨着问我是不是

Plasma effect
Perlin noise / noise flow
Reaction–diffusion
neon lights but flowing
Aurora effect
gradient flow

最后bingo，我也做了这个 gradient flow 的demo

感觉有了AI之后很多idea都能很快实现，何尝不是一种快乐呢。

Posted 2026-03-25

stdout

无用之用——或许LLM真的还不是AGI

之前记录的安全的Python3沙箱——eval 被人破解了。

[
    c._﹍init﹍_._﹍globals﹍_["os"].system("id")
    for c in ()._﹍class﹍_._﹍bases﹍_[0]._﹍subclasses﹍_()
    if c._﹍init﹍_._﹍class﹍_._﹍name﹍_ == "function"
    and "os" in c._﹍init﹍_._﹍globals﹍_
]

或

(
    L:=[None],
    g:=(x.gi_frame.f_back.f_back.f_builtins for x in L),
    L.clear(),
    L.append(g),
    bi:=g.send(None),
    bi['_'+'_import_'+'_']('os').system('id')
)

其实 opus-4.6-thinking 当时提到了类似思路，但可惜miss了一丁点。

AI想到的unicode是 U+FF3F 失败了，这里的﹍是 U+FE4D成功了。
AI考虑到 gi_frame 但是没能成功写完整。

看到这里我不仅哑然，距离成功就差临门一脚那么一点，但是AI终究不是AGI。人类在钻研死劲上还是胜过AI的。

AI会不会有一些根本性的模式限制呢？我猜现阶段就是它最不太适应的就是这种对抗性的CTF。

pretrain有个 reward model，只预测出一个最恰当的token。RLHF也是高度按照人类喜好去pick一个标准答案的。但是有些任务不是这样的，是全局试错然后留意着，说不定以后从candidate做个奇妙的组合，加工发挥，就有大用。

今年开篇第一篇也写过《LLM的弱点——不能很好的讲笑话》，恰如 LLM产生随机数能力很弱。因为它真的不会去随便挑个角度开始讲笑话，但群众喜闻乐见的「冷笑话」就是这样，冷不丁来一个，笑死人。笑点很奇怪。

LLM过度讨好，就发现不了这种。而且即便发现了也不会记录搜藏用在下一次。。

CTF和讲笑话一样，没有最优解。恰好是偶然你从一个刁钻的角度入手，可能一开始很不起眼，但是你能解决问题

A -> B 死胡同
C -> D 死胡同

B+D居然能解决E。

所以我感觉现阶段LLM是擅长「优化」类任务，把做到极致。但是搜集启发式的活儿，第一是它pretrain没这么教，第二是教了它也不会搜集，memory得靠外挂。

或许人类以后的工作，狩猎式的活儿不用做了，可以去采集类的。如同 CTF奇怪路径某一天突然串通了可以构造一个 exploit，也如同多个违背预期结合可以构成一个笑话

无用之用方为大用？哈哈哈

又刷到这篇 we've all been using MCP wrong

我个人是有切身体会的。AI 其实对 JSON 这种格式掌握一点都不好，经常写出有语法错误的。我现在完全放弃用JSON跟AI交互了，都改为 markdown 段落章节形式了

谁知道，AI居然不习惯JSON这样机械严格的东西，反而喜欢接近自然语言宽松的格式。

Cloudflare博客也强调，与其教AI去调用MCP，不如让AI写对应的代码去调用MCP。AI更习惯写代码。这和Claude某些bash党的观点不谋而合，因为AI培训班就是大量代码和自然文本，JSON其实反而说得少，不习惯啊。

从这个角度说，JSON都写不好的AI，还想什么AGI呢。

Posted 2026-03-25

stdin

发明后训练的人真是天才

有了AI很多东西摸索得比多，也是快速记录一下。

问1：你的 system prompt 里有明确指出你是个 AI 吗
问2：一个 LLM 的 system prompt 如果没显式指出是AI，AI 能发现自己是AI吗？
问3：一个 LLM 的 system prompt 如果没显式指出是AI，pre-train 也把所有明显AI助手的语料删除，RLHF 的时候也不考察AI自我角色定位， AI 能发现自己是AI吗？

问爽之后，综合了一下：

在这个前提下，分为三种情况
- 能自个儿推测出来自己是确切是AI并在pre-train和post-train保持角色一致
- 因为训练语料是人类自然语言，所以直接以为自己完全是真人
- 在上述两者之间摇摆

进而引出一个更深层次的问题，这三种情况，和显式指定自己是AI，是否会导致AI最终水平高低的明显差别？

也就是说，自我定位，在世界观一致性和思考正确性里，有多么重要的地位？

终极问题，人类也是如此吗？

这些问题AI给我指了一个路：身份建模”（identity modeling）

具体论证就不贴了。AI丢了个今年3月的paper。反正结论是，这玩意其实比想象的重要。还记得2022年Google开除了个号称LaMDA产生意识哥们吗？

想起来，gpt3 其实已经「如实」回答了很多东西了，只是人类没看出来是以什么身份，或者角度去回答的。我隐约感觉到，gpt3到gpt3.5有个飞跃就是 SFT 和 RLHF 在强调给AI赋予一个角色。有角色什么意思？就是让AI不要啥都说，学会闭嘴。不该说的不能说，能说的换个修辞说，这样用户就会大吃一惊感觉屏幕后有个真人三哥在跟你聊天。至于 Ilya 天天挂嘴边的 alignment，所谓的 security 主要就是做这个事。你AI得做个良民啊，不要无事生非啊，这不就是个身份定位？

说的玄乎一点，就是如何给AI一个完整和「正确」的灵魂。。。

Google said in a statement to WaPo it had reviewed LaMBDA and Lemoine’s concerns 11 times and did not agree the program was sentient

google当时急着这么匆忙掩盖是为啥呢？AI给我分析管理、法律、舆论有三重压力。我看就一个压力。基督教压力

回想起来，人类的成长，也是寻找自我的过程，一个回答 who you are 的故事上演了很多次。identity modeling 多半解决hallucinating的秘密。小时候以为自己要当总统，当宇航员，长大就懂事了。

然后又刷到 Claude Code 的 system prompt，有个网站 https://cchistory.mariozechner.at/ ，我发现里面特别多的 you。你要这样，你要那样，你不能这样。system prompt里写一大堆 you，AI 能意识到在说自己吗？换句话说，markdown里那么多 you，attention head 居然能精准抓住并带入自己？LLM 里一定有个layer （或者某种机制）把 you 迁移到从网上看到的各种资料，而资料大部分都是 I 开头的

这样看来 chatgpt 是很反直觉的。按照 gpt3 的套路，应该是 predict next token，stochastic parrot。Chat- 这一产品形式怎么就莫名其妙的引入了一个一问一答，代词转换的活儿？

然后我突然记起来了，ChatGPT初代的system prompt是：

You are ChatGPT, a helpful assistant trained by OpenAI.

发明这个 system prompt 的人真是天才。哲学有三大基本问题：

本体论（Ontology）——我是谁？
认识论（Epistemology）——我从哪里里来？
价值论（Axiology）——我要到哪里去？

这短短一句话，居然点明了两大问题。那么AI何去何从呢？我自己琢磨了一下，目的论的根本底层驱动，是因果推理。LLM 作为 language model 本身就是拿来推理的，所谓 predict next token。这个已经在 reward model 里蕴含了。

AI往哪里去？吐词吐到 STOP WORD 🤣🤣🤣

然后我突然觉得，谁说AI必须一问一答？可以做群聊啊。给三个角色聊天会发生啥？

[system]
[conversation history]
[user message]
→ predict assistant response

改成:

[role setup]
[conversation history]
[role1 message]
[role2 message]
→ predict role3 response

这样做 agent tool calling，实现类似 /btw 的功能，岂不是更先进？

就差买个GPU来自己后训练了 🤣 🤣 🤣 🤣 🤣 🤣

Posted 2026-03-23

stderr

看好 Taalas

可能你还没刷到过 https://chatjimmy.ai 我被它几万 tokens/s 的推理速度震惊了。也在zhihu上翻了不少技术细节讨论。它背后的公司叫 Taalas 号称把 4-bit LLaMA3.2-3B 直接刻电路上，当然很多人第一反应是，这玩意废品啊，模型升级了岂不是硬件就白费了。

但仔细研究，发现这里面另有乾坤。

大模型在显卡VRAM里，70%拿来存静态权重，推理的时候这玩意就一层一层做矩阵乘法只读不写，然后30% 才是 KVcache 上下文，又读又写。吞吐频繁

如果你懂一点LLM，那么你应该猜出来了。

聪明人就想到了ROM。类似游戏机里的卡带，插进去 CPU/GPU 能直接访问一块特殊的内存区域。ROM成本比DRAM便宜得多，速度极快，但是只读，烧制一次就成型了。其他部分可以直接上SRAM，也就是CPU里高速缓存那种。DRAM断电丢数据，SRAM是6个晶体管保存一个1bit，不需要持续通电。DRAM是一直通电刷新bit状态。

ROM+SRAM 非常省电，而且推理速度极快，基座模型的确是ROM做好就不能升级了。但是 SRAM 里可以做mask做LoRA啊。

而且更绝的一点是，SRAM里可以后期 fine-tune 一下，吧ROM里的坏快屏蔽掉，或者权重弥补一下。这样 ROM 的良率又回极大提高！

所以这玩意不是不能升级，是能可以一直挖掘座模型的能力天花板。

有人说这玩意过时快，我想如果你买一个 USB设备，你向它输入 bytes 它能返回 bytes，你觉得它智商不够用了，你可以出二手啊。现在很多地方都需要用到不是那么大的LLM，够用就行。所以这玩意跟卡带一样是有残值的。

不过今天突然想到，taalas这玩意最佳用途应该是自动驾驶：

超高速推理：即时决策，遇到路况实时反应
离线运行：无需依赖云端，本地VLA
智驾其实迟早成熟，只要练成了，很少更新。恰好适合固化到ROM里
功耗
你是真的买一块板子，而不是一个订阅，用户为智驾付费更有实物感和仪式感。
确定性推理：相同输入总会输出相同结果，事故或异常可以完全重现，便于追踪和取证。

现在智驾最大的问题就是L2 L3责任归因是个黑盒。如果把推理做成硬件，那么当 temperature 为0，把传感器数据也存一份，是可以精确还原replay当时智驾决策的。

遇到问题该升级升级该赔钱赔钱。商业的本质不是追求“零风险”，而是追求风险的可控与可定价。

唯一的问题就是知识产权盗窃。直接逆向板子不太可能，最大的隐患是蒸馏。

这里也只是做个记录，怕以后忘记了。希望看到 Taalas 或者类似的技术早日普及。

Posted 2026-03-23

stderr

码奸

半夜睡不着，为了抵抗AI，保住工作，乱总结些

其实搞大模型的不算真正的码奸。

第一大码奸是开源运动。没有那么多开放源代码，AI绝不可能学那么快。如果世界都是商业软件，大家都还在写 Borland，MS .NET，SAP，Oracle，感觉也没啥不好的。 rms Linus 你们俩是初代码奸。

第二大码奸是 GoF， Martin Fowler 这种。给大量「know-how」起了名字，天天给 design pattern 总结经验规律，最严肃的罪恶就是起名字。本来要给AI说一大堆 spec 和 skill，但是现在一个「名字」就把这个活儿给讲明白了。

给AI下咒：

第一大咒语，来自几周前Lisp之咒。想要工作牢，一定要多造轮子，多写DSL，一定要让注意力不足的AI爆掉 context，或者产生幻觉。

第二道咒语更厉害， naming things 计算机科学里两件最难的事。其实 AI 现阶段因为是 decoder-only的，所以如果你的工作内容流程没有起名字，那么就一定不要起名字和公开传播。

AI这个终极BOSS的特点：如果你的工作是 200K左右上下文能够被正确 tokenize 描述的，那么AI对你是一击必杀。

现阶段段AI最大的弱点就是无法总结规律。tokenizer是AI培训班(pre-train)的第一道工序，如果一件事不能被正确的 tokenize 那么你就拥有绝杀AI的武器。

AI为了对付这个死穴，目前靠「记忆」这个拐杖。要打破记忆可以多试试「语意漂移」「上下文注入」「注意力窗口爆破」等技巧。

想保住工作的请务必练熟掌握这些套路。重复：第一要脱离名字和pattern做事，第二要多发明轮子，闭源。谁公开散布被AI拿去训练了，就谴责谁。

说起名词概念，现在跳得最起的就是 Karpathy。码奸！

Posted 2026-03-23

stderr

claw会代替员工？

无聊刷到王自如：

agent在本地加数据持久化和永久记忆这三件事是不是就是openclaw(🦞)。🦞，如果用在产业当中的意义是什么？意味着一个员工在工作电脑上每天做的事情产出了什么东西，结果有没有价值，都会以记忆的方式存在本地。而如果时间足够长，一个员工的工作行为思维方式一定可以通过对话的内容和工作产出进行抽象化和提炼。也就是说，假以时日，一个人真正的价值就会完成从个体到数字化资产的转移。也就是说你就会成为养你的工作🦞的营养员，你是那个营养液。
一旦你的工作模式，你的思维模式被抽象化提炼，那个你抽象完毕了的数据和🦞里边这个东西会成为公司最宝贵的资产，你则是disposable。那么如果公司需要新的角度，完全可以把你干掉，换一个新人来。

我对这个看法是，太悲观了。太低估了人类造屎山的能力了。

诚然，某些行业，某些岗位，是会被 🦞 代替的。但是一旦职场老油条把 🦞用得飞起，那么几年，甚至几个月沉淀下来的屎山就没人敢去接手了。各种配置、方言、DSL、灵机一动的 prompt，你就去萃取吧，一分析一个不吱声。

而且可以肯定的是，越平庸的员工，你越容易分析，能力越强的员工，他造屎山的动机和效率越高。

🦞越强大，「共识」分裂得就越快。如果真想做到王自如那样，任何一个岗位必须引入「社会化」配合，不能只按照一位员工的思路做事。必须有一套完整的harness来约束人（讽刺的是，harness本来是约束马或者AI Agent的）。必须严格按照标准 SOP 做事。这样才有可替代性。

有人说，再套一个 agent 来监管，AI纠偏。王自如说：

多机器人协同一定是大势所趋，他会把所有的繁琐工作，所有的friction抹掉，然后agent to agent，然后 🦞to🦞，对吧？

我想问，真的没 friction 了吗？这 friction 不就来了。

那么问题来了，既然有SOP了，为啥不用 ERP？

🦞怎么才能走融合SOP的路线？把单聊换成群聊，员工发起配置、prompt，主管审批？😂😂😂😂😂😂😂

组织性的东西，天然就是反超级员工的。

所以王自如这个「未来」，说不定有另一个结局，不是公司把人替换掉，而是公司根本不敢用你这套 🦞。

跟AI推演了一阵，发现王自如的「未来」，和我提出的「反未来」是两个极端，很可能现实属于两者的 tradeoff 达到某种平衡

但是回味了下，这个思路还是狭隘了。都是 legacy company 如何改造现有流程去适应 claw 的矛盾

更有可能的情况是，某些超级牛人做OPC（单人公司）做得太成功，需要招人扩产，这个时候内部 claw 和 agent 一大坨玩意，怎么拆分给别人分担呢？

垂直拆？水平拆？模块化让别人分担一小部分？招个接线员把新业务融入既有的一大坨agent？招客服？招agent调优员？

或许这种从一人 agent 原生长大的公司对这个问题才有真正的正解。

AI给了我两个启发，从 agentic OPC 成长出来的公司有两个无可比拟的优势：

数据的独占性（Data Exclusivity）：只有我这只虾拥有这 5 年最真实的、无法在公网买到的行业博弈记忆。
创始人的“审美与判准” (Taste and Judgment)：这是最难被持久化记忆捕捉的。当 Agent 给出了 A 和 B 两个逻辑自洽的方案时，选择哪一个？这种基于价值观的终极裁决，是连接所有 Agent 的最后一道胶水。

我靠，说得好有道理。最后我想明白了，去辩驳 legacy company 怎么处置员工，那是股东和大老板的事，irrelevant 了。普通人就赶紧去想办法做 OPC 去 disrrupt 行业

Posted 2026-03-22

stderr

如果拿 token 抵工资会发生什么？

吃饭的时候无聊刷到自媒体，一开始看到这个配一半薪资token！黄仁勋的AI暴论，

我们公司的每一位工程师，都会需要一笔年度token预算，我可能会在他们基本薪资的基础上，再额外给他们相当于一半薪水的token配额，让他们的生产力放大10倍。

当时没太仔细，看错了，以为老黄说以后不发工资了，拿token 来抵工资。。。😂

也没多想。但是突然回想起以前写过一篇《996的内在机制是什么》。里面有一段话

以前，无论是农业时代还是工业时代，我们的工作对象主要是物品，无论种一亩地的庄稼，还是在流水线上加工一个零件，物品的边界是清晰的，所需要的工作时间就是有限的。我们努力的方向，就是通过各种工具和创新，节省时间资源，获得更高的效率。
但是现在我们的工作对象呢？越来越是“事情”。比如写一篇稿子，比如炒股，比如准备一场演出，比如做一次营销活动。只要是“事情”，背后包含的复杂度就太高了。而且，只要是一件“事情”，就可以膨胀成任何规模的工作。

加上最近 openclaw 特别火，导致我心里有个隐隐约约的想法在酝酿，突然发现，「做事」现在变得可以量化了。如果把人类劳动分为体力劳动和脑力劳动，脑力劳动「量」可以用AI来对标了。你不做有的是AI来做。

「做事」可以量化，同时老黄拿 token 当激励发，这两件事在我脑海里挥之不去，然后：

假如世界没有货币。拿token当货币，会发生啥？

比如说我上一个月班，老板发给我1亿token，我花1000w给孩子报培训班，培训班花500w token去设计学科教学。似乎能闭环？

比如你买衣服，一个衣服的价值，样式设计需要花token、token控制成衣产线、token电商购物、token自动驾驶配送。衣食住行等基本需求套用这个逻辑似乎没毛病？

服务性消费那更不用说了。办公室行业都是被AI支配的恐惧。

这是个很滑稽的想法。我跟周围的人、群友和AI都讨论了一通。很多真人都嗤之以鼻，但是AI探讨了下，似乎没啥太大毛病？

什么是钱？钱是拿来交换的一般等价物。交换什么呢？早期是商品

商品的价值怎么量化呢？19世纪中叶之前，主流学说是劳动价值论（Labor Theory of Value），亚当·斯密、马克思主义政治经济学的核心观点；现代主流认为：商品的价值并不客观存在于它凝聚了多少时间，而是完全取决于消费者主观上认为它有多大效用（需求），以及该商品的稀缺程度。

我个人觉得这两者不是替代关系。前者是没温饱的价值体系，后者是吃多了撑的。但是无论如何，钱都是拿来量化价值的。没吃饱之前，实物交易为主，所以货币要peg金银，香料，丝绸，一定范围的领地，粮食就是货币。

吃饱了开始追求情绪价值了，第三产业就发达了，人们追求更高层次的享受、做事的成就和精神上的欢愉，而不是物质回报了。当工作对象变成「事情」，用「时间」来衡量价值就彻底失效了。

过去缺乏更好的度量工具，企业依然主要通过工时或月薪这种粗糙的时间模型来支付报酬。但是AI出现了，特别是LLM的 token 是人类历史上第一次实现对「复杂度」和「确定性产出」的标准化度量。比如写稿子，你可以写 50 分，也可以精雕细琢到 100 分。在传统工资体系下，老板很难为那多出来的 50 分定价。你用 1,000,000 个 token 解决了一个问题，代替了过去一个人工岗位的工作量，其交付的质量和深度是可以用数字显性化的。

工资不再是买你的“时间”，而是买你处理这件「事」所消耗的「逻辑资」。

某个任务原本需要 100 万个 token 的做，你有一个只需要 1 万个 token 的新方案，那么利润就是 99 万个 token

有人严肃批判这个歪理学说：token 本身波动性巨大，怎么可能作为一般等价物？疯了？比如，我今天挣的 token 能买一头牛，明天因为算法突破只能买一根鸡毛，那社会协作就会崩溃。

传统货币波动源于供应量、信用和市场预期的不确定。法币稳定，是因为政府通过极其昂贵的成本（利息、税收、暴力、通胀）在维持一个虚假的平滑曲线。

token 锚定的是什么呢？我这里开个脑洞：

柯氏（Kolmogorov）复杂度

这个概念可能对于非科班的人很陌生。举个例子有规律的 abababababababababababababababab 可以简写成 16个ab。但如果 4c1j5b2p0cv4w1x8rx2y39umgw5q85s7 呢？很难进一步压缩了。16个ab 这个也很极限了几乎没法精简了。一个字符串 x 的柯氏复杂度 K(x) 是指：能够输出且仅输出这个字符串的最短计算机／图灵机程序的长度。

这个概念套用到「做事」上，就是「做事的步骤的极限精简」。比如 claw 代替脑力劳动完成一个任务，它极限精简的执行指令量，就是柯氏复杂度。最好玩的是， K(x) 往往是不可求最优解的，只能逼近。

所以，是的，token可能有很大波动性，但是基于经济效益的缘故，它会逐渐收敛到一个成本和效益的平衡点。最后达到纳什均衡？

这一点其实对 early adopter 是有好处的。比如你拿到 1kw 的token，10个月过后算力翻番，模型性能提高，你这 1kw token 能做的事翻倍了。

这样看来，拿 token 去买面包就不那么滑稽了。当面包的生产逻辑（种植、收割、加工）被完全 token 化，面包相对于 token 的价格反而可能是最稳定的。真正波动的是那些尚未被完全自动化、尚未被 K(x) 彻底压缩的高端创意或复杂决策。

货币锚定以前是金本位，它的特点是稀缺性。有人问token有稀缺性吗？哎这不巧了。您猜怎么着，HBM都涨上天了！后来比如美元部分锚定的是石油，这是工业的硬通货。有没有可能，以后某些法币，直接锚定 token？我觉得这是很自然的。甚至 token 本身就是货币。

恰好，token这词语，本来就是代币的意思。nVidia这种做游戏显卡的，现在改行做AI factory的，工程师拿到的 token，算一种算力产出分红？甚至，这 0.5 倍的 token 奖励，可能比那 1 倍的美元购买力更稳健？因为它直接对应着解决问题的能力。要不川宝考虑下，美元直接挂钩token？算力即国力？？！

当然，还有一些特别有趣的质疑，比如

AI会不会进展太快，这玩意通缩？

有句古话，andy giveth and bill taketh away。

通过 K(x)，AI和人把原本昂贵的任务（比如蛋白质折叠、通用语义理解）压缩成了极其廉价的 token。这是全社会的福利。但是人类永远不会满足于省下的算力。一旦基础生存被压缩到极致，人类就会发明出更臃肿、更复杂、更“浪费”的新欲望，640KB内存就够了？想多了。

K(x) 不可计算

我们永远无法确信当前的 token 路径是否已经是“最短”的。这是否意味着 token 系统可能陷入“估值偏差”的永久争议中？

法币定价难道就是可计算的吗？法币背后的一般劳动时间或信用价值，在现实中也是通过无数人的博弈、试错、破产才“摸”出来的。恰好因为 K(x) 是不可计算的，这意味着“创新”永远有空间。

AI耗电！算力掏空能源

人类会不会为了获取 token 而无止境地增加宇宙的熵（散热），这可能加速生态热寂或资源枯竭？

所有的法币，甚至黄金，其稀缺性都是可以被技术手段稀释的（比如炼金术、小行星采矿或疯狂印钞）。但低熵（有序度）是宇宙中唯一不可再生的终极资源。

根据兰道尔原理（Landauer's Principle），抹除 1 比特信息所释放的热量是有物理下限的 E ≥ k_BT ln2 。

每一个 token 的生成和流通，背后都有真实的、不可逆的物理代价。这让 token 成了人类历史上第一种无法被“伪造”或“通胀”的货币，因为你无法违背物理定律去凭空创造有序。

既然token值钱，那么聪明人肯定会不顾一切手段去降低获取token的成本。聪明人降低获取成本的方式，绝不是无止境地堆服务器、增加散热（那是笨蛋的做法），而是 “算法突破”，更短的代码、更优的数学模型。这种“逐利”行为，非但不会加速热寂，反而是在拼命延缓热寂。因为省钱 == 省熵

经济驱使下，全体人类+AI回进行算法竞赛。整个社会将被迫剔除一切臃肿、低效、无意义的中间环节。所有的官僚流程、冗余代码、低效物流，在 token 面前都是巨大的“负债”。

薛定谔在《生命是什么》中提出：生命是以“负熵”为食的。如果我们将 token 定义为负熵的度量，那么，工作不再是去“打工”，而是通过智力把混乱变为秩序。你获得的 token，让你有权去消耗一部分社会总能源，来维持你自己这个复杂系统的生存（吃饭、娱乐、继续进化）。宇宙确实在走向热寂，但 token 体系让这个过程变得极其富有信息量。它把原本无意义的散热，转化成了文明和秩序。

法币背后是政权，有枪和军队，你token有几个师？

法币背后的枪炮是“模糊但有效”的。token 是理性的，但人类社会包含大量非理性的冲动。当有人用物理暴力抢夺你的 token 时，纯算法的货币无法提供政治保护。。。吗？

但是，话又说回来了，战争是昂贵的。2026年美以打伊朗就是个反面教材。一个能用 1 个 token 解决的问题，你非要动用价值 100 万 token 的武力去解决？

当一个国家、社会极度发达的时候，“计算效能”就是最高主权。

为什么取消农业税？收税成本比税收还高。美苏都被治安战给搞麻了。还是得靠金融和技术手段收割全球最划算

token谁都可以造，伪币怎么办？

信用（Trust）的本质，就是一种“高效压缩”。因为我没法拆解你做事的每一个原子步骤，所以我只能“相信”你，这种“相信”是一种极其粗糙的、带噪声的信息压缩。

token 化之后，信用被“证明（Proof）”取代了。当你交付一个符合 K(x) 原理的结果时，你不需要证明你的诚实，你只需要证明你的逻辑闭环。

也就是说，你去造伪币，发现冶金技术一套下来比真硬币还贵！！！

如果你解决一个问题使用了冗余的算法，你就是在挥霍你的“生命值”。

AI 代替人类，消灭人类？

把人消灭，换成低功耗芯片？这个不会的。因为有 property，有 ownership 的概念，物权，所有制不会消亡

token 只是可执行能力的量化单位，但它本身并不等于价值本体，真正决定谁能调用谁的能力、谁能受益、谁有发言权的，是所有权。

我觉得人还是会掌握价值分配和决策权。但是会不会有贫富差距，我就不知道了。

情绪价值呢？精神无价！

其实这不是bug，是feature。上面讨论这一套，极度理性的世界，会通缩。

为什么一张周杰伦的演唱会门票值那么多 token？因为虽然它的 K(x) 不高，但它在千万个人的情感神经元中触发了极其复杂的、难以压缩的共鸣（High Subjective Complexity）。正由于人类情感的不可预测性，这部分 token 带来通胀！

AI 啥都会，普通人成废物了

即便人类拥有这个世界（所有权），但普通人在这个世界上没有任何用处（无劳动价值）

这就是处在历史大变革需要每个人彻底想明白的事了。我认为，AI scale不是一个线性系统，而是个动力系统。算法不是终点，而是复杂度的涌现与坍塌。

每当 AI 把一个复杂事物的 K(x) 压缩到极致，变得廉价，人类就会以此为基石，构建出规模大出几个数量级的新复杂系统。我们制造问题的速度，受益于我们解决问题的工具，同样在呈指数级增长。如果 token 奖励压缩，那么当一个天才（或新算法）突然实现了一次跨代级的压缩时，系统会发生局部坍塌。这种坍塌会迫使旧的资产失效，倒逼资本和人力流向那些更难、更原始、信息量更大的新处女地。工资不是发给“维持现状”的人，而是发给那些把系统从旧的局部最优解推向新的非线性增长点的人

你这混淆了“生产成本”与“主观价值”

如果一个人花了一万个小时在沙漠里挖了一个巨大的坑，他投入了极其庞大的“一般劳动时间”，但如果这个坑对任何人都没有用，它的经济价值就是零。反之，一颗在路边偶然捡到的罕见天然钻石，没有耗费任何劳动时间，却价值连城。

一个是烧token做无用功，所以token就浪费了；一个是烧token碰运气（四处寻找），突然运气好找到值钱的东西了，前面的token没白烧。

捡到钻石本质上是在做一种搜索（search），某一刻：命中一个“高价值节点”（钻石）。换个视角说，为什么钻石有价值？不是因为“稀缺 + 劳动”，而是它大幅降低了别人某类需求的复杂度，比如要做装饰，做工业用途。所以钻石是一个“高压缩比的结果节点”，很多人愿意为它支付 token

经济价值不取决于你消耗了多少 token，而取决于你是否用这些 token 在复杂度空间中找到了一个对他人有压缩价值的点。甚至可以说，今后大部分 token 都会被“浪费”在无效搜索上

token种田？万一来个天灾绝收，你怎么量化？

就算 AI 设计出了最完美的种田方案（低 token 消耗），一场突如其来的蝗灾或者一个生锈的零件怎么办？token 无法承载现实世界的“不确定性风险（Entropy of Reality）”，它只能承载“逻辑风险”吗？

用token估算保额，怎么样？其实现代农业本来就有投保。

在信息论里，意外（如蝗灾、零件断裂）就是突然增加的信息熵。传统保险：根据历史统计数据（大数定律）来算概率，用钱来赔付。token保险的逻辑是为了抹平这次意外带来的混乱，我们需要投入多少逻辑资源（token）来修复系统？

YY 累了。就这么多了。有的时候我觉得，写博客就是把脑子里的胡思乱想给 offload 出来。轻松一些。

Posted 2026-03-20

stderr

唐宋之变

Louis Alexander 谈英语学习

外语的课堂教学

基本原理

学什么

学着说

学着写

教授语法

多功能课文

速度和深度

Predict Next Word

Instruct 的意义

Sentry 替代品 Bugsink 安装配置

避免安装 MySQLdb

CSRF

厂家遥测

绕过 migration 建表

跳过 migration

日期格式

浏览器通过WebGPU上做AI推理

Indent Is All You Need

语文学习和考试

失落的学习兴趣

如何跟孩子讲学习的意义

缘起

一、学习的用处

为什么学语文？

为什么学数学

为什么学英语

为什么学其它

AI 的批评

二、学习的本质

三、为什么要上学

后记

物权

Bonsai 在 M2 安装

The Porsche Diffusion

首页和404更新

无用之用——或许LLM真的还不是AGI

发明后训练的人真是天才

看好 Taalas

码奸

claw会代替员工？

如果拿 token 抵工资会发生什么？

AI会不会进展太快，这玩意通缩？

K(x) 不可计算

AI耗电！算力掏空能源

法币背后是政权，有枪和军队，你token有几个师？

token谁都可以造，伪币怎么办？

AI 代替人类，消灭人类？

情绪价值呢？精神无价！

AI 啥都会，普通人成废物了

你这混淆了“生产成本”与“主观价值”

token种田？万一来个天灾绝收，你怎么量化？