看好 Taalas

Posted 2026-03-23 | stderr

可能你还没刷到过 https://chatjimmy.ai 我被它几万 tokens/s 的推理速度震惊了。也在zhihu上翻了不少技术细节讨论。它背后的公司叫 Taalas 号称把 4-bit LLaMA3.2-3B 直接刻电路上，当然很多人第一反应是，这玩意废品啊，模型升级了岂不是硬件就白费了。

但仔细研究，发现这里面另有乾坤。

大模型在显卡VRAM里，70%拿来存静态权重，推理的时候这玩意就一层一层做矩阵乘法只读不写，然后30% 才是 KVcache 上下文，又读又写。吞吐频繁

如果你懂一点LLM，那么你应该猜出来了。

聪明人就想到了ROM。类似游戏机里的卡带，插进去 CPU/GPU 能直接访问一块特殊的内存区域。ROM成本比DRAM便宜得多，速度极快，但是只读，烧制一次就成型了。其他部分可以直接上SRAM，也就是CPU里高速缓存那种。DRAM断电丢数据，SRAM是6个晶体管保存一个1bit，不需要持续通电。DRAM是一直通电刷新bit状态。

ROM+SRAM 非常省电，而且推理速度极快，基座模型的确是ROM做好就不能升级了。但是 SRAM 里可以做mask做LoRA啊。

而且更绝的一点是，SRAM里可以后期 fine-tune 一下，吧ROM里的坏快屏蔽掉，或者权重弥补一下。这样 ROM 的良率又回极大提高！

所以这玩意不是不能升级，是能可以一直挖掘座模型的能力天花板。

有人说这玩意过时快，我想如果你买一个 USB设备，你向它输入 bytes 它能返回 bytes，你觉得它智商不够用了，你可以出二手啊。现在很多地方都需要用到不是那么大的LLM，够用就行。所以这玩意跟卡带一样是有残值的。

不过今天突然想到，taalas这玩意最佳用途应该是自动驾驶：

超高速推理：即时决策，遇到路况实时反应
离线运行：无需依赖云端，本地VLA
智驾其实迟早成熟，只要练成了，很少更新。恰好适合固化到ROM里
功耗
你是真的买一块板子，而不是一个订阅，用户为智驾付费更有实物感和仪式感。
确定性推理：相同输入总会输出相同结果，事故或异常可以完全重现，便于追踪和取证。

现在智驾最大的问题就是L2 L3责任归因是个黑盒。如果把推理做成硬件，那么当 temperature 为0，把传感器数据也存一份，是可以精确还原replay当时智驾决策的。

遇到问题该升级升级该赔钱赔钱。商业的本质不是追求“零风险”，而是追求风险的可控与可定价。

唯一的问题就是知识产权盗窃。直接逆向板子不太可能，最大的隐患是蒸馏。

这里也只是做个记录，怕以后忘记了。希望看到 Taalas 或者类似的技术早日普及。

Comments