汉字 和 汉语 的先进性
Posted | stderr
前几天 Andrej Karpathy 怒赞 Deekseek-OCR,认为图形比字串更能与意义产生深层次的共鸣。
老外评论说这个角度太刁钻,是不是因为中文是方块字,属于 ideogram 程序员更能看出来其中的问题?我当时就回复,没错,汉字读写其实就是记忆宫殿 Method of loci
今天1024,又有一篇讨论 When is it better to think without words?
2013年的一段讨论
视觉识别为什么有优势,这个在2013-11-15和朋友有如下讨论:
09:20
K:还是不喜欢看电子书 包括技术类的 是不是原始人的通病
09:23me:擦我压根就不喜欢看书 注意力不集中症
09:24K:你知道这个"不喜欢看电子书'就是一种委婉的说法 我也是
09:24me:-.-
09:24K:注意力难集中得很 看书有焦虑
09:24me:我也是啊 我日
09:24K:看一会儿就觉得我漏看一行 越回去看越觉得焦虑
09:24me:-.- 哈哈
09:25K:用手指指着两张之间 然后眼睛从两行之间的地方快速扫过 手指再下移 这个办法可以帮助我提高注意力同时避免一行一行死抠 两行之间*
09:26me:你大脑已经变成机械游标来parse文本了么 哈哈哈哈 不过我有一招可以缓解这个症状。不过只对中文有效 就是只记文字形状,不记声音和意思 这样效率奇高
09:27K:如何控制只记形状
09:27me:特别是古诗词默写什么的。给出上一句,我能记住课本那一整页的文字排版和形状
09:27K:我日
09:27me:就好比看照片一样 当然需要练习。克制自己去默读的坏习惯。 http://en.wikipedia.org/wiki/Subvocal_recognition 汉字这个东西要跟英语区分开。英语你不默读很难搞懂。。汉字倒是可以直接记忆形状
09:29K:这个估计和是不是母语也有关系
09:29me:我觉得不是吧。。英语是拼音的。。。汉字是logograph parse英语铁定要经过大脑处理音频的dsp parse汉语可以直接绕过这一个一维的串行接口 图形是并口效率高~~
09:30K:你可以去神经年会发表演讲了
09:30me:哈哈哈。。。 英语还有jb蛋痛的变形 所以parse起来效率低啊
09:31K:英语还好啦 法语这种才是parse起来慢
09:31me:性数格 一起上!
09:32K:还有倒装 宾语前置 甚至还有多宾语前置 我见过3个宾语前置的 然后按照规则排 最关键的是
09:32me:是嘛、这就是导致parse只能去线性scan。搞毛。。。
09:32K:如果是indirect object 前置的时候介词省略了 搞毛 je telephone à Marie. je lui telephone.
09:33me:national geographic 最近出了个片 世界记忆冠军就是用的照片记忆法 推荐去看看。虽然有点啰嗦 我找下imdb 这jb去街上找美女给4张亿美元。他背编号。背对了就是他的。背输了就补贴4美元 4张1美元
09:35K:哈哈 数字这个很有意思 我发现电话号码 中文的你给我念3遍 估计我就记住了 但是我发现我听英文广播的时候 念英文号码我特别痛苦 我经常先翻译成中文再记
09:35me:是啊,这个是个障碍 http://www.imdb.com/title/tt2113487/
09:36K:估计脑子里的图像和英文没有联系
09:36me:这个。可以抽空看看。我觉得拍的好!
09:36K:估计直接记形状好
09:36me:嗯。那个记忆冠军就是把字母想象成玩具一个一个挨着放在沙发上 然后虚拟拍照 http://movie.douban.com/subject/10863209/ 这个国内下载很多 居然是11年的。。囧
09:37K:... 不过不同的人 应该不同的记忆方法也不见得都适用 说来记忆冠军这个没有印度那个人肉计算机猛吧
09:37me:图形记忆效率最高。这个可以被大脑结构证实吧 眼睛输入带宽是最大的
吐槽一下自己十多年前就知道这事了,十多年后还是停留在这个认知 🤣
其实6年前我在zhihu的回答也阐述了类似的话题。干脆转录一下,锐评一波 汉字 和 汉语 。
中文在数学表达上是否处于劣势?
抄题
中文在数学表达上是否处于劣势?
西方语言是以字母为基础表达含义的,现代数学表达也是以数学符号和字母为基础的,
硬要杠一下这个问题的话,欧洲各国的字母表也就是 alphabet,源自拉丁或希腊字母表,而拉丁希腊又直接师承 phoenician alphabet 腓尼基字母表,腓尼基字母被认为是当今所有字母的祖先,腓尼基发源地在黎凡特 Levant 地区,地中海东岸、阿拉伯沙漠以北和上美索不达米亚以西,也就是现在的黎巴嫩,妥妥的属于东方,亚细亚书写手段。
再往上面数,他们祖师爷是巴比伦、苏美尔楔形文字,也跟西方没半毛线关系!
所以有理由认为西方是没有自己的字母的。都是山寨东方的。不服来辩!
杠完了再仔细说说,「西方语言是以字母为基础表达含义」——这个也是大错特错。字母只能表达半个发音,一个完整的音素都算不上,单个字母脱离了上下文无法表达任何含义。
现代数学表达是以符号为基础的。字母只是书写这些符号比较方便的方式。而且就数学那坨公式而言,我觉得都不属于自然语言范畴了。那玩意压根就不是线性书写线性阅读的,上标下标 a-z 都不够用。加上晕眩的范畴体系,更加复杂。
中文在数学上表达是否处于劣势?首先说中文分为汉字和汉语,是否处于劣势呢?我觉得英文和英语也处于同样的劣势。见我对另外一个问题 汉字是否属于较落后的文字系统? 对「没有西方文字就无法进行复杂的物理、数学思维」这个说法的批判。
汉字是否属于较落后的文字系统?
今天上课一位年轻的海归在讲到汉语的时候说汉字是落后的文字,汉语是落后的语言。他的观点主要是因为汉字是表意型的文字,基本构件很多,而且没有抓住语言的物质外壳——语音
而语音在语言中又最关键。作为拼音文字的西语,抓住了语言的关键–语音,因此只要掌握了字母的发音,即使从来没见过这个词,根据组成也能知道他的读音和意思。
这货恐怕从来没见过形声字。。就算画鸟图的古埃及文字最后都拼音化了。
英语的发音毛病
好吧我们在说下,这里的 西语 是指西班牙语?那么还行。如果指的是西方的英语,那么问题严重了。英语恰好就没有抓住语言的关键——语音。请看下面评书:What If English Were Phonetically Consistent? 如果英语严格按照一致化发音会发生什么?

这视频在网上特别火。不喜欢Y站的可以去 b站搜 av41779729
发音是个串口协议
看完之后,再聊下语言的核心——发音。这其实也有大问题。视觉系统是并行的,听觉是串行的。并行 IO 远高于串行。所有欧美语言特种训练 speed reading 都要强调 subvocal 这个概念。为啥呢?呵呵呵呵。再想想罗马宫殿记忆法本质是什么?这可是古希腊古罗马传统记忆比赛冠军的最重要技术!英语中形容一个人记忆力最强状态是什么?photographic memory。其实这个「photographic」很有意思,为汉语里也叫过「目」不忘呢?所以高效记忆的本质还是——形状。
再说说识别效率,英语阅读理解每分钟达到 200 words per minute 被认为是很好的水平了。更高的速度需要特别的手段,比如 Spritz 这家公司他们这家公司他们的方案。你去看下方案就会笑掉大牙。这玩意就是把 连续发音 人为割断成「方块字」!这样反而提高了阅读速度?哈哈哈。
所以,论记忆效率,形状快于语音;论识别效率,形状也是大于语音的;语言的核心(或许可能)是发音,但是文字呢?支持文字和语音分离。表意文字万岁!查表效率最高!
汉字 属于 IL
汉字其实就是一个 intermediate bytecode ,中间字节码。解析、存储效率相当高。口语白话,那只是各种上层表达语言而已。汉语在秦始皇的时候就发明了 LLVM 的架构了。牛逼。你们西方语言还在手写 x86机器码!稍微硬件平台换一下语言就不兼容了,发音的准确传承极易被历史事件打断。其实,英语的第一本字典是 1591 年代 Robert Cawdrey 发明的。。。再往之前文字就是贵族私塾才教,平民大众压根没人看得懂文字都是文盲。说起来你们不信,这作者名字 Cawdrey 自己名字都会写错,因为也有人写 Cawdry 。反正读音都一样对吧。
就算这词典出版了,spelling 也就是文字体系垃圾到什么地步?这词典里兔子 cony 这个词,竟然出现了 conny conye conie connie coni cuny cunny cunnie 这么多重。说好的发音是文字的精髓呢?茴香豆也没这么多种写法啊。
1591年这才差不多 开始 统一文字的拼写方法,啊!卧槽,想象一下这是什么年代?永乐大典据说都在宫里被烧掉一波了,明神宗朱翊钧 都要完成三大征了,利玛窦都开始在南京翻译《Elements》了,再国50年牛爵爷就出生了,开始满世界找苹果砸脑袋了。这连文字标准写法都才开始慢慢统一?
屈折语不利于统一发音
你要说记录发音就记录发音吧,五线谱、IPA 甚至韩国谚文都比你那套好。印欧语系最大的死穴是什么呢?——屈折语。这个词形变化的毛病太恶心了。性、数、格、时、体、态、人称、语气、级、式、非限定、级、序这些变化真的能体现语言的关键–语音么?为毛昨天吃和今天吃,都是吃,发音就不一样?这样的文字书写体系,你很难从一大段语音或者文字里找出「相同」的词。比如前面一个 go 后面一个 went,其实讲的都是同一个意思,但是就是没法直接对应起来。非常影响查找 recall 效率。
通过语音交流进而形成语言是生命发展过程中很奇特的东西。但交流的本质还是大量物品的视觉、事物、理念的碰撞,而不是没接种传播单一音频振幅序列。你发明一个正字法仅仅把「发音」规范化,这是舍本逐末了。真正应该规范的是把相关联的事儿合并成一个书写手段。所以你们有没有想过为什么英语把pig meat 叫 pork ??不要以为这是逼格的问题。让我想起了 zhihu 上看到一个回答,老外得知葡萄干是葡萄做的之后震惊了。。。。哈哈哈。因为葡萄干叫 currant或raisin,葡萄叫grape。。。还有葡萄酒叫。。。wine!这几个单词八竿子打不着。
未来属于分析语!
不过,也说点英语的好吧。长句从句表达意思很清晰。这一点分析语就特别爱好各种比喻排比。
emoji 算一门语言吗?
其实评论里还提到另外一个事儿,不得不补充下。随着书写工具现代化,字母记录发音的语言遇到新问题——emoji。这事儿越来越严肃了
Your honor, it’s an eggplant: Lawyers call for guidance on interpreting emoji
Emoji are showing up in court cases exponentially, and courts aren’t prepared
2014年,密歇根州上诉法院的法官得出结论, :P 这个表情符号“代表一张吐舌头的脸,表达开玩笑或者讽刺的意思”。法院表示,不能严肃地看待这则评论,也不该把它视作诽谤。
一个以色列2017年的案子,其中涉及一对打算租房的夫妇。两人给房东发了一串表情:笑脸、彗星、香槟酒瓶、跳舞的兔女郎还有一只花栗鼠。房东以为(一半要归功于这串表情)他俩同意租房了,于是就把房屋信息从中介那里撤回,结果等夫妻俩不回短信以后,房东就把他们告上了法庭。
来来来,觉得语言的关键是「语音」的,把这几个 emoji 给我读出来。:P
这事儿其实你们可以好好考虑下。emoji 是文字么。现在大家无非发几个表情或者动物用来搞笑,但是20年50年后呢? 熟练使用 emoji 的下一代长大以后呢?
语言的关键,我觉得还是传达意义。表意文字就是代表着最先进表意序列化手段。
请注意,这不等同于汉字就是最先进的文字体系了。但是我认为汉字所代表的方向是无比先进和正确的。
没有西方文字就无法进行复杂的物理、数学思维?
这句话是否正确我们先放一下,这句话和题主「语音在语言中又最关键」相映成趣。随便举个例子:

看这个数学公式,如果你用「发音」来传递信息,能精确无误表达这个不等式吗?别的不说你们能用口述精确把这个不等式复述出来么?
恰好数学物理,把「意义」给符号化了,脱离了「发音」的困扰,才使得精确信息传递变成了可能。数学物理里面一些大道理其实根本没法发音。字母文字这种一维线性的书写手段压根没法表达上标下标优先级高阶运算等等含义。所以科学家才不得不新发明一套 mathematical notation。这套 notation 脱离了语言,直接用符号表达意义,所以评论区这种观点,恰好成为反驳这个问题最好的论据。2333。
其实现代先进生产力的东西,都是越来越脱离语音的。又想起来了,如果用语音输入来进行 Perl 编程会发生什么?你们安静一下影响我用 TNT 了!还有如何用苏格兰方言语音控制电梯到11楼。2333
汉语的最牛逼优势——绝对音高
表音文字的问题说完了,在来强行吹一波汉语的好。参考《科学美国人》2004年报道的一项严肃的学术研究
Speaking Tonal Languages Promotes Perfect Pitch
1999年 NYTimes 报道,一直到2016年,都有团队从很多个角度证明了,绝对音高是个天赋,而且是和语言密切相关的。
A new study concludes that young musicians who speak Mandarin Chinese can learn to identify isolated musical notes much better than English speakers can
可能有人觉得「绝对音高什么鬼」那么放一个 zhihu 传送门 具有绝对音高(感)的准确定义?
你们知道很多五音不准的老外有多羡慕 absolute pitch 的天赋的人吗?在西方世界,贝多芬和肖邦那样的天才才会拥有这一项天赋。《科学美国人》说这项天赋是 Fewer than one American in 10,000 has absolute pitch。没有这个天赋的人,需要幼年开始长期艰苦后天训练才有资格拥有。然而在汉语这种 tonal language 里,很多普通人不用经过额外的训练就无意中拥有了这项技能。
以上
老祖宗发明的语音,给你你们万里挑一的天赋——绝对音高;
老祖宗发明的文字,历经演化,给了你们世界上解析效率极高、记忆成本最低的书写媒介;
……你们却把这门语言用来在网上骂别人傻逼。

Comments