正在加速崩塌的是「中文」,不是互联网

看到一个说法《何加盐|中文互联网正在加速崩塌》,文章说

几乎所有在那个年代曾经红火过的中文网站,如网易、搜狐、校园BBS、西祠胡同、凯迪猫眼、天涯论坛、校内网(人人网)、新浪博客、百度贴吧、以及大量的个人网站等,在一定年份之前的信息都已经完全消失不见了,甚至大部分网站是所有年份的信息都消失了。唯一例外的是新浪网,还能找到一些十几年前的信息,但也是极少数的寥寥几条,其他99.9999%以上的内容,全都消失了。
为什么会出现这种情况呢?我猜想,主要原因可能是两个:一是经济原因。网站的存在,需要服务器、需要带宽、需要机房、需要人员运维……二是监管原因。

无独有偶,刷到一个帖子

2023-8-14 11:00梁博:Common Crawl中文数据提取出来了,做了去黄等处理,发现简体中文压缩数据只有6TB,解压后30TB左右,繁体压缩数据6TB。中文数据到2019年冲到一个最大值,之后就回落了,不知道2020年具体发生了什么事情。。中文网页数据还是有点凋零。是不是有些网站不维护了?

更大的问题是所谓科技巨头们自建高墙,把用户和内容视为自家资源,不支持互联网链接,公然且无耻地未被互联网开放互联的精神。你在 twitter 里面可以引用,加任意链接,信息自由流动。在微信、抖音、小红书里面试试?

twitter,或者说 𝕏,也开始建墙了。比如 nitter.net 就不允许使用了。walled garden 我觉得算一个因素但不是绝对因素,比如十几年前CCF和DRL这类封闭式论坛还是经常有人转帖出来,好的帖子转就完事了。依我看来,中文互联网的崩溃有两个因素,以及一个结果

1. 长截图的崛起。

HN有一个神评论,说hyper-text transfer protocol名不副实,信息传递都是通过screenshots transfer。这玩意配合手机那个破屏幕简直绝了。这不仅是国内的问题,国外ig (instagram,ins)、𝕏上的文字截图不要太多。这个东西一方面缺点就是无法根据屏幕重排版,看起来别扭,但是也有诸多好处:

  1. 保留了原始的文字和图片。富文本转帖一直是一个世纪难题,你去用js+html做一个rich text editor带附件上传的就知道多蛋痛了。还不如 .png 甚至 .jpg 一把梭
  2. 防止了文本传播中的添油加醋篡改。甚至图片都包浆了,都还是那个样。
  3. 最后,而已是最重要的一点,OCR技术不能 100% 准确率拦截长截图里的敏感词,很多截图 - 再截屏的二次传播使得md5, similarity-hash 都无法有效对抗热点事件的长截图传播。

总体来说,长截图是移动互联网的原生信息载体,文本不是。

2. 音视频的统治

回到正题,中文互联网 的确崩溃了,但是崩溃的是中「文」这一 文本 为主的形式。看看长短视频、直播网站的流量,即便墙和审核机制都挡不住国内外沙雕meme的传播。汉「语」互联网正在蓬勃发展。我举个例子。在过去带宽承载不起大流量音视频的年代,如果一个明星遇到绯闻需要澄清,那么肯定精心会写一篇媒体稿发出来,登报或者接受采访。最近的比如 汪峰承认与森林北恋情 ,女主Senlinbei0707选择直接拍douyin声明 。服化道、背景音乐、肢体语言、镜头这些,代替了纸和笔,输入法和文字段落组织

掌握和驯服文字成本极高,文字的消亡,语言和表演取而代之,是市井乡土阶级的崛起,搭建了一个跨越空间的超级熟人社会。但是唯一能跨越时间的可能只有高度信息浓缩的文字。然而,文字对于大多数普通人是无益的,文字的发明本来就是精英阶级用来和上天鬼神对话的工具,人与人之间的沟通,口语和动作就够了。

问题的关键:搜索引擎

“互联网正在加速崩塌”这一说法,很多例子就是XXX搜不到了。有没有可能,问题不出在资料,而是搜索工具?

搜索引擎在90、00年代是个稀罕货,那个时候SSD还没普及,信息检索是个高精尖的专业领域,但是随着 Lucene、Solr、ElasticSearch这一类免费的开源软件的普及,极大降低了自建搜索的门槛。

搜索不用集中了,内容网站都是自带搜索,还自带推荐系统,把ranking的问题也一起解决了。SEO和内容农场早就把公共、集中的搜索引擎干得生活不能自理了。ChatGPT这样的怪物出来之后,你还指望能搜到啥有效、真实的信息?

随着搜索引擎的没落,新的巨大缺口也在形成,比如刚才 森林北的视频,我们可以问以下几个问题:

  1. 她的口红色号是什么?
  2. 这片子的BGM是什么?
  3. 她自己列举了多少家公司或机构,她分别属于什么职位?

这些都是需要去端到端 infer 的。也是一个技术创业的点子和机会。以后存的信息都是向量,token会取代文本。

aftermath

感觉说了这么多,无非在纠结「文本」或者「文字」这一概念本身。但是我觉得钻这个牛角尖是非常有趣的。

文本实际上就是人脑活动的压缩,对信息的概括。这是transformer架构和语言模型对我的一个巨大启发。这个有损压缩,丢掉的是什么呢?情绪和环境上下文,也就是亲切感。如今的音视频把这一最古老的人类群居基石——聊天拉回现实,放入口袋里那一小块屏幕中,怪不得雷军、周鸿祎这样的老人都出来当网红了。人一辈子可以通过读文字了解很多知识,但是「邓巴数」这个东西,决定了你一辈子的注意力只有150人。

人们对互联网的期待显然可以分为两种:一种是客观的,工具性质的,严肃话题研究。这就是过去USENET和UGC的宝藏所在;另一种,人们是为了瞬间的快乐,长时间的归属感,去找认同的。这个时候,互联网提供了多彩的屁股位置选项。过去,没人知道互联网上对方是不是一条狗,现在,没人在乎你是不是沃尔玛购物袋,但是这并不妨碍网上武装直升机们为这事吵得不亦乐乎。

Comments