在历史的长河中,汉字的命运跌宕起伏,曾面临诸多质疑与挑战,却在人工智能时代成功逆袭,这背后藏着怎样的故事呢?

回溯到1936年,鲁迅先生在离世前不久,曾发出“汉字不灭,中国必亡”的感慨。

与此同时,章太炎也认为“中文之不死,中国必亡”,陈独秀觉得中国文字难以传播新思想,还腐蚀人们的思维,瞿秋白更是将汉字形容为“世界上最龌龊最恶劣最混蛋的中世纪的茅坑” 。

蔡元培、胡适等一众知识分子,也纷纷加入抨击汉字的行列。

当时,中国内有军阀混战,外有列强侵略,国家危在旦夕。在这种艰难的处境下,汉字成为了知识分子们关注的焦点。


那时,中国文盲率高达百分之九十几,文化传承岌岌可危,他们“爱之深责之切”,期望通过批判来寻求变革之路。

同一时期,文化界掀起了一股否定中国传统文化的浪潮,有人质疑商朝的存在,认为大禹只是一条虫,中医也被当作封建余孽遭到否定,而难写难记难懂的汉字,自然也未能幸免。

不过,也有一些文化人挺身而出,坚决捍卫汉字。赵元任创作的《施氏食狮史》,用96个“shi”的音,生动地展现了汉字独特的魅力,警示人们如果将汉字拉丁化,中国文化将会遭受巨大的冲击。

瞿秋白在苏联学习后,受列宁思想启发,发起了汉字拉丁化运动,部分知识分子甚至在延安进行了相关尝试。

就连蒋介石也曾在日记中提及,汉字艰深,需借助注音符号来帮助儿童学习。

但随着1937年抗日战争全面爆发,全国上下投身抗战,文字改革的事情被暂时搁置。


新中国成立后,面临着让百分之九十几的国民全面脱盲的艰巨任务,汉字拉丁化再次被列为文字改革委员会的重要选项之一。这一选项被呈送到中南海怀仁堂,请毛主席定夺。毛主席风趣地表示,在延安搞中文拉丁化时,写出的文字弯弯曲曲像鸡肠子,一旦汉字拉丁化,就会失去自身的文化基因。

于是,主席代表中央做出决定,汉字的改革方向是简化,而非拉丁化,这一决策为文化界关于汉字改革的争论暂时画上了句号。

在主席的鼓励下,全国扫盲运动取得了显著成效。中国重新加入联合国时,人们惊喜地发现,在联合国的所有书籍中,汉字是使用纸张最少的文字。

然而,新的挑战接踵而至。现代计算机诞生后,文字输入成为难题。1979年,钱伟长访问美国时,IBM的工程师宣称英文是计算机的“天选之词”,认为中国人若不放弃中文,就无法迈入计算机时代。

美国人还曾用漫画嘲讽中文打字机,认为其会是世界上最大的打字机,因为汉字输入计算机困难重重。


但其实,早在20世纪30年代,林语堂就花费三十年开发出中文打字机的雏形。进入计算机时代,王永民发明了五笔输入法,虽然后来被更便捷的拼音输入法替代,但在当时,它被联合国官员赞誉为“二十世纪最伟大的东方魔术”。

王选提出开发中文激光照排技术时,日本学者断言掌握这项技术比登月还难,可中国人还是突破了重重封锁。

到了21世纪,在数码时代,英文在底层逻辑上占据主导,很多人渴望能用汉字输入代码。

就在大家认为美国在人工智能时代遥遥领先,中国与之差距较大时,中国创造的人工智能算法却突然站在了世界前沿。

在智能时代,汉字展现出了无与伦比的优势。首先,汉字信息量大,检索信息时,中文花费的时间仅为英文的百分之三十。

比如,ChatGPT用26个字母解释“量子纠缠”,而中文仅用“量子纠缠”四个字就能表达清楚。汉字超强的信息压缩能力,让中文大模型的训练速度比英文提高了百分之四十七。


其次,中文阅读者大脑激活区域比英文阅读者多百分之十五,信息处理速度却提升了百分之二十二,这得益于汉字的象思维特征与神经网络分布天然契合。

再者,在处理意向性指令时,中文的准确率高达百分之九十一,远高于英文和其他文字的百分之四十几。

中国古诗词中的意境,用英文很难精准表达,像“鸡鸣茅店月,人迹板桥霜”,翻译成英文后韵味全无。

此外,麻省理工学院发现,汉字包含的拓扑信息是英文的128倍,同样文字的信息熵,中文也是其他文字的两倍以上。

汉字的这些特性,使其仿佛天生就是为智能时代准备的。例如,“大衣、毛衣、内衣、睡衣”,只要认识“衣”字,哪怕是幼儿园小朋友都能理解它们与衣服有关,而英文中这四个词却毫无关联。


而且,中国丰富的历史典故、成语诗词,进一步丰富了汉字背后的内涵。中文大模型在处理“危机”一词时,能同时触发“危险”“机遇”以及“化危为机”“转危为安”等一系列相关的成语和典故。

当中国的大模型如DeepSeek开源时,有人担心中国的算法成果被他人获取。

实际上,中国开放的是应用方法,底层逻辑仍牢牢掌握在自己手中。其他国家若想在人工智能赛道上取得更好成绩,就必须采用中文进行训练,这意味着他们要接受中华文明的熏陶。

中华文明借助汉字,在新时代潜移默化地影响着世界。从过去一百年间汉字在生死边缘的挣扎,到如今从安阳甲骨到杭州服务器,汉字完成了一场跨越时空的文明传承,它不再是古老文明的绝唱,而是人类智能时代的嘹亮晨钟。

ad1 webp
ad2 webp
ad1 webp
ad2 webp