本文来自微信公众号:阿茶的AI之路,作者:起名贼费劲的阿茶,题图来自:AI生成

那天中午,我在知乎上看到一个有趣的问题:

把一篇英语文章的所有aeiou替换成t,它还有可能被完全破译吗?

我翻阅了许多回答,有的列举了tt、ttt、tttt...这样的例子、有的则一本正经地胡说八道、还有人干脆把问题丢给大模型解决....

我觉得这本质上是一个信息论的问题。当我们把所有元音替换成't'后,剩余的信息是否足够支撑我们还原原文?英语本身就有很高的冗余性,比如语法结构、词语搭配等都能提供大量上下文信息。因此,在长文本中,这种还原应该是可行的。关键在于,这种替换究竟损失了多少有效信息,剩下的部分是否还足以支撑我们的理解和还原。

说到信息论,我与它的联系大概是大学选过的一门课,叫《多媒体技术》。选课之前,我天真地以为这门课会教我如何用PS,如何剪视频,如何做PPT。因为从小就在说的“多媒体教育”,感觉就是通过ppt来上课。还有“多媒体教室”,就是多了个投影,所以我一直以为这就是“多媒体”。我选它的原因也很简单,我真的不会用PS,我想学学。而且这门课应该比较简单。

上课之后:奈奎斯特定理、信息熵、zigzag、JPEG图像压缩原理...

我以为的课设:剪一个视频。

实际上的课设:


就这么一门和我想象大相径庭的课,我现在却觉得是我学过最有用的一门课。因为“信息”无处不在。你看的新闻是信息,你与他人的交流是信息,甚至你设计的产品界面也在给用户传递信息。

尤其是在当下,信息生产的成本急剧降低,各种公众号...一个事件可能会被上百个号重复报道。此外,AI领域的进展也是日新月异。相比之下,我们就像大海中的小船,随时可能被信息淹没。接受吧,脑子好像又处理不过来;不接受吧,又怕错过了什么。而信息论,正是帮助我们找到理解这些信息的角度,以及制定获取信息策略的工具。

说远了,我去简单复习了一下信息论的基础知识,也分享给大家。

从生活中理解信息

最开始写这篇文章的时候,我从定义和公式的角度介绍信息、信息熵、自信息这些概念...但发现太专业了,不适合阅读。所以我打算放弃那些专业的知识,从一个简单的游戏理解信息论。这种直观理解对于非专业人士来说更为重要。

首先,信息是消除不确定性的。

假设我心里想了一个1到100的数字,请你来猜。在没有任何提示的情况下,这就是一个完全不确定的系统 —— 每个数字的可能性都是相等的。

如果我告诉你:“今天天气不错,我觉得等会我们可以出去玩,顺便去吃个火锅”。

这句话你会发现对你猜测毫无作用。

而如果我告诉你:“这个数字大于50”。你的猜测范围就减少了一半,然后你猜了个75。

我继续说:“这个数字的范围在60-70之间”。你的猜测范围进一步缩小,你猜了个63。

我说:“猜对了!”

通过这个简单的游戏,我们就能理解信息论中的几个核心概念:

首先,根据信息论中的定义,信息是用来消除不确定性的。你试图猜我心中想的数字,通过不断的尝试,来降低这个不确定性。直到你猜到我所想的。

自信息:单个事件发生时带来的信息量。这里的事件指的是我给你的提示。其中“这个数字是73”这个事件的自信息就很大,因为它的发生概率很小(1/100)。

信息熵:系统的平均不确定性,当你完全不知道我内心所想的时候,信息熵达到最大。

信息增益:获得这个信息后,系统不确定性减少的程度。它实际上是信息熵的变化量:原来的信息熵 减去获得信息后的信息熵。在这个对话中,“60-70之间”能带来的信息增益一定大于“大于50”,因为它帮你排除了更多的干扰。你只需要在10个数里面选一个。而不是50个数。如果我直接告诉你这个数字是63,那么它会将整个游戏的信息熵降为0。因为你已经不需要猜了。

这就是信息的本质:消除不确定性。当你获得的有效信息越多,系统的信息熵就越小,你就越接近信源。

再举个生活中的例子。当你在考虑是否购买一件商品时,每条信息都在帮你消除不确定性:

  • “这是一件纯棉T恤”(确定了品类和材质)

  • “价格299元”(确定了价格区间)

  • “隔壁店同款199元”(这个信息增益很大,可能直接影响你的决策)

很明显,这些概念不仅存在于理论中,更与我们的日常生活密切相关。每当我们需要做决策时,都在不断地收集信息,评估信息的价值,通过获取高信息增益的内容来帮助我们作出更好的选择。希望这两个例子能够让你有一个直观的印象。

现在我们再来看看开头的问题,用刚学到的信息论概念来分析一下。当我们把所有元音都替换成't'时,表面上看是损失了一些信息。但英语文本中其实存在大量的“信息冗余”。比如语法结构(主谓宾的位置)、单词搭配(即使“make a decision”中的元音被替换,我们也大概能猜出来),以及整句话的语境,这些都在帮我们消除不确定性。即使失去了元音信息,其他信息的存在依然能帮助我们很大程度推测出原文。当然,这说的是大部分场景,信息越多,能还原成功的概率越高。

信息论给我们的启示

理解了信息的本质,我们就能以不同视角看待一些问题:

1. 为什么大模型会“胡说八道”?

我经常强调大模型回复质量是跟用户的提问质量密切相关的。

当它在面对高度不确定的问题时,没有足够的信息来降低系统的信息熵。就像你在猜数字时,如果得到的提示太少或者有误导,也可能作出错误的判断。

相比之下,提示词技术这些都是辅助减少信息噪声的方法,核心只有一个,就是让用户如何清晰准确的表达问题。

2. “冗余”的必要性

在信息传递过程中,噪声是不可避免的。就像在电话里说话,可能会遇到信号不好、背景音嘈杂等情况。这时候,如果信息没有任何冗余,一旦受到干扰,就很难还原出原始信息了。

这个问题在内容总结类功能中其实特别明显。很多人让大模型总结文章时,会要求“只给我重点”。结果得到的往往是一堆要点的堆砌。一旦大模型的理解有所误解,就会导致信息失真极为严重。

此外,要点的堆砌虽然信息密度很高,但读起来特别费劲。这就像把文章中的所有废话都删掉,只留下核心观点。表面上看起来很高效,实际上反而增加了读者的理解成本。人类理解信息时需要上下文。那些看似冗余的内容,比如例子、类比、过渡语句,它们就像语言中的语法结构和单词搭配一样,能够帮助我们的大脑更好地处理和吸收信息。当这些必要的冗余被去掉,即使信息都在那里,我们也需要耗费更多精力去理解和连接它们。

3. 信息获取策略

说到如何提高信息获取效率,我的策略很简单:不主动刷新闻。

因为有价值的信息会自然传递。重要的事情总会通过各种渠道传到你耳朵里。即使你不主动去搜集,该知道的总会知道。反而是那些不重要的信息,如果你不去主动获取,它们就会自然消失。

现在AI领域每天都在爆出新模型、新突破。但仔细观察就会发现,真正的突破性进展很少,大部分都是正常的科学研究。对于并不需要专注于科研的人来说,没有必要去刷那么多新闻。

那些真正重要的突破,必然会在多个渠道反复出现,而且会持续发酵。就像GPT-4的发布,它带来的不仅是一个新闻,而是一系列的技术讨论和应用探索。这种持续的信息流才是值得关注的。比如说这几天的Deepseek。

从信息论的角度看,当一个信息通过多个渠道重复出现时,不仅提高了信息的可靠性,更重要的是往往会带来不同的视角和解读。这些差异恰恰能帮助我们更全面地理解这个信息的价值。与其追求信息的全面,不如追求信息的深度。当你对某个领域有足够深的理解时,判断一个新信息的价值往往只需要几秒钟。那些看似错过的信息,很可能对你并不重要;而那些真正重要的信息,一定会以各种形式重复出现在你面前。

在信息爆炸的时代,保持定力比追求全面更重要。让信息自然流动,而不是焦虑地追逐每一个新闻,这可能才是最高效的信息获取策略。

4. 充满包容的沟通

很多时候并不是对方笨,而是因为你们对信息的理解不对等。这让我想起一个很有意思的游戏:Tick Tock。一个双人互动游戏,但它不需要通过服务器联机:两个玩家各自在自己的手机上玩,一个人解谜的同时,另一个人要配合完成某些操作。但关键是两个人并不能看到对方的视角,只能通过其中一方的描述,来让双方理清处境和需求。

这个游戏完美地诠释了信息不对等的本质。当我们觉得“其他人怎么这么笨”的时候,往往不是对方真的笨,而是我们站在已知信息的角度,忽略了对方的信息盲区。就像在游戏中,如果没有跟对方描述清楚你的画面,他就没法给予你帮助。游戏也就永远无法推进。

我们经常吐槽用户使用软件的时候总是“不按套路出牌”。但换个角度想,这不是用户的问题,而是我们在设计时,没有考虑到用户的信息认知水平。我们觉得理所当然的操作流程,对用户来说可能充满了不确定性。

其实大模型的使用就是一个很好的证据。它就像一个没有说明书的产品,即使开发者也不能完全了解它。作为使用者,我们也在不断摸索,各种提示词技术都是试出来的。从更高维度看,我们所有人都是愚蠢的用户。

所以,好的沟通不是简单地传递信息,而是要考虑:对方当前的信息状态是什么,如何通过适当的信息冗余来确保理解,以及如何建立反馈机制,验证信息是否被正确接收。

有时候,我们需要的可能不是更多的解释,而是更多的包容。毕竟,在信息不对等的世界里,我们每个人都在靠着自己的认知摸索前行。

本文来自微信公众号:阿茶的AI之路,作者:起名贼费劲的阿茶

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系 hezuo@huxiu.com

ad1 webp
ad2 webp
ad1 webp
ad2 webp