(来源:MIT News)

与早期只能处理文本的模型相比,如今的大语言模型展现出了显著增强的跨模态任务处理能力。这些先进的模型不仅能理解和生成多国语言的文字内容,还能够执行一系列复杂的任务,比如编写计算机代码、解决数学问题以及分析图像和语音信息等。

为了揭示大语言模型这种“通才”能力的实现机制,麻省理工学院的一个研究小组深入剖析了这些模型的内部工作原理,试图更好地理解大语言模型如何处理和生成各种类型的数据,包括文本、图像和声音等。他们通过研究发现,这些模型在信息处理的方式上与人类大脑存在某些相似之处。

神经科学家先前研究表明,人脑的前颞叶有一个“语义中枢”,负责整合来自视觉、触觉等不同感官通道各种模态的语义信息。这个中枢通过类似于一种“辐条”结构的专用神经通路接收各个感官的信息。

如今,麻省理工学院团队的最新研究发现,大语言模型也采用了类似的架构,无论输入何种模态的数据,模型都会通过其核心语言体系进行抽象化处理。

举个例子,一个以英语为核心的大语言模型,在处理日语输入或是进行数学、计算机代码等的推理时,本质上仍然依赖于英语作为中心媒介。

除此之外,研究人员还证明,即使模型正在处理其他语言的数据,他们也可以通过使用模型主导语言的文本来改变其输出,从而干预模型的语义中心。换句话说,通过核心语言干预就能改变模型对其他语言数据的处理结果。

这一发现为优化多模态大语言模型的训练提供了新思路,使其能够更好地处理各种类型的数据。

“当前的大语言模型如同一个神秘的黑箱,虽然性能卓越,但我们对它们的内部工作机制知之甚少。这项研究是理解其工作原理的重要开端,有助于未来开发更可控、更强大的模型。”该研究论文的主要作者、麻省理工学院电子工程与计算机科学系研究生吴肇锋表示。

该项研究成果即将在国际学习表征会议(International Conference on Learning Representations)上正式发表。该研究团队汇聚了包括吴肇锋以及来自麻省理工学院计算机科学与人工智能实验室、南加州大学和苹果公司等的多位研究人员。



跨模态数据的整合

前期研究发现,英语主导的大语言模型在处理多语言数据时会采用英语进行逻辑推理。在此次的新研究中,吴肇锋和团队对这个发现进行了拓展,围绕大语言模型如何处理不同类型数据的机制进行了深入探索。

从技术架构来看,大语言模型由多层神经网络构成。其大致的工作原理是将输入内容(无论是文本、图像还是音频)分解成称为“token”的基本单元。模型为每个 token 赋予独特的表征向量,通过分析 token 之间的关联性来生成后续内容。对于非文本数据,图像 tokens 对应特定视觉区域,音频 tokens 则对应声音片段。

研究团队发现,模型的前端层级会依据输入数据的类型进行针对性处理,这种机制类似人脑中负责各感官信息传输的“辐条”式结构。

随着处理层级深入,系统会将各类 tokens 转化为与模态无关的抽象表征,这一过程类似于人脑语义中枢对多源信息的整合处理。

值得注意的是,无论输入的是图像、音频、计算机代码还是数学公式,只要语义相同,模型就会赋予其相似的表征向量。

举个例子,一张猫的图片和一段猫的文字描述虽属于不同的模态,但具有相同的含义,模型也会赋予两者类似的表征向量。

以英语为主导的模型在处理中文输入时,其内部推理过程本质上仍使用英语作为媒介。这种特征同样体现在非文本数据处理中,无论是解析计算机代码、解决数学题,还是处理多模态数据,模型都会经历核心语言转化的思维过程。

为验证这一发现,研究团队设计了一系列实验。首先,将语义相同但语言不同的句子对输入模型,观察其内部表征的相似度;然后,将中文等非英语文本输入以英语为主的模型,对比其内部表征与英语和中文的相似程度。同时,研究人员对其他数据类型也进行了类似的实验。

研究人员通过实验和分析发现,当处理具有相似含义的句子时,大语言模型生成的内部表征往往非常相似。这意味着,无论句子的具体表述如何,只要其核心意义相同,模型就能识别并生成类似的表示形式。这种特性使得模型在理解和生成自然语言方面表现出色。

此外,研究还揭示了一个有趣的发现:无论输入数据是文本、图像还是音频,模型在其内部处理过程中生成的 tokens 更加倾向于类似于以英语为中心的 tokens,而不是直接反映输入数据的具体类型。

例如,当处理一张图片或一段音频时,模型内部生成的 tokens 可能更多地反映了与英语相关的语义特征,而不是简单地复制输入数据的原始格式。这一现象表明,尽管这些模型能够处理多种类型的数据,但它们在内部处理机制上可能更加偏向于基于语言的理解方式,尤其是以英语为主要参考的语言结构。

“许多这些输入数据类型看起来与自然语言极其不同,因此当我们能够在模型处理数学公式或编程表达式等非语言数据时,探测到类似于英语的 tokens,确实让我们感到非常意外。”吴肇锋表示。



语义中枢的应用

研究团队深入剖析发现,大语言模型在训练过程中自发形成的语义中枢机制,本质上是应对海量数据处理的效率选择。

“全球众多语言承载的知识存在大量共性,例如常识体系与事实性知识。通过语义中枢进行统一编码,模型就能避免在每种语言中重复构建知识图谱。”吴肇锋指出。

为验证这一机制的灵活性,他们还开展了另一个实验,当模型处理非英语数据时,通过输入英语文本干预其内部表征。

令人惊讶的是,这种干预能精准调控模型的多语言输出结果。这一发现为提升模型的跨模态信息共享效率开辟了新途径。研究者指出,通过优化语义中枢的信息整合机制,有望显著提升模型处理多样化数据的综合性能。

但研究也揭示出机制局限性,某些文化专属概念(比如特定民俗文化知识)难以通过现有中枢实现跨语言转化。

对此,吴肇锋提出未来模型架构的改进方向,“如何在保持核心中枢优势的同时,为特殊文化概念保留语言专属处理通道,这需要更精细的架构设计。”

通过深入研究大语言模型的工作机制,研究人员发现了模型内部的一个关键结构“语义中枢”,这个结构使得模型能够有效地处理多种语言和数据类型,对多语言模型优化具有指导意义。

当一个以英语为主的模型学习其他语言时,常常会在英语处理能力上出现某种程度的下降。然而,通过对语义中枢进行调控,研究人员可以设计出更有效的策略,避免这种语言间的相互干扰,从而提升多语言模型的整体性能。

正如特拉维夫大学计算机科学教授 Mor Geva Pipek 所说的那样,“这项研究在人工智能与神经科学间架起桥梁,其提出的语义中枢假说不仅解释了多模态表征的生成机制,更为开发更优质的多模态模型提供了理论框架。”

值得注意的是,该机制还暗示着人机认知的深层次关联。类似于人脑通过前颞叶整合多感官信息,大模型通过语义中枢实现跨模态理解,这种功能相似性为探索通用人工智能的认知机制提供了新视角。

这项研究得到了 MIT-IBM 沃森人工智能实验室等机构的联合资助。

https://news.mit.edu/2025/large-language-models-reason-about-diverse-data-general-way-0219

ad1 webp
ad2 webp
ad1 webp
ad2 webp