(来源:MIT Technology Review)

无论是描述故障汽车发动机的声音,还是模仿邻居家猫咪的叫声,当语言难以准确传达时,声音模仿反而是一种更为生动有效的表达方式。

声音模仿就像是用随手涂鸦来表达你眼中的景象,不同之处在于,它依靠声道来模拟声音,而非用铅笔绘图。虽然这种方式看似复杂,但其实每个人都会自然而然地这样做。不妨亲自尝试一下,试着用你的声音模仿救护车的警笛声、乌鸦的叫声或钟声。

受到人类交流方式和认知科学的启发,MIT 计算机科学与人工智能实验室的研究人员开发出一种 AI 系统,无需额外训练,即便从未“听过”人类的声音模仿,也能生成类似人类的声音模仿。

为实现这一目标,研究人员设计了一个模拟人类声道的系统,能够再现声带振动如何通过喉咙、舌头和嘴唇的形状变化发出声音。随后,他们采用一种受认知启发的 AI 算法来控制该声道模型,使其能够根据人类在不同情境下选择的表达方式,生成相应的声音模仿。

该模型能够高效地将各种真实世界的声音转化为类似人类的模仿声,包括树叶沙沙作响、蛇的嘶嘶声以及救护车接近时的警笛声。此外,这一模型还可以“反向”工作,通过人类的声音模仿推测真实世界中的声音。这种方式类似于某些计算机视觉系统能够根据草图还原高清图像。例如,该模型可以准确地区分人类模仿猫发出的“喵喵叫”和“嘶嘶声”。

未来,这一模型有望催生更直观的“基于模仿”的声音设计界面、更具拟人化特点的虚拟现实 AI 角色,甚至应用于帮助学生学习新语言的方法。

该研究的共同第一作者包括 MIT 博士生 Kartik Chandra、博士生 Karima Ma 以及本科研究员 Matthew Caren。他们指出,计算机图形学领域的研究人员早已认识到,真实感并不是视觉表达的终极目标。例如,一幅抽象画或孩子用蜡笔随手涂鸦的作品,往往能与照片一样富有表现力。

Chandra 表示:“过去几十年,素描算法的进步不仅带来了新的艺术工具,还推动了 AI 和计算机视觉的突破,甚至深化了我们对人类认知的理解。正如素描是对图像的抽象和非真实写实的表现形式,我们的方法同样捕捉了人类在表达所听声音时的抽象、通过拟声词等语言来形容的方式。这让我们得以更深入地理解听觉抽象的过程。”

Matthew Caren 对此补充道:“这个项目旨在理解声音模仿的本质,并通过计算机模型对其进行模拟。我们将声音模仿视为听觉领域中类似于‘视觉领域素描’的一种表达方式。”



模仿艺术三步走

研究团队开发了三个层次逐步递进的模型版本,以便将其与人类的声音模仿进行比较。首先,他们构建了一个基线模型,旨在尽可能生成与真实世界声音相似的模仿声音。然而,这个模型与人类的模仿方式存在较大差距。

接着,研究人员设计了一个沟通型模型。根据 Caren 的解释,这个模型会考虑听众对某种声音的独特感知特征。例如,你可能会通过模仿引擎的轰鸣声来表现摩托艇的声音,因为这种声音最具辨识度,尽管它可能不是最响亮的部分,如水花四溅的声音。这个改进后的模型生成的声音模仿比基线模型更贴近人类的表达方式,但研究团队仍希望进一步优化。

为此,研究人员在模型中引入了推理层。Chandra 表示:“声音模仿的效果会受到投入的努力程度影响。要生成完全准确的声音,需要付出时间和精力。”因此,升级后的模型会避免产生过于快速、响亮或音调极高或极低的声音,因为人们在日常对话中通常不会这样表达。最终,这一改进模型生成的声音模仿更加符合人类特点,更真实地反映了人们在模仿同一声音时所做出的选择。

在模型构建完成后,研究团队开展了一项行为实验,测试人类评审如何看待 AI 生成与人类生成的声音模仿,并评估哪种更受欢迎。值得注意的是,实验结果显示,参与者在25%的情况下更偏好 AI 模型生成的声音。尤其是在模仿摩托艇声音时,AI 模型的偏好率高达 75%,而在模仿枪声时,这一偏好率达到 50%。



迈向更具表现力的声音技术

Caren 对音乐和艺术领域的技术充满热情,他设想这一模型可以帮助艺术家更高效地与计算系统沟通声音,并为电影制作人和其他内容创作者提供更贴合特定情境的细腻AI声音。这项技术还可能使音乐家通过模仿那些难以用文字描述的声音,快速检索声音数据库,提升创作效率。

与此同时,Caren、Chandra和 Ma 正积极探索该模型在其他领域的潜在应用,例如语言的发展过程、婴儿如何学习说话,甚至是鹦鹉和鸣禽等鸟类的模仿行为。

不过,该模型的当前版本仍有改进空间。例如,它在处理某些如“z”的辅音时存在困难,导致对蜜蜂嗡嗡声等声音的模仿不够准确。此外,该模型尚无法复现人类对语音、音乐,或在不同语言中对某些声音,比如心跳声,进行不同方式模仿的能力。

斯坦福大学语言学教授 Robert Hawkins 指出,语言中充满了拟声词和模仿但并不完全复制所描述事物的词汇,比如 “meow” 这个词与猫咪真实的叫声就不完全一致。Hawkins 表示:“从真实的猫叫声到 ‘meow’ 这个词的形成过程,揭示了在语言进化中生理机制、社会推理和交流之间复杂的相互作用。” Hawkins 并未参与这项研究,但他认为:“这个模型是将这些过程的理论形式化并加以验证的重要一步,展示了人类声道的物理限制和社交交流的压力共同作用,解释了声音模仿的分布现象。”

Caren、Chandra 和 Ma 与另外两位 MIT 计算机科学与人工智能实验室的成员共同撰写了这篇论文,他们是 MIT 电气工程与计算机科学系副教授 Jonathan Ragan-Kelley,以及MIT 大脑与认知科学系教授、Brains, Minds, and Machines 中心成员 Joshua Tenenbaum。该研究得到了赫兹基金会和美国国家科学基金会的部分资助,并在 12 月初发表在 SIGGRAPH Asia 会议上。

https://news.mit.edu/2025/teaching-ai-communicate-sounds-humans-do-0109

ad1 webp
ad2 webp
ad1 webp
ad2 webp