被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

机器之心报道

编辑：张倩

这篇论文包含了当前 LLM 的许多要素，十年后的今天或许仍值得一读。

发布于 2017 年的 Transformer 论文——「Attention is all you need」被引量已经超过 17 万，成为这轮 AI 技术革命的标志性论文。

来自 Jeff Dean 的演讲幻灯片

同时，也有一些论文的光芒被它掩盖，比如发布于 2015 年的「End-To-End Memory Networks」。

论文一作、Meta 研究科学家 Sainbayar Sukhbaatar 在最近的一则推文中说道「回顾过去，这篇论文包含了当前大型语言模型的许多要素。我们的模型是首个完全用注意力机制替代 RNN 的语言模型；它引入了带键值投影的点积软注意力机制，堆叠了多层注意力，使模型能关注输入的不同部分；它还引入位置嵌入来解决注意力机制中的顺序不变性问题……」

虽然这篇论文比《Attention is all you need》还早两年，但它并没有受到应有的关注，被引量只有 3000 多。

作者提到，这篇论文是对 Facebook AI 研究院 2014 年的一篇论文——「Memory Networks」的改进。「Memory Networks」引入了多层堆叠的硬注意力机制（hard attention）——与 Bahdanau 等人在单层上引入软注意力是同期提出的。

在去年的一个帖子中，AI 大牛 Andrej Karpathy 曾发帖感叹，Bahdanau 等人在单层上引入软注意力的那项工作——「Neural Machine Translation by Jointly Learning to Align and Translate」才是真正引入注意力机制的论文（最近拿到了 ICLR 2025 时间检验奖的亚军），但「Attention is all you need」所受到的关注却是它的 100 多倍。不过，他也承认，「Attention is all you need」这篇论文有其独特性。

回到文章开头提到的「End-to-End Memory Networks」，它其实是将「Memory Networks」和「Neural Machine Translation by Jointly Learning to Align and Translate」的想法结合到了一起，并展示了多层软注意力能够产生复杂的推理能力——这是当今 AI 架构最重要的方面之一。

除了核心创新，一作 Sainbayar Sukhbaatar 还分享了这篇论文诞生背后的故事和他们目前正在推进的新工作。

一篇被 Transformer 光芒掩盖的论文

论文标题：End-To-End Memory Networks
论文链接：https://arxiv.org/pdf/1503.08895

Sainbayar Sukhbaatar 回忆说，他们的「End-to-End Memory Networks」研究始于 2014 年春天。当时，他博士二年级，还在 FAIR 实习。他的导师 Rob Fergus 敦促他进行关于记忆的研究。不过，那会儿的他还不理解记忆意味着什么，因为那是一个由循环网络和卷积网络主导的世界，记忆并不像今天那样是一个重要的流行词。

不过，他的研究并不需要从头开始。因为当时，Facebook AI 研究院的 Jason Weston 等人已经做出了「Memory Networks」。此外，他们还发布了一套名为 bAbI 的任务，这些任务让循环模型惨败。因为这些任务需要以无序的方式查找多个事实，而这是 RNN 的致命弱点。

与「记忆」有关的这个项目最初吸引了很多人的关注，但事情进展并不顺利。

最终，他们开始着手于记忆网络的进一步研究，目标是让它学会关注何处，而不需要给定的标签。他们决定使用强化学习训练来教会记忆网络关注何处。

时间快进到 2014-2015 年冬天，他们当时已经实现了强化学习代码，并准备在语言模型任务上与基准进行比较。一个明显的选择是「Neural Machine Translation by Jointly Learning to Align and Translate」中使用的软注意力机制——但 Sainbayar Sukhbaatar 等人在研究中将其应用于多层结构中，这在之前是没有人做过的。所以他们将其作为基线实现，但做了一些改变，比如使用点积而不是小型多层感知器来计算注意力。令人惊喜的是，采用这种软注意力的记忆网络效果出奇地好，他们立即意识到这就是正确的方向。

在此之后，事情开始快速发展。在 Arthur Szlam（另一位作者）的坚持下，团队开始使用 bAbI 任务作为基准。他们开发了几种新技术，如为键和值使用不同的投影等。他们还需要解决注意力的顺序不变性问题，所以他们添加了时间嵌入（现在称为位置嵌入）。

Jason 建议在这些时间值中添加随机噪声以减少过拟合。最后，他们决定做一个当时不流行的语言建模任务。令人惊讶的是，他们仅使用注意力而没有任何时间 recurrence 就击败了 LSTM（在论文中，他们使用「recurrence」一词来描述重复的层，即像通用 transformer 那样共享权重）。

他们在 NeurIPS 提交的最后一天写了大部分论文。有趣的是，它最初被称为「弱监督记忆网络」，因为它需要更少的监督。

无论如何，那个时期是新架构的黄金时代，出现了 Neural GPU、Stack RNN 和 Neural Turing Machine 等新论文。

回顾 10 年后的今天和当前大型语言模型的状态，Sainbayar Sukhbaatar 认为他们在论文中正确预见了几点。他们的模型是第一个不依赖 recurrence 的基于注意力的语言模型。他们成功地堆叠了多层注意力，使模型能够在输出下一个 token 之前关注上下文的不同部分。他们还使用了位置嵌入，甚至是相对位置嵌入，这现在已成为大型语言模型的标准做法。