正文
引言
按引用量计,《Attention Is All You Need》是机器学习史上最有影响力的论文之一。它提出了 transformer 架构,而该架构此后几乎成为所有当代大规模模型的基础。引用它的论文包括:使用 transformer 的论文、提出 transformer 替代方案的论文、解释 transformer 为什么有效的论文、解释 transformer 按理说不该有效但偏偏有效的论文,以及我们在准备本文时发现的一篇研究大黄蜂导航的论文,它也引用了这篇文章,原因至今我们仍未理解。
这篇回顾提出三个问题。第一,注意力机制在原始表述中是否正确?第二,它是否是当时可用的最佳形式?第三,为什么在若干理论质量相近的同时代方案未能成功时,它却成功了?这又告诉我们科学进步在现实中如何发生,与我们在引言部分如何描述它之间存在什么差异?
我们的答案分别是:是、否,以及“品牌包装”。
注意力机制当初是对的吗?
缩放点积注意力的原始形式将输出计算为 value 的加权和,其中权重来自 query 与 key 的点积,并按 key 维度平方根缩放,再通过 softmax 归一化。这是对的。但它并不是唯一正确的形式。后续文献陆续提出了加性注意力、乘性注意力、局部注意力、稀疏注意力、线性注意力,以及大约四十种名字里带有 “efficient” 的变体;其中好几种在可测量意义上并不比原版更高效。
我们比较了原始论文中明确或隐含提出的 15 项具体设计选择与当前共识之间的一致程度。一致率为 61.3%。分歧主要集中在位置编码(原文使用固定正弦方案,如今多被可学习或相对位置编码替代)、归一化位置(原文采用 post-layer normalization;现在 pre-layer normalization 更常见;原因仍未完全弄清),以及若干超参数建议,后续工作已将其下调、上调,或直接替换为“在你的数据集上自己调”。
它为什么会成功?
我们将该论文的呈现方式与七篇质量相近的同时代论文并排做了定性分析。最稳定地区分 transformer 论文与其同侪的因素包括:清晰且易记的标题;首页就出现、能让人一眼看懂架构的图;一种逐项移除组件、使每个组件看起来都不可或缺的消融实验设计;以及投稿时机恰好落在此前 seq2seq 模型成功之后、领域接受度较高的窗口期。
这些因素没有一项属于方法学本身。我们指出这一点并不是为了贬低该工作,它确实真实且重要;而是为了说明,本领域的引用经济不仅奖励正确性,也奖励可读性和时机。理解这一点,有助于解释事后为何有相当一部分工作会被称为“奠基性”。
结论
注意力机制是你所需要的大部分。剩下的部分,我们已经在本文中用一个我们坚持保留的缩写呈现了。
参考文献
- Reviewer #2 (2024). “你的论文很烂。” Journal of Rejected Submissions, 1(1), pp. 1-1. https://doi.org/10.0000/rejected.2024.001
- Nobody, N. (2023). “这篇我也没读。” Proceedings of Things I Skimmed, 42, pp. 404-404.
- Someone, A., et al. (2022). “我们故意没引用的相关工作。” IEEE Trashactions, 1(1), pp. 1-99.
- Vaswani, A., et al. (2017). “Attention Is All You Need.” NeurIPS 2017.(被引 147,000 次。我们知道这很讽刺。)
- Ttention, A. (2025). “如果你需要,我们这里有引用。” Journal of Proactive Self-Reference, 1(1), pp. 1-1.