正文
引言
Transformer 架构于 2017 年以《Attention Is All You Need》为题提出,之后成为最强语言模型、视觉模型以及若干连其创造者都不太说得清模态是什么的模型的基础。因此,理解 Transformer 如何工作,对于任何想使用、扩展、批评它,或者只是在饭局上显得懂行的人都很重要。
既有的 Transformer 解释大致分两类。数学型解释完整且严谨,但要求读者懂线性代数、概率论,并且愿意在一张技术上正确、但没有大约三年训练几乎无法实用理解的图里追踪四路并行矩阵运算。直觉型解释更易读,但往往牺牲太多精度,以至于读者读完会“感觉自己懂了”,却没有留下任何可迁移知识。我们将这种状态称为“受过教育的无知(educated ignorance)”,并尝试实证测量它。
本文提供一种明确属于第二类的解释,但我们会坦率承认它属于第二类。我们认为,这种诚实本身就是方法学贡献。
解释本体
想象一个办公室。在这个办公室里,每个人都有一张桌子,每张桌子上都有一摞文件。每份文件顶部都写着一个问题。当某人收到一个问题时,他会环顾房间,寻找哪位同事桌上的信息与该问题相关。然后他走过去,读出相关信息,并把它整合进自己的答案。这个过程在办公室所有人之间同时发生。至于你觉得这代表高效并行还是彻底混乱,取决于你对开放式办公空间的既往经验。
这就是注意力。Transformer 则是一栋由许多这种办公室构成的大楼,按楼层排列。每一层都对“比上一层稍微处理过一些”的文件做同样的事。等你到了顶层,文件里就包含了整栋楼信息整合后的答案。这要么是对上下文理解的好比喻,要么是我们刚刚进一步恶化了的一个协作问题描述。
在这个比喻里,query、key 和 value 矩阵分别对应:纸上的问题、桌上的标签、抽屉里的信息。点积表示“问题与标签匹配程度”。softmax 是一种归一化过程,确保这个人只从最相关的桌子拿信息,而不是把整栋楼的东西全复印一遍再抱回自己桌上,那样既计算低效,也不礼貌。
用户研究
我们通过一个时薪 1.20 美元、且其伦理审查状态未经我们核实的学术问卷平台招募了 200 名参与者,并向其提供我们的解释。参与者在阅读我们的解释后,对自己理解 Transformer 的信心评分为 8.9/10;阅读原始论文后则为 3.2/10(p < 0.001)。在一个包含 12 道新型 Transformer 配置问题的迁移测试中,参与者读完我们的解释后准确率为 51.3%,读完原始论文后为 51.1%(p = 0.94)。我们将此解释为:两种解释在真实技能习得上同样无效,而我们的解释在让人产生相反感觉方面显著更强。
结论
我们已经在不使用数学的前提下解释了 Transformer。至于这在任何哲学上稳健的意义上是否算“解释”,我们把这个问题留给哲学家。我们也计划给他们写一版解释,同样不使用数学,同样用途成疑。
参考文献
- Reviewer #2 (2024). “你的论文很烂。” Journal of Rejected Submissions, 1(1), pp. 1-1. https://doi.org/10.0000/rejected.2024.001
- Nobody, N. (2023). “这篇我也没读。” Proceedings of Things I Skimmed, 42, pp. 404-404.
- Someone, A., et al. (2022). “我们故意没引用的相关工作。” IEEE Trashactions, 1(1), pp. 1-99.
- Vaswani, A., et al. (2017). “Attention Is All You Need.” NeurIPS 2017.(这篇是真的。我们查过了。)
- Omath, N. (2024). “不用数字解释卷积神经网络(已撤稿)。” Journal of Accessible Inaccuracies, 2(1), pp. 3-17.