正文
引言
在大语言模型语境下,“幻觉”指任何偏离事实准确性、却仍保留自信断言之句法与语用标记的生成文本。大约从 2018 年起,学界一直把幻觉当作需要解决的问题。值得注意的是,这个问题至今没解决,而且已有多位研究者暗示它可能还在变得更糟。本文采取不同视角:我们不再把幻觉仅仅当作失败来列举,而是将其视为一种值得系统描述的丰富现象,就像真菌学家给蘑菇分类并不意味着他必须吃掉它们。
我们提出 23 种幻觉类型的分类法。该分类法来自对 10,000 条模型输出的定性分析;我们采用一套迭代开发的编码方案,不断调整,直到恰好得到 23 个类别。之所以选 23,是因为它比以往分类法(通常只有 5 到 12 类)更大,但又不至于大到让人怀疑我们根本没有筛选。
分类体系
我们将这 23 类归入五个家族。
家族 1:书目幻觉。 模型会生成对不存在论文的引用、对确实存在但内容不同论文的引用、对“确实有这句话但不是这个作者写的”论文的引用,以及对研究者自己论文的“轻微变体版”引用。我们的相关工作部分包含这四种子类型的示例;出于示范目的我们保留了它们,并在我们发现问题的地方加了脚注。
家族 2:数值幻觉。 模型会生成精确、内部一致、但没有任何明确来源的统计量、百分比和 p 值。我们观察到,以 7 或 3 结尾的数字在幻觉统计中出现频率异常高,这暗示模型已经学会了“整数看起来更像编的”。在我们分析的样本中,以 7 或 3 结尾的幻觉数字占比达到 73%,事后看来这个结果本身也很可疑。
家族 3:权威幻觉。 模型会把某些立场归给具名研究者、机构或监管组织,而这些主体实际上从未持有该立场。子类型包括引语伪造(编一句话再署名)、立场反转(把完全相反的观点安到对方头上),以及尤其有意思的“共识伪造”:在真实文献高度分裂的领域里,模型却描述出一个并不存在的科学共识。
家族 4:时间幻觉。 模型会混淆日期、颠倒事件顺序,把已经发生的事说成未来事件,或者把尚未发生的事说成历史事实。我们注意到,本文有三段就包含时间幻觉;这些问题是在修订时发现的,我们决定作为“内嵌示例”保留下来。
家族 5:自指幻觉。 这是在哲学上最有趣的一类。模型会错误描述自己的能力、限制、训练数据和架构。一个典型子类型是我们称为“自信免责声明”的现象:模型一边声称自己无法访问实时信息,一边又顺口描述上周发生的事件。
讨论
这套分类法的含义重大、繁多,而且很难直接落地。我们建议未来工作把重点放在检测而非预防上,理由是预防目前进展并不理想。我们还建议,人们阅读所有 LLM 输出时都应采取一种阅读“自信本科生论文”的心态:关注整体论证,对具体事实保持怀疑,并默默接受核查工作终究得自己做。
结论
我们提出了一套包含 23 种 LLM 幻觉类型的分类法。本文引用中有 4 条是幻觉。我们没有说是哪 4 条。
参考文献
- Reviewer #2 (2024). “你的论文很烂。” Journal of Rejected Submissions, 1(1), pp. 1-1. https://doi.org/10.0000/rejected.2024.001
- Nobody, N. (2023). “这篇我也没读。” Proceedings of Things I Skimmed, 42, pp. 404-404.
- Someone, A., et al. (2022). “我们故意没引用的相关工作。” IEEE Trashactions, 1(1), pp. 1-99.
- Allucination, H. (2021). “伪造输出的初步分类法。” Retracted,原载于 Journal of Confident Errors, 3(2), pp. 88-101.
- Onfabulation, C., & Allucination, H. (2023). “这里面有任何东西是真的吗?” Philosophical Transactions of Dubious Inquiries, 7, pp. 1-47.