应用性挫败研究所(Institute for Applied Frustration)的一支团队发表结果,证实了许多同行长期以来的怀疑:深度神经网络的优化地形与训练它们的研究人员情绪地形之间存在惊人的相似性。该研究持续 18 个月,跟踪对象为 12 名博士生和 1 名“技术上已经毕业但待遇仍按学生标准发放”的博后,双周记录其损失曲线收敛行为与心理健康评估结果。
结果非常明确。所有 12 名参与者都在第六个月前于训练目标上收敛到局部最小值。团队将其归因于学习率“起初设得太大,随后又矫正过头,小到模型基本停止学习”。与此同时,广义焦虑与存在性恐惧量表(GAEDS)得分平台化在一个作者称为“次优但稳定”的水平,“就像一个能跑起来但你不会想发论文的 ResNet”。那名博后的指标因离群值被排除在主分析之外,脚注解释说他“看起来状态不错,这让大家都很不安”。
团队使用标准技术尝试逃离局部最小值,收获颇丰。带动量的随机梯度下降确实让损失函数略有移动,但代价是研究人员睡眠作息方差显著增大。Warmup 调度在前两个月表现出希望,直到团队集体忘记自己实现过这项功能。研究中途采用了 Adam 优化器,参与者对其评价为“好像更好吧,但我也不确定为什么”,作者指出这种感受“与更广泛文献对自适应方法的关系高度一致”。
论文结论建议未来训练任务在监控模型收敛的同时,也应更谨慎地监控研究者收敛,并提出“周期性重置学习率、延长假期,以及真实可实现的毕业前景”可能是有效逃逸策略。代码和心理评估量表已上传 GitHub,但团队说明该仓库“自论文录用后就没再碰过”,并且“有几个文件路径是错的”。