数字技术与基础设施

欧洲学者证实极少外部真实数据即可阻止AI模型崩塌

日期:2026-06-04

|  来源:【字号:

高质量真实数据日益枯竭,AI系统越来越依赖合成数据训练,易导致“模型崩塌”而输出失真内容。挪威科技大学、伦敦国王学院等机构的研究人员发现,只需在训练中加入哪怕一条真实数据,就能有效阻止这一现象的发生。该发现为降低模型退化风险、保障训练稳定性提供了关键支撑。相关成果于2026514日发表在《物理评论快报》上。

研究人员通过分析统计模型发现,若完全依赖合成数据进行封闭循环训练,模型崩塌几乎不可避免。但只要引入极少量的外部真实数据,哪怕远少于AI生成数据,甚至生成数据无限增加,也足以阻止模型性能持续退化。以往研究大模型的崩塌现象,常因结构复杂,导致内部机制难解释、错误来源难追踪;此次研究改用更简单的统计模型作为切入点,终于从数学层面清晰揭示了少量真实数据打破崩塌的机理。

研究人员还在更复杂的机器学习模型中验证了这一结论,表明该规律具有广泛适用性。研究人员计划将这一理论引入神经网络等更复杂的系统,验证其在实际大模型中是否同样有效,从而为未来复杂AI系统的训练设计提供指导原则。

信息来源:

https://www.kcl.ac.uk/news/scientists-come-up-with-way-to-overcome-ai-data-cannibalism

https://journals.aps.org/prl/abstract/10.1103/156q-3ngc

https://www.stdaily.com/web/gjxw/2026-05/15/content_517154.html


附件: