欧洲学者证实极少外部真实数据即可阻止AI模型崩塌----中国科学院网信工作网

数字技术与基础设施

欧洲学者证实极少外部真实数据即可阻止AI模型崩塌

日期：2026-06-04

| 来源：【字号：大中小】

高质量真实数据日益枯竭，AI系统越来越依赖合成数据训练，易导致“模型崩塌”而输出失真内容。挪威科技大学、伦敦国王学院等机构的研究人员发现，只需在训练中加入哪怕一条真实数据，就能有效阻止这一现象的发生。该发现为降低模型退化风险、保障训练稳定性提供了关键支撑。相关成果于2026年5月14日发表在《物理评论快报》上。

研究人员通过分析统计模型发现，若完全依赖合成数据进行封闭循环训练，模型崩塌几乎不可避免。但只要引入极少量的外部真实数据，哪怕远少于AI生成数据，甚至生成数据无限增加，也足以阻止模型性能持续退化。以往研究大模型的崩塌现象，常因结构复杂，导致内部机制难解释、错误来源难追踪；此次研究改用更简单的统计模型作为切入点，终于从数学层面清晰揭示了少量真实数据打破崩塌的机理。

研究人员还在更复杂的机器学习模型中验证了这一结论，表明该规律具有广泛适用性。研究人员计划将这一理论引入神经网络等更复杂的系统，验证其在实际大模型中是否同样有效，从而为未来复杂AI系统的训练设计提供指导原则。

信息来源：

https://www.kcl.ac.uk/news/scientists-come-up-with-way-to-overcome-ai-data-cannibalism

https://journals.aps.org/prl/abstract/10.1103/156q-3ngc

https://www.stdaily.com/web/gjxw/2026-05/15/content_517154.html

附件：