微软研究院开发多个AI基础模型来加速科学发现----中国科学院网信工作网

数智化科研

微软研究院开发多个AI基础模型来加速科学发现

日期：2024-10-28

| 来源：【字号：大中小】

据微软官网2024年10月8日消息，微软研究院正开发多个“基础模型（Foundation Models）”来加速科学发现，包括用于新材料发现的MatterGen模型，用于预测新材料将如何发挥作用的MatterSim模型，用于大气预报的Aurora模型，以及用于药物研发的TamGen模型。微软在报道中具体说明了前三个基础模型的情况，而并未详细介绍TamGen模型。

微软研究院相关人员称，这些基础模型的训练数据不仅包括科学书刊和研究报告，还包括求解物理或化学方程式过程中产生的大量数据。此外，在某些情况下，这些基础模型可以理解自然语言，使科学家们编写提示变得更加容易。

MatterGen基础模型基于扩散模型构建，可直接生成满足设计条件的材料，相较传统方法，生成材料效率可提高三到五个数量级。在训练数据方面，由于多年实验积累的数据太少，不足以训练基础模型，但物理和化学等科学领域遵循完善的数学方程，因此多次计算这些方程会产生必要数量的高质量训练数据。团队在高性能计算机上运行一种称为密度泛函理论的量子力学公式，为MatterGen创建训练数据。

MatterSim基础模型基于Graphormer架构构建，是MatterGen模型的配套模型，可以模拟或预测新材料分子的行为方式。该模型采用主动学习方法，当获得新数据时，它会判断是否不确定，如果不确定，这些数据将进入模拟，重新训练模型。与MatterGen训练情况类似，由于分子行为数据非常少，研究团队使用量子力学计算来创建合成数据。目前，MatterSim是一个特定领域的基础模型，专注于无机材料，其最终目标是成为统一的大型基础模型，能够理解整个科学语言，如分子、DNA、材料、蛋白质等。

Aurora基础模型基于视觉Transformer架构构建，由1.2PB的天气数据训练，能在配备GPU的普通台式计算机上，在几秒钟内生成10天的天气预报。而采取传统方法，在超级计算机上完成该项工作大约需要两个小时。此外，Aurora通过利用大气化学数据进行微调，还可以预测大气污染情况。目前，Aurora基础模型已实现应用。

信息来源：

https://news.microsoft.com/source/features/ai/from-forecasting-storms-to-designing-molecules-how-new-ai-foundation-models-can-speed-up-scientific-discovery/?msockid=018d8580750768ea03d597c874c7693d

附件：