多国63位学者合作发布“AI for Science”综述
| 来源:【字号:大 中 小】
2023年7月17日,来自得克萨斯农工大学、麻省理工学院、哈佛大学、剑桥大学、多伦多大学、英伟达等14家机构的63位学者合作发表了一篇综述文章“AI for Science”,阐述了AI在亚原子、原子、宏观系统等不同时空尺度的科学领域应用的关键挑战、学科前沿和开放问题。文章还围绕对称性、可解释性、分布外泛化、大语言模型和不确定性进行了探讨。此外,研究者还创建网站并绘制AI for Science的领域地图,提供了分类资源列表。
1. AI for Science 的科学领域
(1)量子尺度
量子力学研究最小长度尺度上的物理现象,使用波函数描述量子系统的完整动力学。文章介绍了如何设计先进的深度学习方法来有效地学习神经波函数,探讨了量子多体问题的求解,包括:学习量子自旋系统基态,和学习多电子系统基态。
密度泛函理论和从头计算量子化学方法是在实践中广泛应用的第一性原理方法,但这些方法在计算上仍然昂贵,限制了在小型系统中的使用。文章介绍了用于准确预测量子张量的深度学习方法,阐述了机器学习方法用于密度泛函学习的最新进展。
(2)原子尺度
小分子通常有几十到几百个原子,相对于蛋白质、核酸等具有复杂结构的大分子而言,在许多化学和生物过程中起着重要的调节和信号作用。文章介绍了分子学习的几个关键任务,包括:分子表征学习、分子构象生成、从头生成分子、分子动力学模拟,以及立体异构和构象灵活性的表征学习。
最近,机器学习方法在蛋白质结构预测方面取得了重要进展,而图神经网络、扩散模型、三维几何模型等机器学习方法则加速了新蛋白质的发现。文章介绍了AI用于蛋白质科学的三个主题:蛋白质结构预测,蛋白质表征学习,蛋白质骨架生成。
材料科学领域,机器学习方法已经被开发用于预测晶体材料的性质并设计新颖的晶体结构。文章对晶体材料的性质预测和结构生成做了技术综述,包括两个基础任务:材料表征学习和材料生成问题;以及三个进阶主题:有序晶体材料表征、无序晶体材料表征和声子计算。
分子相互作用研究分子如何相互作用以执行许多物理和生物功能。机器学习的最新进展激发了对各种分子相互作用的建模。文章对这方面的进展做了综述,重点关注的是小分子、蛋白质或材料的相互作用。
(3)连续体系
连续介质力学用偏微分方程对宏观尺度上随时间和空间演化的物理过程进行建模,包括流体流动、热传导和电磁波等。文章对近期用于解决这些限制的代理模型的深度学习方法做了综述,包括前向问题以及逆向问题和逆向设计。
2. AI for Science的技术挑战
除了各个科学领域特有的挑战,AI for science在多个领域还存在一些共同的技术挑战。本文提出了以下四个常见的技术挑战:
(1)分布外泛化和因果
科学领域的分布外泛化问题普遍存在。在分子科学中,不同的分子大小和骨架是分布偏移的主要来源。在蛋白质科学中,三维蛋白质结构的复杂性,以及蛋白质构成和折叠的潜在变化的广泛性,使得泛化到不同分布成为艰巨的挑战。对于偏微分方程,在时间演化建模中从高粘度泛化到低粘度是一项困难的任务,因为低粘度会导致更多的湍流流动,产生更多的混沌动力学,让建模充满挑战。
(2)可解释性
文章探讨了将可解释人工智能(XAI)与模型相结合以提高可解释性的问题。XAI旨在追踪模型的输入如何决定输出,来增加预测的可信度;还可以测试模型预测是否符合物理定律,从而提高现有几何深度学习模型的质量。对模型的精确解释技术可为领域专家提供对模型学习到的底层机制的深入洞察,获得知识以指导未来的研究方向。
(3)基于自监督学习的基础模型
自监督学习技术使得深度模型能够利用无标签数据,并学习现实数据的先验知识。由自监督学习驱动的基础模型和大语言模型,是解决标签获取困难并使AI应用于更广泛科学问题的最有前景的方向之一。文章探讨了基础模型和大语言模型如何加速AI for science。
(4)不确定性量化
不确定性量化研究面对数据和模型的不确定性,如何确保鲁棒的决策,这是AI for science的关键部分。文章提供了科学发现背景下不确定性量化的最新综述。
信息来源:
https://doi.org/10.48550/arXiv.2307.08423
https://www.163.com/dy/article/IA4EARV50511D05M.html