基于GNN的分子表征对比学习加速药物发现
| 来源:【字号:大 中 小】
2022年3月3日,《自然 机器智能》发表了卡内基梅隆大学的一项研究成果。研究团队利用大量的未标记分子来建立机器学习(ML)模型,开发了一个名为MolCLR(用GNN表示的分子对比学习)的自我监督学习框架,显著提高了模型的性能。与监督学习相比,通过MolCLR训练的简单GNN模型在所有分子基准上都有显著改进;与无法利用未标记数据的更复杂的GNN相比,MolCLR甚至在几个分子基准上通过微调将简单的GNN模型提升到最先进的水平(SOTA)。该模型有望实现高效的分子设计,可以用于药物发现、能源储存和环境保护等多种应用。
快速准确地预测分子特性,对于推进从材料科学到制药等领域的科学发现和应用具有重要意义。科学家们已经开始使用ML方法来帮助计算化学研究。但是,大多数ML模型只能利用已知或标记的数据。受益于可行但未标记的数据数量的迅速增长,自我监督/预训练的分子表示学习也得到了研究。
MolCLR模型是在对比学习框架的基础上开发的。三种分子图增强策略——原子掩蔽、键删除和子图删除被用来生成对比对。来自正增强分子图对的潜在表示与来自负对的表示形成对比。MolCLR由四个部分组成:数据处理和增强、基于GNN的特征提取器、非线性投影头和归一化温度标度交叉熵(NT-Xent)对比损失。
为了证明MolCLR的有效性,研究人员对来自MoleculeNet的多个具有挑战性的分类和回归任务的性能进行了基准测试。研究显示,MolCLR很容易实现,并且对特定领域的复杂性要求很少。与表现最好的监督学习基准相比,MolCLR也表现出可匹敌的性能。此外,MolCLR在分子数量有限的数据集上表现非常出色。通过对大约1000万个未标记分子数据的对比学习,MolCLR可以自动将分子嵌入到代表性特征中,并以化学上合理的方式区分化合物。
信息来源:
https://www.nature.com/articles/s42256-022-00447-x
ScienceAI. https://mp.weixin.qq.com/s/VqceU9gxctLlkIPbpLd7zg