开源大模型ESMFold2面世构建超10亿蛋白质结构图谱----中国科学院网信工作网

数智化科研

开源大模型ESMFold2面世构建超10亿蛋白质结构图谱

日期：2026-06-04

| 来源：【字号：大中小】

据《自然》期刊2026年5月27日消息，陈·扎克伯格生物中心打造的开源模型ESMFold2正式面世，打破了蛋白质结构预测领域由闭源与算力壁垒筑起的高墙。研究团队还同步发布了包含68亿条蛋白质序列和11亿个预测结构的超巨型数据库——ESM Atlas，较AlphaFold Database多出8亿以上结构条目。

ESMFold2实现海量预测的核心，在于其底层逻辑从传统依赖已知序列对比（MSA）转向了蛋白质语言模型。该模型通过学习数十亿条蛋白质序列掌握氨基酸折叠规律，并采用循环架构与简化的配对层大幅提升计算速度，从而将大量未被注释的蛋白序列纳入预测。不仅如此，ESMFold2在多项关键性能上超越了最新版AlphaFold3，尤其在预测蛋白质相互作用及抗体设计中表现卓越。湿实验验证显示，其针对癌症与免疫疾病靶点设计的抗体及功能蛋白具备高结合力，且通过增加推理计算尺度，可将单链抗体的平均设计成功率显著提升。

为了使蛋白质生物学的这种组织变得可导航，研究团队建立了ESM图谱，包含68亿条序列和11亿个预测结构的地图。利用该图谱，研究人员在真核真菌中首次发现了此前仅存在于原核生物中的类CRISPR基因编辑结构，这展示了图谱在挖掘未知生物学规律上的巨大潜力。

信息来源：

https://www.nature.com/articles/d41586-026-01686-3

https://mp.weixin.qq.com/s/2ArsB-8FglK3C1qNNxrS7Q

附件：