开源大模型ESMFold2面世 构建超10亿蛋白质结构图谱
| 来源:【字号:大 中 小】
据《自然》期刊2026年5月27日消息,陈·扎克伯格生物中心打造的开源模型ESMFold2正式面世,打破了蛋白质结构预测领域由闭源与算力壁垒筑起的高墙。研究团队还同步发布了包含68亿条蛋白质序列和11亿个预测结构的超巨型数据库——ESM Atlas,较AlphaFold Database多出8亿以上结构条目。
ESMFold2实现海量预测的核心,在于其底层逻辑从传统依赖已知序列对比(MSA)转向了蛋白质语言模型。该模型通过学习数十亿条蛋白质序列掌握氨基酸折叠规律,并采用循环架构与简化的配对层大幅提升计算速度,从而将大量未被注释的蛋白序列纳入预测。不仅如此,ESMFold2在多项关键性能上超越了最新版AlphaFold3,尤其在预测蛋白质相互作用及抗体设计中表现卓越。湿实验验证显示,其针对癌症与免疫疾病靶点设计的抗体及功能蛋白具备高结合力,且通过增加推理计算尺度,可将单链抗体的平均设计成功率显著提升。
为了使蛋白质生物学的这种组织变得可导航,研究团队建立了ESM图谱,包含68亿条序列和11亿个预测结构的地图。利用该图谱,研究人员在真核真菌中首次发现了此前仅存在于原核生物中的类CRISPR基因编辑结构,这展示了图谱在挖掘未知生物学规律上的巨大潜力。
信息来源:
https://www.nature.com/articles/d41586-026-01686-3
https://mp.weixin.qq.com/s/2ArsB-8FglK3C1qNNxrS7Q
