美研究团队发布全球最大生物学AI模型Evo-2
| 来源:【字号:大 中 小】
尽管基因测序与编辑技术已日趋成熟,但人类对基因组复杂性的理解仍难以支撑精准的预测与智能设计。2026年3月4日,美国Arc研究所联合斯坦福大学、加州大学伯克利分校、加州大学旧金山分校及英伟达,在《自然》期刊上发表了关于生物学人工智能模型Evo-2的研究论文。作为有史以来最大的生物学AI模型,Evo-2通过统一的表征方式整合了生物学的多尺度特征,实现了对从病毒到人类所有生命域遗传密码的理解、建模与设计,为生物学建模与设计奠定了基础。
在此之前的2024年11月,该团队曾在《科学》封面发表首个全基因组规模AI模型Evo-1。该模型主要基于原核生物和噬菌体基因组训练,率先实现了DNA序列的单核苷酸分辨率预测与生成,并成功设计了CRISPR-Cas分子复合物。Evo-2在此基础上,将训练视野从单细胞生命拓展至包含植物、动物及人类在内的整个生命之树,实现了能力的全面跃升。
Evo-2的核心突破在于其庞大的训练规模与先进的架构设计。模型基于涵盖12.8万个基因组的9.3万亿个核苷酸进行训练,参数规模高达400亿。为解决生物学中关键的长距离基因相互作用难题,研究团队开发了全新的StripedHyena 2架构,实现了100万token的超长上下文窗口,处理长序列的效率远超传统Transformer架构。在功能表现上,Evo-2具备卓越的零样本预测能力,能精准评估编码与非编码区基因突变的影响,在BRCA1等致病基因的突变预测中表现优异;同时,其生成能力实现了跨越,可从头编写包括酵母染色体在内的完整基因组序列,为合成生物学与精准医疗提供了强大的底层工具。
为推动领域共同发展,Evo-2实行完全开源策略。研究团队在GitHub上共享了模型参数、训练与推理代码以及OpenGenome 2数据集,全球研究人员均可通过英伟达BioNeMo平台免费部署使用。此外,研究团队高度重视生物安全,在训练数据中剔除了感染真核生物的病毒序列,在促进开放创新的同时有效降低了潜在的滥用风险。
信息来源:
https://www.nature.com/articles/s41586-026-10176-5
https://m.thepaper.cn/newsDetail_forward_32733744
