美普林斯顿大学利用大模型解码mRNA序列----中国科学院网信工作网

数智化科研

美普林斯顿大学利用大模型解码mRNA序列

日期：2024-07-18

| 来源：【字号：大中小】

普林斯顿大学的王梦迪团队开发了全球首个解码mRNA非翻译区域（UTR）序列的大模型，这一模型能够准确预测mRNA的转录功能，并设计新序列用于mRNA疫苗的开发，提高了mRNA疫苗设计的效率和准确性。相关研究成果于2024年4月5日发表在《自然·机器智能》期刊上。

该模型基于transformer架构，通过自监督学习在核苷酸序列上进行训练，并结合了二级结构和最小自由能等多模态数据进行预训练。研究团队使用了来自不同数据库和物种的天然mRNA序列进行训练，并通过微调模型以预测多种mRNA翻译功能，包括平均核糖体负载量、翻译效率和表达水平，这些指标对生物医学研究至关重要。

该模型在关键任务上的表现超过了其他六种基准方法，包括两种领先的RNA大语言模型。在预测平均核糖体负载量上，该模型的性能提升显著，比现有最佳方法高出高达42%。此外，该模型在识别未注释的内部核糖体进入位点方面也取得了显著进步，这对于开发新型治疗策略和疫苗具有重大意义。

研究团队还设计了211条自然界中不存在的新mRNA非翻译区域序列，并通过实验验证了这些新序列用于疫苗的潜力，实现了高达32.5%的显著效率提升。此外，该模型在新生物实验上的可迁移性也得到了验证，展现了模型的优势和可迁移性。

信息来源：

https://www.nature.com/articles/s42256-024-00823-9

附件：