数智化科研

美普林斯顿大学利用大模型解码mRNA序列

日期:2024-07-18

|  来源:【字号:

普林斯顿大学的王梦迪团队开发了全球首个解码mRNA非翻译区域(UTR)序列的大模型,这一模型能够准确预测mRNA的转录功能,并设计新序列用于mRNA疫苗的开发,提高了mRNA疫苗设计的效率和准确性。相关研究成果于202445日发表在《自然·机器智能》期刊上。

该模型基于transformer架构,通过自监督学习在核苷酸序列上进行训练,并结合了二级结构和最小自由能等多模态数据进行预训练。研究团队使用了来自不同数据库和物种的天然mRNA序列进行训练,并通过微调模型以预测多种mRNA翻译功能,包括平均核糖体负载量、翻译效率和表达水平,这些指标对生物医学研究至关重要。

该模型在关键任务上的表现超过了其他六种基准方法,包括两种领先的RNA大语言模型。在预测平均核糖体负载量上,该模型的性能提升显著,比现有最佳方法高出高达42%。此外,该模型在识别未注释的内部核糖体进入位点方面也取得了显著进步,这对于开发新型治疗策略和疫苗具有重大意义。

研究团队还设计了211条自然界中不存在的新mRNA非翻译区域序列,并通过实验验证了这些新序列用于疫苗的潜力,实现了高达32.5%的显著效率提升。此外,该模型在新生物实验上的可迁移性也得到了验证,展现了模型的优势和可迁移性。

信息来源:

https://www.nature.com/articles/s42256-024-00823-9


附件: