美普林斯顿大学利用大模型解码mRNA序列
| 来源:【字号:大 中 小】
普林斯顿大学的王梦迪团队开发了全球首个解码mRNA非翻译区域(UTR)序列的大模型,这一模型能够准确预测mRNA的转录功能,并设计新序列用于mRNA疫苗的开发,提高了mRNA疫苗设计的效率和准确性。相关研究成果于2024年4月5日发表在《自然·机器智能》期刊上。
该模型基于transformer架构,通过自监督学习在核苷酸序列上进行训练,并结合了二级结构和最小自由能等多模态数据进行预训练。研究团队使用了来自不同数据库和物种的天然mRNA序列进行训练,并通过微调模型以预测多种mRNA翻译功能,包括平均核糖体负载量、翻译效率和表达水平,这些指标对生物医学研究至关重要。
该模型在关键任务上的表现超过了其他六种基准方法,包括两种领先的RNA大语言模型。在预测平均核糖体负载量上,该模型的性能提升显著,比现有最佳方法高出高达42%。此外,该模型在识别未注释的内部核糖体进入位点方面也取得了显著进步,这对于开发新型治疗策略和疫苗具有重大意义。
研究团队还设计了211条自然界中不存在的新mRNA非翻译区域序列,并通过实验验证了这些新序列用于疫苗的潜力,实现了高达32.5%的显著效率提升。此外,该模型在新生物实验上的可迁移性也得到了验证,展现了模型的优势和可迁移性。
信息来源:
https://www.nature.com/articles/s42256-024-00823-9