数智化科研

英矽智能联手英伟达推出专攻生物化学任务的大语言模型

日期:2024-07-18

|  来源:【字号:

英矽智能(Insilico Medicine)与英伟达合作,推出一款专门针对生物学和化学任务而设计的新型大语言模型转换器——nach0,能高效处理包括生物医学问题回答、命名实体识别、分子生成、分子合成和属性预测在内的多样化化学和生物任务。相关研究成果已于202458日发表在《化学科学杂志》上。

nach0建立在英伟达的BioNeMo生成式人工智能平台上。nach0的训练基于一个庞大的数据集,这些数据来自PubMed的摘要文本、美国专利商标局的化学相关专利描述,以及ZINC数据集的化学数据。该文本数据集涵盖了3.55亿个摘要标记、29亿个专利标记和47亿个化学数据标记,采用简化分子输入系统来记录分子结构。PubMed是一个免费的医学数据库,ZINC是一个可供虚拟筛选的商用化合物的免费数据库。

研究人员针对nach0进行了三个关键任务的训练:自然语言处理任务,如文档分类和问题回答;与化学相关的任务,如分子性质预测、分子生成和试剂预测;以及跨域任务,如描述引导的分子设计和分子描述生成。在执行分子任务方面,nach0相较于同类生物医学领域的其他大型语言模型展现出了显著的优势。

研究人员通过两个案例研究来验证nach0的能力。第一个案例研究中,研究人员使用nach0生成了200个简化分子,并输入系统,以寻找能有效对抗糖尿病的分子结构,并从中筛选出一个最有前景的候选结构。第二个案例研究中,nach0完成了一项由Chemistry42设置的案例研究,成功发现了8个满足所有2D3D要求的分子。

信息来源:

https://pubs.rsc.org/en/content/articlelanding/2024/sc/d4sc00966e


附件: