美国科学家利用超级计算机和深度学习预测基因组规模的蛋白质的结构与功能
| 来源:【字号:大 中 小】
2022年1月10日,由能源部橡树岭国家实验室(ORNL)和佐治亚理工学院牵头的科学家团队,正在使用超级计算和革命性的深度学习工具来预测数千种功能未知的蛋白质的结构和功能。研究人员使用ORNL的Summit超级计算机,Google旗下的DeepMind开发的AlphaFold 2,以及佐治亚理工学院开发的SAdLSA工具,以加速准确识别生物体整个基因组中的蛋白质结构和功能。这些新发现可能为生物技术、生物安全、生物能源以及环境污染和气候变化的解决方案提供信息。该团队最近发布了高性能计算工具包及其在Summit上的部署的详细信息。
佐治亚理工学院开发的深度学习工具SAdLSA通过对结构比对的深度学习进行序列比对,将结构与序列信息有效对应起来,即使序列的相似性只有10%,SAdLSA也可以通过隐式理解蛋白质结构来比较序列。DeepMind 的工具AlphaFold 2在2020年国际蛋白质结构预测赛(CASP)中,确定未知蛋白质结构的准确性接近 X 射线晶体学,是自1994年CASP开始以来第一个也是唯一一个达到这种准确度水平的程序。SAdLSA与AlphaFold 2的结合,可以通过分析活性部位来确定哪些氨基酸在进行化学反应,以及它们是如何发挥作用的。ORNL研究人员及其合作者正在努力将这些工具包提供给Summit上的其他用户,并公开分享其建立的数千种蛋白质结构数据集,以便促进科学发展。不过调用具有多个软件模块和1.5TB数据库的AlphaFold 2需要大量内存和许多强大的并行处理单元,在Summit上运行它是一个多步骤的过程,这部分由橡树岭领先计算设施(美国能源部科学办公室的一个用户设施)的专家负责。
该研究小组专注于对美国能源部至关重要的生物体。他们已经为四种微生物建立了完整的蛋白质组模型,即生物基因组中编码的所有蛋白质,每种微生物大约含有5000种蛋白质。其中两种微生物被发现可以产生制造塑料的重要材料,另外两种物质可以分解和转化金属。结构数据可以为合成生物学的新进展和减少污染物(如汞)在环境中的扩散的策略提供信息。该团队还建立了藓类植物中2.4万种蛋白质的模型。泥炭在泥炭沼泽中储存大量碳方面发挥着关键作用,泥炭沼泽所储存的碳比世界上所有的森林都多。这些数据可以帮助科学家确定哪些基因在提高泥炭藓的碳隔离能力和抵御气候变化方面最重要。
这项工作将随着工具的变化而发展,具备适配更先进计算平台的能力,包括ORNL正在建设中的“前沿”E级计算机。该项目由美国能源部科学办公室的生物和环境研究计划以及美国能源部高级科学计算研究办公室的领导力计算挑战赛提供支持。
信息来源:
https://www.ornl.gov/news/scientists-use-summit-supercomputer-deep-learning-predict-protein-functions-genome-scale