数智化科研

德马普学会利用聚类算法实现大规模蛋白质超快聚类

日期:2026-04-09

|  来源:【字号:

德国马普学会的研究人员开发了DIAMOND DeepClust算法,首次实现了在合理时间内对190亿条蛋白质序列的敏感聚类,将数据压缩至原来的1/56,并发现超过1亿个新蛋白质家族,相关研究成果于2026324日发表在《自然·方法》期刊上。

DIAMOND DeepClust本质是一种级联式深度聚类算法,基于高敏感蛋白比对工具DIAMOND v2构建。算法通过序列比对构建图结构,利用代表序列机制将聚类问题转化为寻找最小覆盖节点集合。为了进一步提升规模能力,研究人员还对其进行了多项关键优化:采用多重间隔种子(multiple spaced seeds)技术提升敏感性,通过序列长度排序与覆盖约束提前剪枝减少无效计算,以及多节点并行运行机制突破单机限制。

实验结果显示,在单台64核服务器上,该算法在19小时内完成了5.46亿条序列聚类,速度较主流工具MMseqs236倍。在规模化测试中,算法成功处理了约19亿条蛋白序列,形成17亿个聚类,其中仅约3.35亿条代表序列便覆盖了92%的序列空间。此外,聚类结果中约有1.18亿个蛋白簇无法映射到现有数据库,揭示了海量未知的蛋白家族资源。

信息来源:

https://www.nature.com/articles/s41592-026-03030-z

https://mp.weixin.qq.com/s/I9Mbi4-aeemI0TPS4MgnAA


附件: