德马普学会利用聚类算法实现大规模蛋白质超快聚类
| 来源:【字号:大 中 小】
德国马普学会的研究人员开发了DIAMOND DeepClust算法,首次实现了在合理时间内对190亿条蛋白质序列的敏感聚类,将数据压缩至原来的1/56,并发现超过1亿个新蛋白质家族,相关研究成果于2026年3月24日发表在《自然·方法》期刊上。
DIAMOND DeepClust本质是一种级联式深度聚类算法,基于高敏感蛋白比对工具DIAMOND v2构建。算法通过序列比对构建图结构,利用代表序列机制将聚类问题转化为寻找最小覆盖节点集合。为了进一步提升规模能力,研究人员还对其进行了多项关键优化:采用多重间隔种子(multiple spaced seeds)技术提升敏感性,通过序列长度排序与覆盖约束提前剪枝减少无效计算,以及多节点并行运行机制突破单机限制。
实验结果显示,在单台64核服务器上,该算法在19小时内完成了5.46亿条序列聚类,速度较主流工具MMseqs2快36倍。在规模化测试中,算法成功处理了约19亿条蛋白序列,形成17亿个聚类,其中仅约3.35亿条代表序列便覆盖了92%的序列空间。此外,聚类结果中约有1.18亿个蛋白簇无法映射到现有数据库,揭示了海量未知的蛋白家族资源。
信息来源:
https://www.nature.com/articles/s41592-026-03030-z
https://mp.weixin.qq.com/s/I9Mbi4-aeemI0TPS4MgnAA
