德马普学会利用聚类算法实现大规模蛋白质超快聚类----中国科学院网信工作网

数智化科研

德马普学会利用聚类算法实现大规模蛋白质超快聚类

日期：2026-04-09

| 来源：【字号：大中小】

德国马普学会的研究人员开发了DIAMOND DeepClust算法，首次实现了在合理时间内对190亿条蛋白质序列的敏感聚类，将数据压缩至原来的1/56，并发现超过1亿个新蛋白质家族，相关研究成果于2026年3月24日发表在《自然·方法》期刊上。

DIAMOND DeepClust本质是一种级联式深度聚类算法，基于高敏感蛋白比对工具DIAMOND v2构建。算法通过序列比对构建图结构，利用代表序列机制将聚类问题转化为寻找最小覆盖节点集合。为了进一步提升规模能力，研究人员还对其进行了多项关键优化：采用多重间隔种子（multiple spaced seeds）技术提升敏感性，通过序列长度排序与覆盖约束提前剪枝减少无效计算，以及多节点并行运行机制突破单机限制。

实验结果显示，在单台64核服务器上，该算法在19小时内完成了5.46亿条序列聚类，速度较主流工具MMseqs2快36倍。在规模化测试中，算法成功处理了约19亿条蛋白序列，形成17亿个聚类，其中仅约3.35亿条代表序列便覆盖了92%的序列空间。此外，聚类结果中约有1.18亿个蛋白簇无法映射到现有数据库，揭示了海量未知的蛋白家族资源。

信息来源：

https://www.nature.com/articles/s41592-026-03030-z

https://mp.weixin.qq.com/s/I9Mbi4-aeemI0TPS4MgnAA

附件：