数智化科研

美研究人员构建跨物种通用生成式细胞图谱模型

日期:2026-06-04

|  来源:【字号:

美国斯坦福大学Biohub等机构的研究人员提出基于自回归生成的单细胞大模型TranscriptFormer。该模型基于跨越约15亿年进化历史的12个物种、约1.12亿个单细胞转录组数据,构建出跨物种通用生成式细胞图谱,为解决远缘物种间缺乏直系同源基因、难以在同一坐标系下比较的长期难题提供了新路径。相关研究成果于202657日发表在《科学》期刊上。

TranscriptFormer将基因表达谱视为细胞语言,通过自监督学习捕捉基因间的复杂关联,以提取跨物种通用生物学表征。在技术实现上,模型整合了ESM-2蛋白嵌入等信息,利用专门设计的神经网络架构处理转录组数据变异。该方法打破了传统对人工标注的依赖,整个训练过程无需细胞类型或系统发育等标签信息,仅靠数据本身即可学习到生命的内在逻辑。

实验表明,TranscriptFormer在细胞分类任务上达到领先水平,即使面对与人类相隔6.85亿年的远缘物种也能精准识别。更重要的是,模型并未局限于表层分类,而是自主出了更底层的生物学规律——在没有任何预先提示的情况下,自行梳理出了细胞的发育过程、物种间的进化关系以及细胞层级结构。基于对生命底层逻辑的这种深度理解,模型进一步展现出强大的预测能力:不仅能以零样本方式直接识别疾病状态,还能作为虚拟实验仪模拟基因扰动后的细胞反应,从而为药物发现与细胞工程研究提供实际支持。

信息来源:

https://www.science.org/doi/10.1126/science.aec8514

https://mp.weixin.qq.com/s/sQVwTtEt-jH63pILNjylAQ


附件: