细胞内有数以亿计的碱基、表达程序以及运行策略,而且各不相同。单细胞测序技术可解读单个细胞里的这些信息,但人工干预多、过度依赖人为选定的标记基因使得单细胞测序技术对细胞的注释稳定性较低。可以理解为,同一类细胞用不同的模型解析,结果不同,对一些特殊细胞“公说公有理婆说婆有理”的分析结果往往难以得到广泛认可。
解决上述问题的关键是减少人工干预。9月27日,《自然》子刊《自然机器智能》刊载了我国团队首创的单细胞转录组细胞类型注释算法。该算法可以将细胞中的信息转变为计算机能够理解和学习的“语言”,让计算机和细胞直接“对话”,减少人为因素影响。
细分细胞亚型,准确度提升7%
据算法研发团队腾讯人工智能实验室方面介绍,新算法,即scBERT模型,对最难分类的外周血单核细胞进行了分类,结果显示人工智能能够做到精准标注、注释极其难区分的两类细胞,例如能够准确区分CD8+细胞毒性T细胞和CD8/CD45RA+T细胞。研发团队成员告诉科技日报记者,“在极具挑战的外周血细胞亚型细分任务上,新算法相较现有最优方法的70%准确度再提升了7%。”
此外,团队还在已有的单细胞数据集中,将新算法的性能与其他算法进行了对比,这些数据集涵盖17个主要器官或组织、包含50多个细胞类型、超过50万个细胞。论文中显示,对于每个数据集,团队均采用了五倍交叉验证策略,以避免随机结果对结论的影响。结果显示,新算法对大多数数据集的分析结果在精确度和综合得分方面均表现优异。
研发人员表示,针对不同的单细胞分析任务和数据集解析任务,都会有不同的算法成为最佳算法,也就是说有的算法擅长某几类任务,有的算法擅长另几类任务,无法通用,而基于scBERT模型的新算法则表现了很强的通用性,在全部的数据集解析任务中均被列为最佳算法。
跨界使用“工具”,让机器读懂细胞语言
那么,新算法为什么能让机器通过学习读懂细胞中的复制、翻译、转录的语言呢?
相关研发人员解释,“我们首次将‘transformer’运用到单细胞转录组测序数据分析领域。 transformer这种架构从发明以来一直被用在自然语言处理领域,用于进行诸如机器翻译类的工作,成为比较通用的一个框架组件,但我们将它运用到了细胞注释领域。”
得益于对计算机处理人类语言和单细胞信息之间的共性理解,团队将已经成熟的人工智能架构进行创新性地“跨界”使用,大大提升了细粒度单细胞分子图谱的构建效率。
“跨界工具”让新模型赋予计算机读懂细胞活动的基础,但要想读得准、读得透、读得精,还需要基于大规模的语言预训练。
论文显示,为了解决来自不同项目、测序平台的数据难以互通有无的难题,“scBERT” 模型在预训练数据上没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息,并学习了包含不同实验来源、批次和组织类型的单细胞数据,以保证模型理解“通用”的知识,不仅捕获单个基因的表达信息还理解基因间的协作。
据介绍,该技术可以给生物体中每个细胞都印上专属“身份证”,“单细胞身份证”的应用不仅可以助力疾病致病机制分析、药物靶点发现等基础研究,也可以在临床上高精度地“刻画”肿瘤微环境,推动精准治疗的进一步完善。