2023年12月21日,来自英国Sanger研究所Sarah Teichmann团队的许川及合作者在Cell上发表了题为Automatic cell-type harmonization and integration across Human Cell Atlas datasets的文章。
研究人员开发了用于细胞类型标准化的算法CellHint。CellHint主要包含四个功能:1)定量细胞与细胞间的转录组相似性;2)标准化不同数据集的细胞命名差异;3)重构不同细胞类型的层级结构;4)基于2和3整合单细胞数据。
通过CellHint来标准化五批免疫细胞数据集后发现,原先需要大量人力来注释和调和的细胞类型在CellHint的算法下都得到了快速的验证。另外,CellHint也适用于疾病数据集。例如,当研究人员把CellHint应用于8种导致肺纤维化的疾病数据后,不同的细胞类型和疾病类型都得到了区分。跨数据集比较的其中一个好处在疾病数据中也得到了体现:在不同细胞类型构成的树状层级图里,肺纤维化的程度与细胞类型的连接也是直接相关的。
将不同数据集间的细胞类型进行标准化和整合还可以实现稀有细胞类型的富集。当作者团队利用CellHint来标准化不同物种的海马体(颞叶内侧的双层灰质结构)单细胞数据后,一细胞簇(约含1600细胞)得以富集。基于这类细胞的基因表达模式和功能富集情况,他们很可能代表了不成熟的神经元或成神经细胞。跨物种间的标准化也进一步揭示了此类细胞在不同物种间的相对保守性。
此外,鉴于其数据集自动标准化的特性,CellHint也可用于自动化(或半自动化)的图谱绘制和整合。在此流程中,细胞标准化和数据整合都可以利用CellHint快速完成,最后辅以手动的校验和更正,能够产生高质量的细胞图谱。