近日,来自加拿大多伦多大学和彼得·蒙克心脏中心(Peter Munk Cardiac Centre)的研究人员,通过利用呈指数增长的单细胞测序数据,首次尝试对超过 1000 万个细胞进行生成预训练来构建单细胞基础模型。
这是第一个基于单细胞生物学的大型语言模型。
研究人员证明了生成式预训练 Transformer scGPT 可以有效地捕获对基因和细胞有意义的生物学见解。此外,该模型可以很容易地进行微调,以在各种下游任务中实现最先进的性能,包括 multi-batch 整合、多组学整合、细胞类型注释、遗传扰动预测和基因网络推断。
生成式预训练模型最近在许多领域取得了前所未有的成功。
但目前单细胞研究中基于机器学习的发现相当分散,特定模型专用于特定分析任务。由于测序能力和研究问题的范围,每项研究中使用的数据集的广度和规模通常也有限。这需要在大规模数据上进行预训练的基础模型,以实现对单细胞生物学的一般理解。
虽然单细胞生物学中生成预训练的可行性在很大程度上仍未得到探索,但可以从其他领域汲取关于建模和以数据为中心的观点的灵感。
在此,研究人员首次尝试通过对超过 1000 万个细胞进行生成预训练来构建单细胞基础模型 scGPT。研究证明预训练模型在基因和细胞水平上捕获了有意义的生物学见解。通过在少量学习设置中进行微调,该模型在广泛的下游任务上实现了最先进的性能。
scGPT 首先对来自细胞图谱的大规模 scRNA-seq 数据进行生成训练。对于下游应用,可以根据新数据微调预训练模型权重。scGPT 的核心组件包含带有用于生成训练的专门注意掩码的堆叠 Transformer 块。将 scGPT 应用于各种任务,包括多组学整合、batch 校正、细胞类型注释、遗传扰动预测和基因网络推理。输入包含三层信息:基因标记、表达值和条件标记。