《首个单细胞生物学基础大型语言模型,在超1000万个细胞上进行预训练》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-07-11
  • 近日,来自加拿大多伦多大学和彼得·蒙克心脏中心(Peter Munk Cardiac Centre)的研究人员,通过利用呈指数增长的单细胞测序数据,首次尝试对超过 1000 万个细胞进行生成预训练来构建单细胞基础模型。

    这是第一个基于单细胞生物学的大型语言模型。

    研究人员证明了生成式预训练 Transformer scGPT 可以有效地捕获对基因和细胞有意义的生物学见解。此外,该模型可以很容易地进行微调,以在各种下游任务中实现最先进的性能,包括 multi-batch 整合、多组学整合、细胞类型注释、遗传扰动预测和基因网络推断。


    生成式预训练模型最近在许多领域取得了前所未有的成功。

    但目前单细胞研究中基于机器学习的发现相当分散,特定模型专用于特定分析任务。由于测序能力和研究问题的范围,每项研究中使用的数据集的广度和规模通常也有限。这需要在大规模数据上进行预训练的基础模型,以实现对单细胞生物学的一般理解。

    虽然单细胞生物学中生成预训练的可行性在很大程度上仍未得到探索,但可以从其他领域汲取关于建模和以数据为中心的观点的灵感。

    在此,研究人员首次尝试通过对超过 1000 万个细胞进行生成预训练来构建单细胞基础模型 scGPT。研究证明预训练模型在基因和细胞水平上捕获了有意义的生物学见解。通过在少量学习设置中进行微调,该模型在广泛的下游任务上实现了最先进的性能。

    scGPT  首先对来自细胞图谱的大规模 scRNA-seq 数据进行生成训练。对于下游应用,可以根据新数据微调预训练模型权重。scGPT 的核心组件包含带有用于生成训练的专门注意掩码的堆叠 Transformer 块。将 scGPT 应用于各种任务,包括多组学整合、batch 校正、细胞类型注释、遗传扰动预测和基因网络推理。输入包含三层信息:基因标记、表达值和条件标记。


相关报告
  • 《孩子们很好:合成生物学的训练场现在有了一个转折》

    • 来源专题:人类遗传资源和特殊生物资源流失
    • 编译者:yanyf@mail.las.ac.cn
    • 发布时间:2019-12-19
    • 工业革命期间,当煤炭被大量燃烧时,人们并不知道大气中碳的微妙平衡。当塑料在20世纪30年代被发明出来的时候,我们无法预料它们会如何污染我们的海洋。 在21世纪,我们对自然世界有了更好的理解。我们也有工具和技术让人们更好地与世界保持平衡。精密技术,如国际遗传工程机器(iGEM)竞赛中开发的合成生物学解决方案,正在帮助我们解决过去的问题,同时建设一个可持续的明天。 对合成生物学领域的年轻科学家来说,iGEM竞赛几乎是人生必经之路。这项比赛于2003年在麻省理工学院(MIT)的一个独立学习课程中诞生。Ginkgo Bioworks的联合创始人汤姆·奈特(Tom Knight)也是第一门课程的联合创始人。还有iGEM的创始人兰迪·雷特伯格和合成生物学的领导者德鲁·恩迪。Ginkgo联合创始人Austin Che、Reshma Shetty、Barry Canton和Jason Kelly参加了早期的课程。2006年,他们一起加入了一个iGEM团队,致力于在大肠杆菌中生产一种风味化合物。如今,许多合成生物学的行业领袖都是在iGEM crucible的激烈竞争中脱颖而出的。 自2003年以来,iGEM已经发展成为一个全球性的活动,成千上万的参与者聚集在波士顿参加iGEM的大型聚会。这个比赛展示了来自高中、本科和研究生水平的年轻合成生物学家的创新,这些创新有助于通过合成生物学解决全球问题。关键在于使用标准的生物部件。这些是DNA的功能单位,就像基因或启动子。这些部件被添加到iGEM注册表中,以便未来几年世界各地的团队可以使用它们来创建新的生物解决方案。它的全球团队合作。 用生物学构建未来 考虑到它们对培养下一代合成生物学家的影响,有远见的公司热衷于支持iGEM团队。Twist Bioscience公司认识到,通过将他们的DNA合成技术与iGEM合作,他们可以为参与者带来直接的好处。DNA是工程生物学的基础元素,是能够规划可持续生物经济的“生物细胞”。Twist在硅芯片上开发了一个独特的DNA合成平台。当首席执行官艾米丽·勒普罗斯特(Emily Leproust)在2019年的大型聚会上致辞时,她把DNA比作语言。 wist的CEO Emily Leproust在iGEM巨人大会上向下一代合成生物学家发表演讲。她传达的信息是:制造DNA的能力永远不应该成为创新者为世界提供生物解决方案的障碍。照片:iGEM基金会和贾斯汀·奈特。 她解释说:“单个信件的影响力很小,但如果按顺序排列,它们有能力描述我们周围的世界,带来知识、关系和参与。”她强调了iGEM的创业精神和改变世界的精神,并补充说:“Twist始于一个伟大的想法。我们可以用硅技术来写DNA。我们每天都在生产数百万的寡核苷酸,我们把这些寡核苷酸转化成数千种高级基因,供研究人员使用。” 今年的团队瞄准了污染 污染是今年比赛的共同主题之一,在今年的iGEM巨人大会上,有许多杰出的团队在这个领域工作: 埃克塞特大学的研究小组指出,海洋中35%的微塑料污染来自洗衣,其中大部分来自我们的聚酯服装。他们着手制造一种以酶为基础的过滤器,阻止细菌进入海洋。他们的方法包括合理地设计酶和重建现有酶的祖先版本,从而最好地设计出一种稳定的、功能性的蛋白质,将其纳入过滤系统。 iGEM埃克塞特 另一个大项目旨在设计微生物来捕捉碳并影响当地天气。台湾的NCHU Taichung对浮游植物中的碳捕获途径很感兴趣,这种途径可以生成二甲基硫化物,并将其转化为云凝结核。他们在大肠杆菌中设计了一种不同的二甲基硫通道来做同样的事情。碳捕获本身就有助于减少温室气体的排放,但用这种产品在云中播种也有助于反射阳光,就像地球极地的冰一样。 曼彻斯特的这个可爱的团队设计了一种细菌来生产天然的染发剂,这种染发剂不仅给头发上色,而且有助于头发的修复。传统的染发剂可能含有过敏原,而且它们的制造比Cutiful合成生物溶液更不环保。他们的生物友好型染发剂甚至能产生令人愉悦的柑橘或香草气味。 巴黎的Cinergy团队想知道,对于法国每年扔在地上的300亿个烟头,他们能做些什么。每个烟蒂需要10到15年才能自行降解,但巴黎的研究小组找到了一种方法,将它们转化为绿色电力。他们通过改造微生物,将烟蒂的主要成分醋酸纤维素分解成碳水化合物。碳水化合物可以被另一种微生物用来制造电子,这些电子被引导到导线上,产生可用的电能。 超越iGEM:把好的想法带到这个世界 在iGEM开发的新奇想法也不会在项目结束时消失。为了帮助留住和发展这些全球人才,iGEM基金会在iGEM之后成立。 “大约有150位相关的基于synbio的iGEM联合创始人参与了竞争。这些都是应用合成生物学公司,专注于食品、农业技术、水和健康等领域。 Wright强调了一些团队的成功,如Ginkgo、PvP Biologics、Hyasynth和Puraffinity,但还有很多很多的成功故事都是在iGEM中诞生的。After iGEM的目标是与世界各地的igemer保持接触,通过专业项目发展他们的技能和公司,并帮助传播全球问题的生物解决方案的理念。 投资于人是实现这一目标的关键。工程生物学不是一项开发或规模化的廉价技术,该领域依赖于寻求改善我们世界的赠款和投资的支持。Twist等公司认识到了这一点。 “我们绝不希望DNA成为你研究的限制因素,”勒普罗斯特在今年的大型聚会上说。“这就是为什么我们今年为每个团队提供了10000个免费DNA碱基,并支持iGEM合成标准化的部分。” iGEM 2019年10月,波士顿,iGEM团队成员与主会场或iGEM大会上的竞赛评委交换。照片:iGEM基金会和贾斯汀·奈特 通过快速、廉价地获取注册表中的任何部分,世界各地的iGEM研究人员都可以进行他们的创新项目,而不必一次花费数周时间等待从头合成DNA部分。 人类面临的卫生、食品和供水方面的全球性挑战需要一个全球性的解决方案。iGEM基金会鼓励创新和支持新一代合成生物学家。在iGEM校友和Twist Bioscience等公司的支持下,他们将把我们的世界变得更美好。 ——文章发布于2019年12月10日
  • 《心脏的单细胞图显示了广泛的细胞多样性》

    • 来源专题:人类遗传资源和特殊生物资源流失
    • 编译者:yanyf@mail.las.ac.cn
    • 发布时间:2020-06-09
    • 对单个细胞的研究极大地扩展了对各种器官系统的生物学理解,但在心脏研究中,一些基本问题仍然存在。人类心脏由多少种细胞组成?这些细胞在心脏的不同区域表现不同吗?不同类型的细胞如何影响心脏健康和疾病? 为了帮助回答这些问题,来自麻省理工学院、哈佛大学、拜耳大学、麻省总医院、宾夕法尼亚大学和联合医学研究所的精确心脏病学实验室(PCL)的研究人员现在已经生成了迄今为止最全面的、高分辨率的人类心脏细胞图谱。通过研究来自7颗健康心脏的近30万个单个心脏细胞,该团队确定了该器官的9种主要细胞类型和超过20种亚型。他们还发现了该器官不同部位的基因表达模式,以及可能与常见心血管疾病有关的细胞类型。 了解健康人类心脏中所有不同的细胞以及它们是如何变化的,让研究人员能够了解这些细胞在疾病中是如何表现不同的。这一知识可以帮助科学家在心血管疾病相关的特定心肌细胞类型中识别新的药物靶点。这项工作已在流通中发表。 “我们对人类心脏中不同类型的细胞了解不多,”拜耳PCL负责人克里斯蒂安·斯泰格曼(Christian Stegmann)说。 资深研究作者Patrick Ellinor对此表示赞同。“在基本层面上,我们试图问很简单的东西,这是人的心里有多少细胞类型,它们看起来像什么,“Ellinor说,Broad研究所成员,PCL和广泛的心血管疾病,和导演的心律失常在马萨诸塞州综合医院服务。 细胞的心脏 几十年的心脏研究都集中在心脏的肌肉成分上,这些被称为心肌细胞的细胞有助于心脏收缩。但是心肌细胞依靠一组复杂的特殊细胞来维持心脏的跳动,研究人员一直在争论人类心脏内的主要细胞类型是什么。 “近年来,我们逐渐认识到心脏是一种真正复杂的细胞混合物,”内森·塔克(Nathan Tucker)说,他是这项研究的第一作者,也是PCL的一个项目团队的负责人,现在是共聚物医学研究所(Masonic Medical Research Institute)的助理教授。“还有很多未开发的生物学需要我们去理解。” 即使使用现代单细胞测序技术,研究人类心脏细胞也具有挑战性,因为心肌细胞太大,无法用这些方法中使用的标准流体设备进行处理。相反,这项新研究的团队采用了一种不同的方法:单核测序,它分解细胞并分析单个细胞核中的RNA,而不是从完整的细胞中分析。这种方法使他们能够调查人类心脏的细胞,定义他们的基因表达谱,并探测比以前更稀有的细胞类型。 通过对四个心脏腔的287,269个细胞核进行分析,研究小组确定了数量惊人的心脏细胞类型和亚型。“许多人认为心脏是相对同质的,”埃林诺指出。“细胞亚型的数量、多样性的程度,以及纯粹的复杂性都让人感到羞愧。” 单核数据还显示,细胞基因表达谱在某些细胞类型中随心脏腔而变化。例如,心脏的常驻免疫细胞在右心房显示出一种与其他腔室不同的基因表达模式。 “我们早就知道,心脏腔内的心肌细胞是不同的。但是我们不知道其他支持细胞和它们在不同腔室的活动也会不同。”塔克说道。“所以,你需要理解这些细胞在它们来自的腔室的背景下,这是一个非常令人惊讶和重要的发现。” 心脏的总地图 这项研究还为科学界创造了一个重要的新资源:心脏的参考图,以便更好地了解疾病发生的原因。 心血管疾病,如心力衰竭和中风,每年在世界各地造成数百万人死亡。在没有健康人类心脏的基本细胞图谱的情况下,了解这些疾病的遗传学一直颇具挑战性。 为了帮助将心脏病遗传学置于细胞的背景下,研究人员将他们的单核数据与之前基于人群的疾病研究中的遗传关联数据结合起来。他们确定了心脏内的细胞类型,这些细胞最有可能在常见的心血管疾病中发挥作用,如心脏病发作和心脏不规则跳动的心房纤颤。 科学家们还寻找表达已知与疾病有关的基因的心肌细胞类型,以确定潜在的治疗心血管疾病的新药靶点。他们发现了一些显著的规律。他们发现的大多数可给药基因只在三种心肌细胞中表达:制造和维持结缔组织的成纤维细胞、心肌细胞和脂肪细胞。 总的来说,对心脏单个细胞以及它们在健康和疾病方面的差异的深入了解,将使研究人员能够在疾病特定的细胞类型中识别新的治疗靶点,为心血管疾病的药物发现工作提供动力。 事实上,研究小组很快将开始研究某些心脏病患者的单个细胞,以了解不同类型的心脏细胞在患病情况下的行为。 塔克说:“有这个健康的基线真的很重要,我们想把它扩展到其他领域。”“我们也与科学界分享了这个细胞图谱,我们期待着其他研究我们数据的团体以及特定细胞类型的专家提供新的见解。” 精密心脏病学实验室得到了拜耳公司(Bayer AG)给布罗德研究所(Broad Institute)的资助。