《首个单细胞生物学基础大型语言模型,在超1000万个细胞上进行预训练》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-07-11
  • 近日,来自加拿大多伦多大学和彼得·蒙克心脏中心(Peter Munk Cardiac Centre)的研究人员,通过利用呈指数增长的单细胞测序数据,首次尝试对超过 1000 万个细胞进行生成预训练来构建单细胞基础模型。

    这是第一个基于单细胞生物学的大型语言模型。

    研究人员证明了生成式预训练 Transformer scGPT 可以有效地捕获对基因和细胞有意义的生物学见解。此外,该模型可以很容易地进行微调,以在各种下游任务中实现最先进的性能,包括 multi-batch 整合、多组学整合、细胞类型注释、遗传扰动预测和基因网络推断。


    生成式预训练模型最近在许多领域取得了前所未有的成功。

    但目前单细胞研究中基于机器学习的发现相当分散,特定模型专用于特定分析任务。由于测序能力和研究问题的范围,每项研究中使用的数据集的广度和规模通常也有限。这需要在大规模数据上进行预训练的基础模型,以实现对单细胞生物学的一般理解。

    虽然单细胞生物学中生成预训练的可行性在很大程度上仍未得到探索,但可以从其他领域汲取关于建模和以数据为中心的观点的灵感。

    在此,研究人员首次尝试通过对超过 1000 万个细胞进行生成预训练来构建单细胞基础模型 scGPT。研究证明预训练模型在基因和细胞水平上捕获了有意义的生物学见解。通过在少量学习设置中进行微调,该模型在广泛的下游任务上实现了最先进的性能。

    scGPT  首先对来自细胞图谱的大规模 scRNA-seq 数据进行生成训练。对于下游应用,可以根据新数据微调预训练模型权重。scGPT 的核心组件包含带有用于生成训练的专门注意掩码的堆叠 Transformer 块。将 scGPT 应用于各种任务,包括多组学整合、batch 校正、细胞类型注释、遗传扰动预测和基因网络推理。输入包含三层信息:基因标记、表达值和条件标记。


  • 原文来源:https://www.biorxiv.org/content/10.1101/2023.04.30.538439v1
相关报告
  • 《合成生物学突破了细胞》

    • 来源专题:人类遗传资源和特殊生物资源流失
    • 编译者:yanyf@mail.las.ac.cn
    • 发布时间:2019-04-18
    • 细胞是自然界最伟大的工程技术之一。它们包含在我们身体整个生命周期的说明中。它们是地球上所有生命的重要组成部分。但他们也有其局限性。 细胞必须存活才能产生蛋白质,这是合成生物学研究的主要兴趣领域之一。这带来了许多挑战。实验室培养的蛋白质传统上是使用基于哺乳动物细胞,酵母和大肠杆菌的表达系统在体内产生的。该方法使用质粒表达所需的蛋白质。但转化的过程 - 将特定基因引入细胞以供质粒编码 - 非常耗时。即使在产生预期的蛋白质后,它们仍然可以被困在细胞中。必须裂解细胞,通常需要化学,酶促或机械过程,因此可以纯化蛋白质。总而言之,通过质粒进行蛋白质表达是非常费力的。此外,它不适合高通量蛋白质表达和筛选,这是任何生产平台满足现代合成生物学需求的重要组成部分。 然后,当然,细胞死亡的事实。实验室中的细胞需要在接近理想生活条件的情况下保持快乐。研究人员还必须确保不要指导会无意中杀死宿主大肠杆菌细胞的蛋白质表达。为了产生某些更有毒的蛋白质,必须添加整个前体相 - 耗费时间,金钱和不小的挫折感。有些项目根本不可能,因为没有办法规避蛋白质与前体相的毒性。 因此,与活细胞一样重要的是生命,它们的局限性造成了21世纪生物学进步的瓶颈。是不是更容易取消细胞的“活”部分并保持其余部分? 打破细胞 无细胞蛋白质表达就是这样。该技术保留了细胞的组成机制,但却留下了细胞培养和保存的麻烦。这开辟了一个充满可能性的世界。现在,可以快速,一致且可靠地生成感兴趣的蛋白质。这些蛋白质的活力也可以以相同的快速速度进行测试。 西北大学Michael Jewett博士与SynBioBeta讨论了高产无细胞基因表达的进展。 “这些进步为通过遗传电路的模型驱动设计,快速便携的化合物传感和下一代教育工具包的新方法,深刻改变合成生物学提供了令人兴奋的机会。” Jewett博士还看到了“按需生物制造疫苗和治疗剂”的无细胞效益。这对于开发新的抗生素尤为重要,特别是随着全球抗生素耐药性的增加。 像Arbor Biosciences这样的公司可以轻松地让任何研究人员都能使用无细胞技术,这使他们成为研发和合成生物学市场的领导者。他们的无细胞蛋白质表达平台myTXTL®使用主混合物创造一个开放式反应环境,不受细胞壁或细胞膜的限制。主混合物包含大肠杆菌的所有代谢功能,包括转录(TX),翻译(TL)和蛋白质折叠机制,以及氨基酸和ATP再生系统。但事实上,它并不是一个活生生的有机体。掌握了混合物,“表达您感兴趣的蛋白质所需的一切都是DNA模板,质粒或线性DNA,管和移液管,”myTXTL产品开发科学家Evelyn Eggestein博士说。 “它易于访问和控制。” “用户友好”是合成生物学不断发展的关键因素。只有最专业的专家才能在该领域工作的日子正在迅速消失。致力于SynBioBeta的作家Ian Haydon将今天的合成生物学与50年前的计算技术进行了比较:仅限专家。但是,像myTXTL这样易于使用的平台是推进和简化生物技术的下一步。考虑到myTXTL平台还可以与线性DNA片段结合使用,尤其是IDT和Twist等几个提供者可以在不克隆到质粒载体的情况下筛选数百万个DNA样本,从而可以对其进行廉价和序列完善。这种类型的筛选可用于基础研究以及新型诊断工具。 多家公司以及Arbor Biosciences支持的几个iGEM团队正在开发基于家庭妊娠试验形状因子的纸质分析。这些类似卡片的测试包含干燥的主混合物,生物传感器和荧光报道分子。完成测试所需的全部是生物样本本身。这些易于携带的口袋大小的测试有可能迅速识别,帮助减缓甚至控制疾病爆发。它们还可以辅助现场诊断,特别是如果没有冷藏,或者用于筛选实验室覆盖率差的发展中地区的遗传条件。 基于纸张的形状因子的潜力不仅与地球有关。冷冻干燥的混合物可以带到火星上,用水润湿,然后vo!蛋白质生产进入火星。这种深远的思维方式与对合成生物学在太空中应用的日益认可相一致。与往常一样,合成生物学领域的人们正在展望未来。 无细胞技术的未来是什么样的? 现在,Arbor Biosciences已成功开发出适合高通量筛选的平台,其营销总监Matthew Hymes设想开发具有扩展新功能和特性的无细胞系统。 “E.大肠杆菌只有这么多基本机器,“Hymes解释道。 “那么我们可以在无细胞系统中添加其他元素来驱动特定蛋白质折叠或添加翻译修饰吗?”答案是:是的,我们可以!传统(体内)蛋白质生产平台已经找到了如何生产通常不在细菌细胞质中折叠的蛋白质的解决方案,或者如何用小分子对蛋白质进行位点特异性标记以用于治疗和诊断用途。 “现在是时候将这些方法适应并整合到无细胞系统中,”Eggenstein博士说。 Jewett博士还强调,无细胞系统“是代谢工程进化的下一个阶段。”“[这些系统]为在活细胞和扩大规模实施之前调试和优化生物合成途径提供了令人兴奋的机会。”他们可以还可以执行“设计 - 构建 - 测试”迭代,而无需重新设计生物。当生物转化产率,生产力或细胞毒性限制商业可行性时,它们甚至可以“进行分子转化”。 Hymes承认无细胞技术目前尚未完全处理完整代谢工程的复杂性。但是,当他谈到无细胞代谢工程时,它的语气是“何时”,而不是“如果”。超出当前前沿的科学的确切性质是未知的。但可以肯定的是,未来正在突飞猛进。 Arbor Biosciences的团队已经准备好张开双臂。 ——文章发布于2019年4月5日
  • 《数字细胞生物学公司Berkeley Lights启动1.26亿美元IPO》

    • 来源专题:生物科技领域知识集成服务
    • 编译者:陈方
    • 发布时间:2020-09-10
    • 美国数字细胞生物学公司Berkeley Lights计划进行1.26亿美元的IPO募款,该公司于2020年7月13日宣布了IPO条款。该公司计划通过发行740万股股票的方式在纳斯达克上市,预期筹集1.26亿美元,价格区间为16至18美元。此前,Berkeley Lights已经经过了8轮融资,共计融资2.085亿美元。据公司财报,在截至2020年3月31日的12个月内该公司实现收入5800万美元。 Berkeley Lights成立于2011年,总部位于加利福尼亚州埃默里维尔,是全球领先的数据细胞生物学公司,致力于促进和加速生物制剂和其他基于细胞的产品的快速开发和商业化。该公司提供自动化的优化的工作流程、软件、消耗品、化学试剂,帮助科学家找到适合生产的最佳细胞。 该公司为药物开发和研发提供单细胞操纵平台——Berkeley Lights Platform,可以并行捕获数千个单个细胞的深表型、功能和基因型信息,还可以以最佳细胞的形式满足客户的实时生物学需求。这是捕获和解释生物学定性语言并将其转换成特定于单细胞的数字信息(称为“数字细胞生物学”)的新方法。截至2020年5月31日,Berkeley Lights提供了六种商业工作流程,结合了16种测定法和11种细胞类别,致力于通过其平台为抗体治疗、细胞治疗和合成生物学领域提供广阔且快速增长的市场。                        吴晓燕 编译自https://www.nasdaq.com/articles/digital-cell-biology-company-berkeley-lights-sets-terms-for-%24126-million-ipo-2020-07-13 原文标题:Digital cell biology company Berkeley Lights sets terms for $126 million IPO