《Science | 利用结构信息语言模型实现蛋白质和抗体复合物的无监督进化》

  • 编译者: 李康音
  • 发布时间:2024-07-12
  • 2024年7月4日,斯坦福大学医学院的研究人员在Science发表题为Unsupervised evolution of protein and antibody complexes with a structure-informed language model的文章。

    仅根据序列信息训练的大型语言模型就能学习蛋白质设计的高级原理。然而,除了序列之外,蛋白质的三维结构决定了它们的特定功能、活性和可进化性。

    该研究展示了一个使用蛋白质结构骨干坐标增强的通用蛋白质语言模型,它可以指导不同蛋白质的进化,而无需对单个功能任务进行建模。研究人员还证明,只在单链结构上训练过的 ESM-IF1 可以扩展到蛋白质复合物的工程设计。利用这种方法,研究人员筛选了用于治疗严重急性呼吸系统综合症冠状病毒 2(SARS-CoV-2)感染的两种治疗性临床抗体的约 30 个变体。研究人员对抗体逃逸的病毒变体 BQ.1.1 和 XBB.1.5 的中和能力和亲和力分别提高了 25 倍和 37 倍。这些发现凸显了整合结构信息来识别高效蛋白质进化轨迹的优势,而不需要任何特定任务的训练数据。

相关报告
  • 《Nature | 用可编程生成模型照亮蛋白质空间》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2023-11-20
    • 本文内容转载自“ CNS推送BioMed”微信公众号。原文链接: https://mp.weixin.qq.com/s/h2bfRORefRZYwtO9svZ6fA 2023年11月15日,Generate Biomedicines的研究人员在 Nature 期刊发表了题为Illuminating protein space with a programmable generative model的研究论文。 30亿年的进化产生了极其多样的蛋白质分子,但蛋白质的全部潜力可能要大得多。利用这种潜力对计算和实验来说都是一个挑战,因为可能的蛋白质分子的空间比那些可能具有功能的分子的空间要大得多。 该研究介绍了Chroma,这是一种蛋白质和蛋白质复合物的生成模型,可以直接对新的蛋白质结构和序列进行采样,并且可以调节以引导生成过程向所需的性质和功能方向发展。为了实现这一点,研究人员引入了一种尊重聚合物整体构象统计的扩散过程,一种有效的分子系统神经结构,可以通过亚二次尺度进行远程推理,通过预测残基间几何形状有效合成蛋白质三维结构的层,以及一种用于扩散模型的通用低温采样算法。 Chroma通过外部约束下的贝叶斯推理来实现蛋白质设计,这些约束可以涉及对称性、子结构、形状、语义甚至自然语言提示。310种蛋白质的实验表征表明,从Chroma取样得到的蛋白质高度表达、折叠并具有良好的生物物理特性。设计的两种蛋白质的晶体结构与Chroma样品表现出原子一致性(主干均方根偏差约为1.0 a)。通过这种统一的蛋白质设计方法,研究人员希望加速蛋白质物质的编程,以造福人类健康,材料科学和合成生物学。
  • 《利用宏基因组序列测定蛋白质结构》

    • 来源专题:转基因生物新品种培育
    • 编译者:Zhao
    • 发布时间:2017-02-21
    • 尽管结构生物学家们努力了几十年,仍然有约5200个蛋白质家族的结构还处于未知状态。该文献揭示了由进化信息推断的残基接触指导下的Rosetta结构预测可以准确地模拟出蛋白质所属家族,并发现为准确建模宏基因组序列数据将三倍于蛋白质家族数量充足的基因序列数据。我们整合了宏基因数据、基于接触的结构匹配和Rosetta结构计算来为614个目前结构未知的蛋白质家族建模,其中206个膜蛋白,137个未展示的蛋白在蛋白数据库中没有体现。这种方法为最初设想为蛋白结构计划目标的一小部分的蛋白质大家族提供了代表性的模型。