《Nature | 用可编程生成模型照亮蛋白质空间》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-11-19
  • 本文内容转载自“ CNS推送BioMed”微信公众号。原文链接: https://mp.weixin.qq.com/s/h2bfRORefRZYwtO9svZ6fA

    2023年11月15日,Generate Biomedicines的研究人员在 Nature 期刊发表了题为Illuminating protein space with a programmable generative model的研究论文。

    30亿年的进化产生了极其多样的蛋白质分子,但蛋白质的全部潜力可能要大得多。利用这种潜力对计算和实验来说都是一个挑战,因为可能的蛋白质分子的空间比那些可能具有功能的分子的空间要大得多。

    该研究介绍了Chroma,这是一种蛋白质和蛋白质复合物的生成模型,可以直接对新的蛋白质结构和序列进行采样,并且可以调节以引导生成过程向所需的性质和功能方向发展。为了实现这一点,研究人员引入了一种尊重聚合物整体构象统计的扩散过程,一种有效的分子系统神经结构,可以通过亚二次尺度进行远程推理,通过预测残基间几何形状有效合成蛋白质三维结构的层,以及一种用于扩散模型的通用低温采样算法。

    Chroma通过外部约束下的贝叶斯推理来实现蛋白质设计,这些约束可以涉及对称性、子结构、形状、语义甚至自然语言提示。310种蛋白质的实验表征表明,从Chroma取样得到的蛋白质高度表达、折叠并具有良好的生物物理特性。设计的两种蛋白质的晶体结构与Chroma样品表现出原子一致性(主干均方根偏差约为1.0 a)。通过这种统一的蛋白质设计方法,研究人员希望加速蛋白质物质的编程,以造福人类健康,材料科学和合成生物学。

  • 原文来源:https://www.nature.com/articles/s41586-023-06728-8
相关报告
  • 《美国科研团队利用语言模型进行蛋白质编程,生成自然界不存在的蛋白质》

    • 来源专题:生物安全
    • 编译者:闫亚飞
    • 发布时间:2023-01-29
    • 据ScienceAI公众号12月24日消息,美国Facebook 的人工智能实验室(FAIR)发现ESM2语言模型通过学习深层语法,可生成天然蛋白质以外的新蛋白质,并可编程生成复杂和模块化的蛋白质结构。ESM2 通过学习深层语法,成功设计了152种蛋白质,其中35个与已知的天然蛋白质没有明显的序列匹配,同时其模型参数为150亿,是迄今为止最大的蛋白质语言模型。该研究用语言模型设计的蛋白质反映了连接序列和结构的深层模式,包括自然结构中出现的基序和已知蛋白质结构环境中未观察到的基序。实验结果表明,语言模型虽然只接受序列训练,但通过学习深层语法可以设计蛋白质结构,包括自然界中未出现过的蛋白质。
  • 《Nature | Cryo-em图中的自动模型构建和蛋白质识别 》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2024-02-29
    • 2024年2月26日,剑桥大学等机构的研究人员在Nature发表题为Automated model building and protein identification in cryo-EM maps的文章。 用原子模型解释电子冷冻显微镜 (cryo-em) 图需要高水平的专业知识和对三维计算机图形程序的劳动密集型手动干预。 该研究介绍了ModelAngelo,这是一种用于在cryo-em地图中自动构建原子模型的机器学习方法。通过将来自cryo-em图的信息与来自单个图形神经网络中的蛋白质序列和结构的信息相结合,ModelAngelo为与人类专家生成的蛋白质质量相似的蛋白质建立了原子模型。 对于核苷酸,ModelAngelo构建的骨架具有与人类相似的准确性。通过在隐马尔可夫模型序列搜索中使用每个残基的预测氨基酸概率,ModelAngelo在识别具有未知序列的蛋白质方面胜过人类专家。因此,ModelAngelo将消除瓶颈并提高cryo-em结构确定的客观性。