《Cell | 通过整合结构和进化约束的逆折叠模型推进蛋白质进化》

  • 来源专题:战略生物资源
  • 编译者: 朱晓琳
  • 发布时间:2025-07-14
  • 发表机构:中国科学院遗传与发育生物学研究所

    作    者:高彩霞(通讯作者)

        蛋白质工程通过人工改变氨基酸序列修饰蛋白质功能,但传统策略依赖经验,存在实验周期长、成本高的问题。虽人工智能模型为蛋白质工程提供新方向,但现有模型通用性欠佳,且训练与验证成本高昂,亟需开发高效、普适且无需复杂训练的计算模拟策略。蛋白质逆折叠模型通过天然蛋白数据训练,能学习蛋白质骨架特性与序列分布模式,为解决上述问题提供思路。

        该研究团队基于通用逆折叠模型开发了AiCE方法,包含AiCEsingle和AiCEmulti两个模块。AiCEsingle模块针对单氨基酸替换预测:基于蛋白质三维结构,对逆折叠模型输出序列采样,提名高频氨基酸,再经结构约束差异筛选得到结果。60个深度突变扫描数据测试显示,其预测准确率达16%;消融实验证明结构限制使性能提升37%;平行对比表明,它比常见AI模型性能提升 36%-90% 以上。该模块对CRISPR蛋白、SARS-CoV-2病毒蛋白等复杂蛋白及蛋白质-核酸复合物均有效,通用性广泛。

        为克服突变组合的负向上位效应,团队构建AiCEmulti模块,通过预测进化耦合性确定突变组合位置。6个突变文库分析显示,其预测能力与蛋白质大模型SaProt相当,但计算成本极低。AiCE方法无需重新训练专有蛋白模型,极大降低计算成本,识别含 1000多个氨基酸的SpCas9蛋白单突和双突变体仅需1.15个CPU 时。

        在湿实验层面,研究团队利用AiCE方法成功验证了脱氨酶、核定位序列等8种结构和功能多样蛋白质的进化效果。借助优化的脱氨酶,开发出多种新型碱基编辑器:enABE8e编辑窗口缩小近一半,enSdd6-CBE保真度提升1.3倍,enDdd1-DdCBE活性提升13倍,这些成果在精准医疗和分子育种领域具重要应用价值。

        AiCE方法在效率、可扩展性和通用性上显著优于传统方案,通过利用通用模型降低计算负荷,让更多实验室能享受到AI技术的科研便利,为蛋白质工程领域提供了高效普适的计算模拟新策略,推动了计算模拟替代湿实验这一生命科学前沿方向的发展。该研究得到农业农村部项目、国家自然科学基金、国家重点研发计划、北京市科学技术委员会和新基石科学基金等项目的资助。

    发表日期:2025-07-07

  • 原文来源:https://www.cell.com/cell/abstract/S0092-8674(25)00680-4
相关报告
  • 《深度学习准确预测蛋白质折叠方式》

    • 来源专题:生物科技领域知识集成服务
    • 编译者:陈方
    • 发布时间:2020-09-11
    • 生命必需的基本生物过程几乎都是由蛋白质完成的。蛋白质由长长的氨基酸链通过折叠成精确的三维结构来实现功能,阐明蛋白质结构是所有分子生物学研究的重点。近年来,计算方法在基于氨基酸序列预测蛋白质折叠方面取得了重大进展。如果完全实现,这些方法有可能改变生物医学研究的几乎所有方向。然而,目前的方法在预测蛋白质的规模和范围方面还受到限制。 2019年4月24日Cell Systems报道,哈佛医学院系统生物学家Mohammed AlQuraishi利用深度学习来预测基于氨基酸序列的蛋白质的三维结构,其精确度可与目前最先进的方法相媲美,但速度提高了100万倍。 该研究用到的所谓的端到端可微深度学习,涉及到一个单一的、庞大的数学函数,它被形容为一个神经网络,网络的每个组成部分向前和向后提供信息。这个功能可以以难以想象的复杂程度一遍又一遍地调整自己,以准确地解析蛋白质序列在数学上是如何与其结构相互关联的。研究者发现,在预测没有预先存在模板的蛋白质结构方面,新模型优于所有其他方法,包括使用共同进化数据的方法。当用预先存在的模板来进行预测时,它的性能也比所有方法都好。更可喜的是,新模型的预测速度比现有的计算方法快6到7个数量级。训练这个模型可能需要几个月的时间,但一旦训练成功,它可以在几毫秒内做出预测,而使用其他方法需要几小时到几天的时间。 研究者表示,这个新模型还没有准备好用于药物发现或设计,因为它的精确度目前处于6埃左右——距离解析蛋白质的完整原子结构所需的1至2埃仍有一段距离。有很多方案可以用于优化这种模型,包括进一步整合化学和物理的规则等。 吴晓燕 编译自https://phys.org/news/2019-04-deep-learning-approach-protein-amino-acid.html 原文链接:https://www.sciencedirect.com/science/article/pii/S2405471219300766?via%3Dihub 原文标题:End-to-End Differentiable Learning of Protein Structure
  • 《Science | 利用结构信息语言模型实现蛋白质和抗体复合物的无监督进化》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2024-07-10
    • 2024年7月4日,斯坦福大学医学院的研究人员在Science发表题为Unsupervised evolution of protein and antibody complexes with a structure-informed language model的文章。 仅根据序列信息训练的大型语言模型就能学习蛋白质设计的高级原理。然而,除了序列之外,蛋白质的三维结构决定了它们的特定功能、活性和可进化性。 该研究展示了一个使用蛋白质结构骨干坐标增强的通用蛋白质语言模型,它可以指导不同蛋白质的进化,而无需对单个功能任务进行建模。研究人员还证明,只在单链结构上训练过的 ESM-IF1 可以扩展到蛋白质复合物的工程设计。利用这种方法,研究人员筛选了用于治疗严重急性呼吸系统综合症冠状病毒 2(SARS-CoV-2)感染的两种治疗性临床抗体的约 30 个变体。研究人员对抗体逃逸的病毒变体 BQ.1.1 和 XBB.1.5 的中和能力和亲和力分别提高了 25 倍和 37 倍。这些发现凸显了整合结构信息来识别高效蛋白质进化轨迹的优势,而不需要任何特定任务的训练数据。