《Cell Syst | 上海药物所提出机器学习辅助定向进化新方法》

  • 来源专题:生物安全知识资源中心—领域情报网
  • 编译者: hujm
  • 发布时间:2023-08-21
  •  定向进化是模拟自然进化机制,利用现代分子生物学方法创造大量的突变基因文库,采用灵敏的定向筛选策略,创造出自然界并不存在的或改良特性的蛋白质等生物分子的一种方法。定向进化已广泛应用于蛋白质的分子改造和优化,被认为是生产具有改良或全新特性的蛋白质的高效方法,对于酶工程、多肽和大分子药物设计都具有重要意义。传统的定向进化实验流程包括:筛选测试大量突变序列的功能,将得到的最优序列作为亲本序列进行下一轮的突变和筛选,实行多轮突变筛选以得到功能优化的蛋白序列。然而,传统的定向进化方式容易陷入局部最优,且实验所得的突变序列空间非常受限。
      近年来,机器学习辅助定向进化得到越来越多的关注,通过计算机模型模拟实验筛选过程,可以显著减少实验筛选负担,提高筛选效率。机器学习方法最重要的是建立模型学习目标蛋白的序列突变体-功能的函数映射关系,这种映射关系被称为蛋白质适应度图景(protein fitness landscape),其中适应度(fitness)是一个抽象概念,可定量刻画特定蛋白质序列具有的某种生物学功能(比如蛋白的热稳定性、与其他蛋白质的相互作用强弱、催化特定酶促反应的效率等)。由于蛋白质功能不同,适应度图景本身的内涵也各不相同。此外,蛋白质突变效应数据难以获得,实验费时费力,蛋白质适应度图景十分复杂。因此,如何使用有限的实验数据学习蛋白质适应度图景以指导定向进化实验成为一个难题。
      中国科学院上海药物研究所郑明月课题组、廖苍松课题组提出了一种新的深度神经网络模型GVP-MSA,基于已有的不同类型的蛋白质适应度图景,通过迁移学习的方式构建新的目标蛋白的适应度图景。相关研究论文“Learning protein fitness landscapes with deep mutational scanning data from multiple sources”于2023年8月16日在Cell Systems在线发表。
      为了解决这些问题,研究团队首先从蛋白质热稳定性,上位性效应和序列保守性等多个方面探讨了适应度图景的共同机制。蛋白质发挥其功能的基础是能够折叠和维持稳定的三维结构,对不同蛋白的计算结果发现,突变导致适应度的变化和热稳定性变化的数值上有相关性。其次,上位性效应在不同蛋白的适应度图景中也隐含有相似机制。上位性效应表示残基在蛋白质中存在相互作用,导致多点突变效应并不等于其组成的单点突变效应的加和。研究团队发现在不同蛋白适应度图景中,具有正向上位效应的双点突变的两个氨基酸的位置在三维结构上更加接近。另外,突变效应与同源序列的隐含分布之间的关系也具有共性。这些共性是适应度图景迁移学习的基础(图1)。
      研究团队建立了一种新型的深度神经网络模型GVP-MSA,利用预训练的蛋白质语言模型处理目标蛋白的同源序列比对(MSA, multiple sequence alignment)信息,利用E-(3)等变图神经网络提取蛋白质三维结构信息,使用多任务学习的方式有效地学习整合不同维度、不同功能的蛋白质数据,从而泛化到新的目标蛋白体系。
      此外,研究团队设计了多种测试场景:单点突变效应的随机和按位置外推,对新蛋白质突变效应的零样本预测,以及由单点突变效应预测多点突变效应(图2)。这些场景模拟了在定向进化实验中不同阶段的实际需求。GVP-MSA在这三种测试情景中均有良好的表现,验证了适应度图景迁移学习的有效性。这一工作为机器学习辅助定向进化提供了新的思路,有助于更加高效地探索蛋白质序列突变空间,快速设计具有改良或全新特性的蛋白质序列。
      上海药物所郑明月研究员、廖苍松研究员为本文的共同通讯作者。上海药物所研究生陈琳为本文的第一作者。本研究得到了国家自然科学基金、临港实验室、国家重点研发计划、中国科学院青促会、上海市自然科学基金、以及上海药物所与上海中医药大学中医药创新团队联合研究项目资助。
      全文链接:https://doi.org/10.1016/j.cels.2023.07.003

  • 原文来源:http://www.simm.ac.cn/web/xwzx/kydt/202308/t20230818_6863511.html
相关报告
  • 《Nat Commun | 上海药物所提出基于序列的药物设计新方法》

    • 来源专题:生物安全知识资源中心—领域情报网
    • 编译者:hujm
    • 发布时间:2023-07-19
    •  自上世纪90年代以来,基于蛋白质结构的药物设计(SBDD)一直是创新药物发现的主流方法,在针对具有明确靶标的疾病治疗方面取得了重大进步。这种方法一般涉及多个步骤的复杂流程,包括建立蛋白质的三维(3D)结构,识别潜在的配体结合位点,并通过虚拟筛选或全新设计发现活性化合物等等。SBDD流程中的每个步骤都有其局限性,例如许多蛋白质并没有高分辨率的结构。虽然近年来的蛋白质结构预测技术如AlphaFold和RoseTTAFold有所突破,但并非所有预测的结构都适合进行基于结构的药物设计。精确预测配体结合口袋是一个挑战,因为这些局部结构往往违反“蛋白质折叠规则”,配体的结合也会诱导氨基酸构象发生变化。此外,由于变构效应的机制多样性,对具有多个结构域的新靶标如何确定配体结合位点也存在困难。最后,虚拟筛选可能会产生假阳性,误差和错误的不断累积会导致最后的严重的假阳性问题。   为了解决这些问题,中国科学院上海药物研究所郑明月团队提出了一种基于序列的药物设计新概念。这种“从序列到药物”(sequence-to-drug)的思路采用端到端的可微学习,直接从蛋白质序列出发进行药物设计发现,而无需经过上述多个中间步骤的复杂流程(图1)。端到端的可微深度学习已经在计算机视觉和自然语言处理等领域产生了革命性的影响,它用可微基元(differentiable primitives)取代了复杂流程的所有组件,从输入端到输出端进行联合优化。AlphaFold2在蛋白质结构预测的成功也很大程度上依赖于端到端可微学习的思想。这个概念具有吸引力地方在于它可以以一种自洽和数据高效的方式执行整个学习建模过程,可能避免了复杂流程中的错误积累。相关研究论文以“Sequence-based drug design as a concept in computational drug design”为题于2023年7月15日在Nature Communications在线发表。   尽管已经有深度学习研究报道可以基于蛋白质序列信息预测与化合物的相互作用,但是还没有一种模型完全验证了“从序列到药物”的药物设计概念。在这项工作中,研究团队设计了TransformerCPI2.0作为概念验证的基础模型。该模型利用Transformer神经网络架构和预训练蛋白质语言模型,在蛋白质和化学多样性空间中都展示出了泛化能力。对TransformerCPI2.0进行可解释分析,结果表明模型可以通过注意力机制从序列信息中有效学习蛋白质与配体分子间相互作用的抽象知识,而不仅是简单的记忆训练数据中的分布偏差。   为了进一步检验基于蛋白质序列药物设计的可行性,研究团队还基于TransformerCPI2.0预测结果开展了湿实验的验证研究,针对多种具有挑战性的药物靶标成功发现活性化合物,包括:靶向E3泛素连接酶接头蛋白SPOP(配体结合位点为难以靶向的PPI作用界面)的新骨架抑制剂(图2);靶向E3泛素连接酶RNF130(无蛋白晶体结构、无已知活性化合物)的结合分子。此外,通过逆向应用TransformerCPI2.0对已上市药物进行蛋白质组范围的靶标筛选,成功发现雷贝拉唑抗肿瘤作用的潜在靶标ADP-核糖基化因子ARF1。这些新发现的活性分子和靶标蛋白都是模型训练过程未见的,表明TransformerCPI2.0可以推广到新的蛋白质和化学空间,显示了良好的泛化能力。计算分析和实验结果支持基于序列药物设计的可行性,基于这一概念的新方法有望成为未来理性药物设计流程的重要组成部分。   这一工作通过计算机、信息学、化学和生物学等多学科融合交叉,为创新药物发现提供了新的视角。基于序列的方法可以作为基于结构药物设计的替代方法,在无法获得高质量蛋白质3D结构的场景中发挥作用,也可与其他虚拟筛选和高通量体外筛选技术结合,加速药物发现进程。最近,超大规模按需定制化合物库(make-on-demand library)技术快速发展,已覆盖了数亿到数十亿种化学物质的多样性空间,如何开发计算效率更高的虚拟筛选方法成为领域的研究热点。“从序列到药物”的端到端学习策略可以有效的简化建模和筛选流程,可以更加高效的探索未知化学和生物学空间,为原创药物的发现提供新的出发点和切入点。   上海药物所研究生陈立凡,南京中医药大学联合培养研究生樊子生、常婕,博士后杨瑞瑞和侯辉为本文共同第一作者。上海药物所郑明月研究员、张素林副研究员为本文共同通讯作者。本研究得到了国家自然科学基金、临港实验室、国家重点研发专项、中国科学院青促会和上海市自然科学基金项目的基金资助。 全文链接:https://www.nature.com/articles/s41467-023-39856-w
  • 《Nat Comput Sci | PBCNet:药物先导化合物优化的人工智能新方法》

    • 来源专题:生物安全知识资源中心—领域情报网
    • 编译者:hujm
    • 发布时间:2023-10-23
    •   先导化合物的结构优化(Lead optimization)是药物设计的核心环节,需要通过DMTA(设计-合成-测试-分析)的反复循环来提高化合物活性、特异性、成药性等性质。长期以来,先导化合物的活性优化高度依赖药物化学家的经验以及大量的人力和资源投入。基于结构的药物设计,尤其是高精度的结合自由能计算,可以通过部分模拟的DMTA循环来加速先导化合物活性优化过程。随着分子力场和构象采样算法的改进,自由能微扰(FEP)等相对结合自由能模拟方法的预测值与实验结果的误差可以接近化学精度(1 kcal/mol,约5-6倍活性差异以内),但这类方法通常需要复杂的配置与体系搭建过程。此外,消耗计算资源庞大、商业软件价格高昂等问题也限制了这类方法的应用范围。因此,开发一种兼顾速度、精度与易用性的先导化合物活性优化方法一直是药物设计领域的迫切需求。   近期,中国科学院上海药物研究所郑明月课题组提出了一种先导化合物优化的人工智能方法PBCNet(pairwise binding comparison network)。该方法采用孪生图卷积神经网络架构,通过比较一组相似配体的结合模式差异来预测二者之间的相对结合亲和力,可以较好的兼顾计算速度和精度。此外,研究团队还开发了易于操作的图形界面网络计算服务(https://pbcnet.alphama.com.cn/index)。相关研究论文“Computing Relative Binding Affinity of Ligands Based on a Pairwise Binding Comparison Network”于2023年10月19日于Nature Computational Science在线发表。   近年来,人工智能技术已逐渐成为药物研发领域中重要的技术手段之一。基于已知的结构和活性数据,如何引入合理的关系归纳偏置使得AI模型可以更有效的提取其中蕴含的物理化学知识和分子相互作用规律,是开发先导化合物优化方法的关键。在PBCNet中,模型采用了一种孪生网络架构(图1),可以较好的消除不同来源或实验测定条件下结合亲和力数据中存在的系统误差;考虑到分子间非键相互作用往往服从严格的几何先验,模型将原子之间的距离和化学键之间的角度信息编码作为注意力偏置项,有助于分子间相互作用信息的交互;此外,相对于二维拓扑图,模型同时引入距离和角度信息得到三维分子图,可以更全面的描述了蛋白-配体之间的分子结合信息。   研究团队设计了多种测试场景,对包括PBCNet在内的多种先导化合物优化方法进行了性能比较。在零样本学习方面, PBCNet的排序能力和预测精度均显著优于Schrödinger Glide、MM-GB/SA和多个近期报道的深度学习模型,在部分测试体系上的误差已接近于化学精度;在小样本学习方面,仅使用少量的结构活性数据对模型进行微调后PBCNet的排序性能已经可以接近或超过Schrödinger FEP+(图2),并且在计算速度方面相对FEP+有多个数量级的优势。对比结果显示,使用PBCNet可以使先导化合物优化项目平均加速约4.7倍,平均节省约30%的资源投入。此外,模型在原子和官能团水平的可解释性分析也反映了PBCNet预测结果的合理性。   本论文的第一作者为上海药物所研究生虞杰和苏州阿尔脉生物科技有限公司的李召军博士。上海药物所郑明月研究员、罗小民研究员、博士后李叙潼为本研究论文的共同通讯作者。本研究得到了国家自然科学基金、临港实验室、国家重点研发专项、中国博士后科学基金、上海市自然科学基金、上海药物所与上海中医药大学中医药创新团队联合研究项目、以及上海市科技重大专项资助。   全文链接:https://doi.org/10.1038/s43588-023-00529-9   Research Briefing: https://doi.org/10.1038/s43588-023-00531-1