《Nature | 两项研究利用AlphaFold蛋白质结构数据库探索蛋白质宇宙》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-09-26
  • 2023年9月13日,Nature 期刊同期发表了两篇研究论文,这两项研究利用AlphaFold蛋白质结构数据库,让我们得以探索此前未知的蛋白质宇宙,通过分析比较蛋白质结构,发现了蛋白质中前所未见的新形状,揭示了蛋白质之间意想不到的联系,给黑暗中的“蛋白质宇宙”带来光亮。

    对首尔国立大学的计算生物学家 Martin Steinegger 来说,他感兴趣的是绘制整个数据库中蛋白质之间的关系。为了实现这一目标,他与苏黎世联邦理工学院的计算生物学家 Pedro Beltrao 合作,他们开发了一种基于结构对齐的聚类算法——Foldseek cluster,可以根据蛋白质形状的相似性,快速比较AlphaFold蛋白质结构数据库中的每个结构。使用这一新算法,他们在AlphaFold蛋白质结构数据库中识别了230多万个形状相似的蛋白质簇。该研究以:Clustering-predicted structures at the scale of the known protein universe 为题,发表在了 Nature 期刊上。

    来自巴塞尔大学的 Joana Pereira 和 Torsten Schwede 等人采用了一种略有不同的方法来阐明蛋白质宇宙中的暗物质。这项研究强调了大规模工作在识别、注释和确定新蛋白家族方面的价值。通过利用蛋白质生物信息学中最近的深度学习的革命性进展,我们能够以前所未有的规模揭示蛋白质宇宙的未知领域,为生命科学和生物技术的创新铺平道路。该研究以:Uncovering new families and folds in the natural protein universe 为题,发表在了 Nature 期刊上。

    本文内容转载自“生物世界”微信公众号。原文链接: https://mp.weixin.qq.com/s/IFCXBqvYRC_J-IsqH5X7jA

相关报告
  • 《Nature | 超越蛋白质:AlphaFold3预测复杂生物分子结构》

    • 编译者:李康音
    • 发布时间:2024-05-10
    • 2024年5月8日,谷歌Deep Mind的John M. Jumper通讯在Nature发表题为Accurate structure prediction of biomolecular interactions with AlphaFold 3的文章,推出了AlphaFold 3(AF3),能够超高精度预测各种生物分子复合物的结构。这一成就代表着我们理解和操纵控制生物系统的复杂相互作用的能力的重大飞跃。 在其前身AlphaFold 2的成功基础上,新模型引入了实质性的架构和训练程序增强,以适应更广泛的化学结构,并提高数据效率。AF3的核心是一种基于扩散的方法,该方法直接预测原始原子坐标,无需专门处理键合模式和立体化学约束。AF3的真正威力在于其在不同生物分子相互作用中的卓越准确性。值得注意的是,AF3在预测蛋白质配体、蛋白质核酸和抗体抗原相互作用方面优于专业工具,甚至超过了最先进的对接方法。这种准确性延伸到涉及蛋白质、核酸、小分子、离子和修饰残基的复杂结构。 AF3的关键优势之一是其准确模拟共价修饰的能力,如键合配体、糖基化以及修饰的蛋白质和核酸残基。这种能力对于理解生物学过程背后复杂的分子机制和开发有针对性的治疗干预措施至关重要。研究人员使用最近的接口特定基准(interface-specific benchmark)仔细评估了AF3的性能,证明其优于已知最先进的方法。此外,该模型的置信度测量密切跟踪其准确性,为研究人员提供了一个可靠的预测可靠性指标。 虽然AF3代表着向前迈出的一大步,但研究人员承认存在某些局限性。其中包括偶尔的立体化学侵犯(stereochemical violation),如手性误差和原子碰撞,以及准确预测动力学行为和构象状态的挑战。此外,对某些目标的高度准确的预测可能需要生成多个预测并对其进行排序,从而产生额外的计算成本。 尽管存在这些局限性,但AlphaFold 3的开发是生物分子结构预测领域的一项变革性成就。通过在统一的深度学习框架内对广泛的生物分子相互作用进行准确建模,AF3有望加速我们对细胞调节的理解,并为合理的治疗设计铺平道路。随着计算和实验方法继续并行发展,这些方法之间的协同作用无疑将推动我们进入一个前所未有的结构见解时代,开启生物学理解和治疗发展的新前沿。
  • 《大数据方法预测蛋白质结构》

    • 来源专题:转基因生物新品种培育专项服务
    • 编译者:Zhao
    • 发布时间:2017-02-16
    • 蛋白质的结构决定其功能。 实验蛋白结构测定是繁琐和昂贵的,这已经驱动了从序列信息预测蛋白质结构的方法的探索。(1) 约一半的已知蛋白质适于比较模拟; 也就是说,已知结构的正在演化中的相关蛋白可以用作模拟未知结构的样本。 对于剩余的蛋白质,没有发现令人满意的解决方案。(2)最近开发的方法用于预测蛋白质氨基酸接触与微生物DNA的宏基因组学的蛋白质序列组合以计算622个蛋白质家族的可靠模型,并且发现了100多个新的折叠。 宏基因组学数据的快速增长能够使更多的蛋白家族的结构预测变得更可靠。