2024年7月4日,斯坦福大学医学院的研究人员在Science发表题为Unsupervised evolution of protein and antibody complexes with a structure-informed language model的文章。
仅根据序列信息训练的大型语言模型就能学习蛋白质设计的高级原理。然而,除了序列之外,蛋白质的三维结构决定了它们的特定功能、活性和可进化性。
该研究展示了一个使用蛋白质结构骨干坐标增强的通用蛋白质语言模型,它可以指导不同蛋白质的进化,而无需对单个功能任务进行建模。研究人员还证明,只在单链结构上训练过的 ESM-IF1 可以扩展到蛋白质复合物的工程设计。利用这种方法,研究人员筛选了用于治疗严重急性呼吸系统综合症冠状病毒 2(SARS-CoV-2)感染的两种治疗性临床抗体的约 30 个变体。研究人员对抗体逃逸的病毒变体 BQ.1.1 和 XBB.1.5 的中和能力和亲和力分别提高了 25 倍和 37 倍。这些发现凸显了整合结构信息来识别高效蛋白质进化轨迹的优势,而不需要任何特定任务的训练数据。