发表机构:中国科学院遗传与发育生物学研究所
作 者:高彩霞(通讯作者)
蛋白质工程通过人工改变氨基酸序列修饰蛋白质功能,但传统策略依赖经验,存在实验周期长、成本高的问题。虽人工智能模型为蛋白质工程提供新方向,但现有模型通用性欠佳,且训练与验证成本高昂,亟需开发高效、普适且无需复杂训练的计算模拟策略。蛋白质逆折叠模型通过天然蛋白数据训练,能学习蛋白质骨架特性与序列分布模式,为解决上述问题提供思路。
该研究团队基于通用逆折叠模型开发了AiCE方法,包含AiCEsingle和AiCEmulti两个模块。AiCEsingle模块针对单氨基酸替换预测:基于蛋白质三维结构,对逆折叠模型输出序列采样,提名高频氨基酸,再经结构约束差异筛选得到结果。60个深度突变扫描数据测试显示,其预测准确率达16%;消融实验证明结构限制使性能提升37%;平行对比表明,它比常见AI模型性能提升 36%-90% 以上。该模块对CRISPR蛋白、SARS-CoV-2病毒蛋白等复杂蛋白及蛋白质-核酸复合物均有效,通用性广泛。
为克服突变组合的负向上位效应,团队构建AiCEmulti模块,通过预测进化耦合性确定突变组合位置。6个突变文库分析显示,其预测能力与蛋白质大模型SaProt相当,但计算成本极低。AiCE方法无需重新训练专有蛋白模型,极大降低计算成本,识别含 1000多个氨基酸的SpCas9蛋白单突和双突变体仅需1.15个CPU 时。
在湿实验层面,研究团队利用AiCE方法成功验证了脱氨酶、核定位序列等8种结构和功能多样蛋白质的进化效果。借助优化的脱氨酶,开发出多种新型碱基编辑器:enABE8e编辑窗口缩小近一半,enSdd6-CBE保真度提升1.3倍,enDdd1-DdCBE活性提升13倍,这些成果在精准医疗和分子育种领域具重要应用价值。
AiCE方法在效率、可扩展性和通用性上显著优于传统方案,通过利用通用模型降低计算负荷,让更多实验室能享受到AI技术的科研便利,为蛋白质工程领域提供了高效普适的计算模拟新策略,推动了计算模拟替代湿实验这一生命科学前沿方向的发展。该研究得到农业农村部项目、国家自然科学基金、国家重点研发计划、北京市科学技术委员会和新基石科学基金等项目的资助。
发表日期:2025-07-07