2024年11月15日,Arc研究所的 Patrick D. Hsu 和 Brian L. Hie 团队在国际顶尖学术期刊 Sciencce 上发表了题为:Sequence modeling and design from molecular to genome scale with Evo 的研究论文,该论文还被选为当期的封面论文。
该研究开发了从分子到基因组尺度都能进行预测和生成任务的基因组基础模型——Evo模型。这是第一个在全基因组规模上以单核苷酸分辨率预测和生成DNA序列的模型。
通过对整个基因组信息进行学习,Evo模型能够学习微小的核苷酸序列变化如何影响整个生物体的适应性,从而预测哪些基因对于生物体至关重要,还能够生成长度超过百万碱基对的具有合理基因组结构的DNA序列。研究团队还使用Evo模型生成了CRISPR-Cas分子复合物和IS200/IS605转座子,并验证了它们的功能活性,这也是首次通过语言模型实现蛋白质-RNA和蛋白质-DNA协同设计的实例。