《Science | 利用 Evo 进行从分子到基因组规模的序列建模和设计》

  • 来源专题:战略生物资源
  • 编译者: 朱晓琳
  • 发布时间:2024-11-16
  •   2024年11月15日,Arc研究所的 Patrick D. Hsu 和 Brian L. Hie 团队在国际顶尖学术期刊 Sciencce 上发表了题为:Sequence modeling and design from molecular to genome scale with Evo 的研究论文,该论文还被选为当期的封面论文。


      该研究开发了从分子到基因组尺度都能进行预测和生成任务的基因组基础模型——Evo模型。这是第一个在全基因组规模上以单核苷酸分辨率预测和生成DNA序列的模型。

      通过对整个基因组信息进行学习,Evo模型能够学习微小的核苷酸序列变化如何影响整个生物体的适应性,从而预测哪些基因对于生物体至关重要,还能够生成长度超过百万碱基对的具有合理基因组结构的DNA序列。研究团队还使用Evo模型生成了CRISPR-Cas分子复合物和IS200/IS605转座子,并验证了它们的功能活性,这也是首次通过语言模型实现蛋白质-RNA和蛋白质-DNA协同设计的实例。


  • 原文来源:https://www.science.org/doi/10.1126/science.ado9336
相关报告
  • 《Nature Genetics报道大规模肺癌易感性全基因组研究》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:黄翠
    • 发布时间:2017-07-25
    • 利物浦大学John Field教授领导的一个国际肺癌研究小组进行了一项研究,鉴定了一种新肺癌风险基因突变。他们的这项最新发现发表于Nature Genetics杂志。 肺癌对世界癌症死亡率的贡献一直“傲视群癌”。虽然普遍认为吸烟是造成肺癌的主要危险因素,但据估计仍有12%的病例发于基因组成变异。过去我们并不知晓这些基因变异的确切细节。 基因分型(genotyping)是通过检测个体DNA序列来确定个体基因组成(基因型)差异的实验过程。 一个名叫“OncoArray”的特殊研究平台专门收集世界各地的基因型数据,全世界的研究人员持续不断地增加该平台的样本数量,使其成为了世界最大的基因型数据平台。其中利物浦肺癌专项为这项庞大的国际工程做出了重大贡献。 发表在Nature Genetics杂志中的这项研究通过GWAS对29200例肺癌患者和56000例非肺癌患者(对照组)样本进行了基因筛查。更新了18种容易引发肺癌的遗传变异(包括胆碱烟碱受体、CHRNA2、 以及端粒相关基因OFBC1和RTEL1在内的基因位点),还有10种新基因突变(如RNASET2、SECISBP2L和 NRG1等)。
  • 《Science | 人类基因组转录起始的序列基础》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2024-04-29
    • 2024年4月26日,得克萨斯大学西南医学中心的研究人员在 Science 期刊发表了题为Sequence basis of transcription initiation in the human genome的文章。 转录起始是确保任何基因正常功能必不可少的一个过程,但我们仍然缺乏对序列模式和规则的统一认识,而这些模式和规则可以解释人类基因组中的大多数转录起始位点。 通过利用深度学习启发的可解释模型 Puffin 以碱基对分辨率预测序列中的转录起始点,研究人员发现一小套简单的规则就能解释大多数人类启动子的转录起始点。研究人员确定了有助于人类启动子活性的关键序列模式,每种模式都以不同的位置特异性效应激活转录。此外,研究人员还解释了启动子双向转录的序列基础,确定了不同细胞类型启动子序列与基因表达变异之间的联系,并探索了不同哺乳动物物种转录启动序列决定因素的保护。