《AI 破译植物 DNA:语言模型将改变基因组学和农业》

  • 来源专题:农机装备
  • 编译者: 江浩
  • 发布时间:2025-06-03
  • 信用:作者图 3 基因组序列和语言序列之间的相似性。Newswise — 通过利用基因组序列和自然语言之间的结构相似性,这些 AI 驱动的模型可以解码复杂的遗传信息,从而为植物生物学提供前所未有的见解。面对全球挑战,这一进步有望加速作物改良、加强生物多样性保护和加强粮食安全。

    传统上,植物基因组学一直在努力解决庞大而复杂的数据集的复杂性,这些数据集通常受到传统机器学习模型的特殊性和注释数据的稀缺性的限制。虽然 LLM 已经彻底改变了自然语言处理等领域,但它们在植物基因组学中的应用仍处于起步阶段。主要障碍是调整这些模型来解释植物基因组的独特“语言”,这与人类的语言模式有很大不同。本研究解决了这一差距,探索了如何定制 LLM 以有效地理解和预测植物遗传功能。

    海南大学邹美玲、柴海伟和夏志强团队于 2025 年 4 月 14 日发表在《热带植物》上的一项研究 (DOI: 10.48130/tp-0025-0008) 详细介绍了 LLM 在基于大量植物基因组数据进行训练时如何准确预测基因功能和调控元件。

    在这项研究中,研究人员探索了 LLM 在植物基因组学中的潜力。通过在自然语言和基因组序列的结构之间进行相似之处,该研究强调了如何训练 LLM 来理解和预测植物中的基因功能、调节元件和表达模式。该研究讨论了各种 LLM 架构,包括仅编码器模型(如 DNABERT)、仅解码器模型(如 DNAGPT)和编码器-解码器模型(如 ENBED)。该团队采用了一种方法,该方法涉及在植物基因组序列的大量数据集上对 LLM 进行预训练,然后使用特定的注释数据进行微调以提高准确性。通过像处理语言句子一样处理 DNA 序列,这些模型可以识别遗传密码中的模式和关系。这些模型在启动子预测、增强子鉴定和基因表达分析等任务中显示出前景。值得注意的是,已经开发了 AgroNT 和 FloraBERT 等植物特异性模型,在注释植物基因组和预测组织特异性基因表达方面表现出更好的性能。然而,该研究还指出,大多数现有的 LLM 都是在动物或微生物数据上训练的,这些数据通常缺乏全面的基因组注释,展示了 LLM 在不同植物物种中的多功能性和稳健性。为了解决这个问题,作者主张开发以植物为重点的 LLM,这些 LLM 在各种植物基因组数据集上进行训练,包括来自热带植物等代表性不足的物种的数据集。他们还强调了整合多组学数据和开发标准化基准以评估模型性能的重要性。

    总之,这项研究强调了将人工智能,特别是大型语言模型,整合到植物基因组学研究中的巨大潜力。通过弥合计算语言学和遗传分析之间的差距,LLM 可以彻底改变我们对植物生物学的理解,为农业、保护和生物技术的创新铺平道路。未来的研究将侧重于改进这些模型,扩展其训练数据集,并探索它们在实际农业场景中的应用,以充分利用其功能。

    ###

    引用

    数字对象标识符

    编号:10.48130/TP-0025-0008

    原始源 URL

    https://doi.org/10.48130/tp-0025-0008

    关于热带植物

    《热带植物》(E-ISSN 2833-9851)是海南大学的官方期刊,由最大学术出版社出版。《热带植物》经过严格的同行评审,并以开放获取的形式出版,以便快速传播研究成果,促进学术知识交流,并鼓励就热带植物研究中出现的创新技术和问题进行学术讨论。

    资金信息

    该研究得到了生物育种-国家科技重大专项(2023ZD04073)、三亚崖湾科技城项目(SCKJ-JYRC-2022-57)和YZBSTCACC高性能计算平台的支持。期刊链接:热带植物,2025 年 4 月请求专家

  • 原文来源:https://www.newswise.com/articles/ai-deciphers-plant-dna-language-models-set-to-transform-genomics-and-agriculture
相关报告
  • 《解锁植物育种的未来:基础基因组语言模型的力量》

    • 来源专题:农机装备
    • 编译者:袁雪
    • 发布时间:2025-05-06
    • 解锁植物育种的未来:基础基因组语言模型的力量植物育种一直是农业的基石,它使作物的开发生产力更高、适应性更强、适应性更强。传统上,育种者依靠统计方法(例如线性混合模型)来根据植物的基因组成来预测植物的表现。然而,在产量等高度复杂的农艺性状的情况下,这些传统方法在解释复杂的逐个基因和逐个环境的基因相互作用的能力方面存在严重限制。机器学习 (ML) 模型能够对这些复杂的交互进行建模,与传统方法相比,具有更强的预测能力,尤其是在数据丰富的情况下。ML 的一个主要优势是,它的性能随着数据的变化而呈爆炸式增长:模型训练的数据越多,它的性能就越优于统计方法。这就是为什么大型多环境试验可以显著改善基于 ML 的预测,帮助育种者做出更明智的决策。但这也带来了一个挑战:获取足够的数据以充分利用 ML 模型的潜力。 数据稀缺的挑战 虽然 ML 对育种者来说前景广阔,但它在预测能力方面满足高期望的能力受到数据可用性的限制。收集这些数据集需要在不同的环境中进行广泛的现场试验和先进的基因组测序,这不仅耗费资源,而且成本高昂。此外,这些数据集通常是专有的,竞争使得组合来自不同来源的信息变得不可行,除非育种公司同意共享他们的数据并进行合作。这种数据稀缺一直是充分利用 ML 进行植物育种的主要瓶颈,人们很容易通过期望使用微小、不平衡的数据集来改变游戏规则的 ML 性能,从而将标准设置得太高。 游戏规则改变者:迁移学习 迁移学习为数据稀缺问题提供了强大的解决方案,迁移学习是一个开创性的深度学习概念,一直是计算机视觉、自然语言处理甚至医疗保健等领域 AI 革命的主要驱动力。从本质上讲,迁移学习允许在具有丰富数据的任务上训练的模型,通过利用大量现有知识来适应数据稀缺的不同但相似的任务。就像专业的意大利厨师比厨房新手更容易学习法国高级菜肴的复杂性一样,尖端的深度学习模型也能够在相关任务之间转移相关知识。这种非凡的能力导致了 AI 的一些非凡壮举,例如,它允许在数十亿张图像上预先训练的计算机视觉模型识别常见的日常物体,并在有限数量的医学图像上进行微调,并达到(甚至超过)放射科医生诊断癌症的性能。在类似环境中的任务之间转移基础知识确实可以带来惊人的结果。 基因组语言模型:植物育种的新前沿 迁移学习在缓解植物育种中数据稀缺挑战方面最有前途的应用是基因组语言模型 (GLM) 的形式。这些模型在大量基因组序列上进行训练,使它们能够理解 DNA 的语言。正如 GPT-3 [1] 等人类大型语言模型 (LLM) 理解人类语言的结构,并且可以进行微调以翻译、推理甚至写诗一样,GLM 经过训练以获得对基因序列结构的基本理解。由于进化对许多物种的基因组塑造了相似,因此许多基因组信息不仅可以在单个基因型之间转移,而且可以在不同物种之间转移。 GLM 的最新进展堪称开创性。像 ESMFold [2] 这样的模型通过从核苷酸序列中以原子分辨率准确预测蛋白质结构,彻底改变了生物学。在转录组(例如,Geneformer [3])或 DNA 序列(例如,Nucleotide Transformer [4]、Genomic Pre-Trained Network [5])上预先训练的其他基础 GLM 在微调后,即使在低数据设置下,也能在各种任务中提供准确的预测。此类基准测试任务包括染色质谱预测、识别剪接位点和转录因子结合位点、检测启动子区域,甚至预测全基因组变异效应。这些曾经是劳动密集型且容易出错的任务,而通过迁移学习实现自动化的巨大成功清楚地表明了 GLM 理解复杂生活语言的能力。最新一代的开源 GLM 专门针对作物物种的 DNA 进行了预训练(例如 AgroNT [6]),为农业技术领域开辟了新的领域。 图 1 基因组 LLM 可以分析顺序数据(如 DNA 序列、ATAC-seq、Hi-C)和非序列数据(如单细胞 RNA-seq、大量转录组、多组)。他们找到模式来预测事物,例如功能区域、致病 SNP 和基因表达。首先,他们从数据中学习(训练),并接受微调或提示执行特定任务。(改编自 Consens et al., 2023)[7] 特征预测的微调:挑战和解决方案 当然,微调这些预先训练的基因组模型以进行性状预测并非没有挑战。一个主要障碍是需要捕获基因组中的长程相互作用。例如,了解遗传变异对基因表达的影响很复杂,因为它通常涉及基因组内长距离的相互作用。一些调控效应可以跨越数百万个碱基对,这意味着模型必须能够处理非常长的遗传数据序列。尽管性能最好的语言模型(包括 ChatGPT)基于 transformer 架构,但它们在处理极长的上下文方面存在不足。语言模型架构的最新创新,如 Hyena [8] 和 Mamba [9],已经克服了这一主要障碍,并为基础 GLM(例如 HyenaDNA [10]、PlantCaduceus [11])的出现铺平了道路,这些 GLM 能够快速处理长达 100 万个碱基对的序列,并以单核苷酸分辨率完成。 此外,为了使基因组模型在预测育种中有效,它们必须能够理解基因表达等位基因变异的影响。这需要来自各种基因型的数据来微调 GLM。尽管全基因组序列是实现此目的的理想选择,但伪组装(可以通过更实惠的测序技术生成的基因组的部分表示)可以提供一种具有成本效益的临时解决方案,以创建足够大的数据集来微调这些模型。使 GLM 长期获得最终成功的一个关键因素是基因组测序成本的快速降低。虽然在 90 年代,人类基因组计划 [12] 耗资数十亿美元,而在 2010 年,对全基因组进行测序的成本仍然约为 10,000 美元,但到今天,价格下降到仅 100 美元 [13]——在过去十年中下降了 100 倍,令人震惊。成本的大幅降低意味着,对大量基因型进行全基因组测序预计很快就会在经济上变得可行。 植物育种者的行动呼吁 — 拥抱 AI 时代 随着我们进入人工智能和基因组学融合的时代,植物育种公司拥有前所未有的机会来采用这些尖端技术。通过利用 AI 的力量,育种者可以在预测复杂性状方面将精度和效率提升到新的水平。这些进步不仅有可能加速有弹性、高产植物品种的开发,而且还有可能降低育种计划所需的成本和时间。气候变化加剧了全球粮食危机,需要创新的解决方案。基础基因组语言模型为释放预测育种的全部潜力提供了变革性的机会。通过采用 AI 驱动的工具,植物育种者可以在下一个突破重塑行业之前,将自己定位在作物开发新时代的前沿。 现在是投资 AI 并引领迈向更可持续和粮食安全世界的时候了。工具是可用的,科学是经过验证的,需求是紧迫的。让我们共同发展未来。 引用 [1] Brown, T. B., et al. (2020):语言模型是少数镜头学习者,arXiv:2005.14165 [https://doi.org/10.48550/arXiv.2005.14165] [2] Lin, Z. 等人 (2023):使用语言模型对原子级蛋白质结构进行进化尺度预测,科学,379,6637 [https://doi.org/10.1126/science.ade2574] [3] Theodoris, C.V., et al. (2023):迁移学习在网络生物学中实现预测,Nature, 618, 616 [https://doi.org/10.1038/s41586-023-06139-9] [4] Dalla-Torre, H., et al. (2025):核苷酸转换器:为人类基因组学构建和评估稳健的基础模型,Nature Methods,22, 287 [https://doi.org/10.1101/2023.01.11.523679] [5] Benegas, G., et al. (2023):DNA 语言模型是全基因组变异效应的强大预测因子,PNAS,120,44 [https://doi.org/10.1073/pnas.2311219120] [6] Mendoza-Revilla, J. 等人 (2023):可食用植物基因组的基础大型语言模型,bioRxiv:2023.10.24.563624 [https://www.biorxiv.org/content/10.1101/2023.10.24.563624v1] [7] Consens, Micaela E., et al. (2023):《变形金刚及其他:基因组的大型语言模型》,arXiv 预印本 arXiv:2311.07621 [https://arxiv.org/abs/2311.07621] [8] Poli, M. 等人 (2023):鬣狗层次结构:迈向更大的卷积语言模型,arXiv:2302.10866 [https://doi.org/10.48550/arXiv.2302.10866] [9] Gu, A. & Dao, T. (2024):Mamba:具有选择性状态空间的线性时间序列建模,arXiv:2312.00752 [https://doi.org/10.48550/arXiv.2312.00752] [10] Nguyen, E., et al. (2023):鬣狗DNA:单核苷酸分辨率的长距离基因组序列建模,神经信息处理系统进展,36, 43177 [https://doi.org/10.48550/arXiv.2306.15794] [11] Zhai, J., et al. (2024):使用预先训练的 DNA 语言模型以单核苷酸分辨率对植物基因组进行跨物种建模,bioRxiv:2024.06.04.596709 [https://doi.org/10.1101/2024.06.04.596709] [12] 国际人类基因组测序联盟 (2001):人类基因组的初始测序和分析,自然,409,860 [https://doi.org/10.1038/35057062] [13] https://www.science.org/content/article/100-genome-new-dna-sequencers-could-be-game-changer-biology-medicine
  • 《遗传所破译模式植物金鱼草基因组》

    • 来源专题:生物科技领域知识集成服务
    • 编译者:陈方
    • 发布时间:2020-04-08
    • 金鱼草(Antirrhinum majus L.)也称龙头花(snapdragon),一直作为分子和发育遗传学的模式作物,很多关键基因是在金鱼草中被首次发现。金鱼草中内在活跃的转座子促进了基因的分离和分析。但是,迄今为止,这些研究都是在缺少基因组序列条件下进行的,无法研究这些基因、转座子和性状的整体进化和遗传结构。 中国科学院遗传与发育生物学研究所薛勇彪研究组联合梁承志研究组、John Innes中心Enrico Coen研究组和华大基因等研究团队,利用第二代Illumina基因组测序平台和第三代PacBio单分子测序技术,结合遗传图谱辅助组装策略,完成了对栽培金鱼草(Antirrhinum majus cv. JI7)的全基因组序列测定。该研究结果于2019年1月29日在线发表在《自然-植物》期刊。 该研究得到了金鱼草8条染色体的分子序列510Mb,覆盖度为97.12%,注释了37714个蛋白编码基因,报告了一个近乎完整的金鱼草基因组。通过对序列的比较分析显示,车前科与茄科在大约六千二百万年前从其最近的祖先处分开并在大约四千六百万到四千九百万年前发生了全基因组复制事件,该全基因组复制对金鱼草中与花不对称性相关的TCP基因家族进化具有重要贡献。此外,该研究发现金鱼草的假S位点(ψS-locus)在大约2Mb的序列上含有102个基因,其中包含37个SLF基因但缺失S-RNase,提示该花柱因子的丢失是栽培金鱼草获得自交亲和性状的主要原因,并发现栽培金鱼草S-位点与野生金鱼草S-位点之间具有高度的共线性。综上,金鱼草基因组的破译将极大加速这个模式生物的基因组学和进化研究。