《解锁植物育种的未来:基础基因组语言模型的力量》

  • 来源专题:农机装备
  • 编译者: 袁雪
  • 发布时间:2025-05-06
  • 解锁植物育种的未来:基础基因组语言模型的力量植物育种一直是农业的基石,它使作物的开发生产力更高、适应性更强、适应性更强。传统上,育种者依靠统计方法(例如线性混合模型)来根据植物的基因组成来预测植物的表现。然而,在产量等高度复杂的农艺性状的情况下,这些传统方法在解释复杂的逐个基因和逐个环境的基因相互作用的能力方面存在严重限制。机器学习 (ML) 模型能够对这些复杂的交互进行建模,与传统方法相比,具有更强的预测能力,尤其是在数据丰富的情况下。ML 的一个主要优势是,它的性能随着数据的变化而呈爆炸式增长:模型训练的数据越多,它的性能就越优于统计方法。这就是为什么大型多环境试验可以显著改善基于 ML 的预测,帮助育种者做出更明智的决策。但这也带来了一个挑战:获取足够的数据以充分利用 ML 模型的潜力。

    数据稀缺的挑战

    虽然 ML 对育种者来说前景广阔,但它在预测能力方面满足高期望的能力受到数据可用性的限制。收集这些数据集需要在不同的环境中进行广泛的现场试验和先进的基因组测序,这不仅耗费资源,而且成本高昂。此外,这些数据集通常是专有的,竞争使得组合来自不同来源的信息变得不可行,除非育种公司同意共享他们的数据并进行合作。这种数据稀缺一直是充分利用 ML 进行植物育种的主要瓶颈,人们很容易通过期望使用微小、不平衡的数据集来改变游戏规则的 ML 性能,从而将标准设置得太高。

    游戏规则改变者:迁移学习

    迁移学习为数据稀缺问题提供了强大的解决方案,迁移学习是一个开创性的深度学习概念,一直是计算机视觉、自然语言处理甚至医疗保健等领域 AI 革命的主要驱动力。从本质上讲,迁移学习允许在具有丰富数据的任务上训练的模型,通过利用大量现有知识来适应数据稀缺的不同但相似的任务。就像专业的意大利厨师比厨房新手更容易学习法国高级菜肴的复杂性一样,尖端的深度学习模型也能够在相关任务之间转移相关知识。这种非凡的能力导致了 AI 的一些非凡壮举,例如,它允许在数十亿张图像上预先训练的计算机视觉模型识别常见的日常物体,并在有限数量的医学图像上进行微调,并达到(甚至超过)放射科医生诊断癌症的性能。在类似环境中的任务之间转移基础知识确实可以带来惊人的结果。

    基因组语言模型:植物育种的新前沿

    迁移学习在缓解植物育种中数据稀缺挑战方面最有前途的应用是基因组语言模型 (GLM) 的形式。这些模型在大量基因组序列上进行训练,使它们能够理解 DNA 的语言。正如 GPT-3 [1] 等人类大型语言模型 (LLM) 理解人类语言的结构,并且可以进行微调以翻译、推理甚至写诗一样,GLM 经过训练以获得对基因序列结构的基本理解。由于进化对许多物种的基因组塑造了相似,因此许多基因组信息不仅可以在单个基因型之间转移,而且可以在不同物种之间转移。

    GLM 的最新进展堪称开创性。像 ESMFold [2] 这样的模型通过从核苷酸序列中以原子分辨率准确预测蛋白质结构,彻底改变了生物学。在转录组(例如,Geneformer [3])或 DNA 序列(例如,Nucleotide Transformer [4]、Genomic Pre-Trained Network [5])上预先训练的其他基础 GLM 在微调后,即使在低数据设置下,也能在各种任务中提供准确的预测。此类基准测试任务包括染色质谱预测、识别剪接位点和转录因子结合位点、检测启动子区域,甚至预测全基因组变异效应。这些曾经是劳动密集型且容易出错的任务,而通过迁移学习实现自动化的巨大成功清楚地表明了 GLM 理解复杂生活语言的能力。最新一代的开源 GLM 专门针对作物物种的 DNA 进行了预训练(例如 AgroNT [6]),为农业技术领域开辟了新的领域。



    图 1 基因组 LLM 可以分析顺序数据(如 DNA 序列、ATAC-seq、Hi-C)和非序列数据(如单细胞 RNA-seq、大量转录组、多组)。他们找到模式来预测事物,例如功能区域、致病 SNP 和基因表达。首先,他们从数据中学习(训练),并接受微调或提示执行特定任务。(改编自 Consens et al., 2023)[7]


    特征预测的微调:挑战和解决方案

    当然,微调这些预先训练的基因组模型以进行性状预测并非没有挑战。一个主要障碍是需要捕获基因组中的长程相互作用。例如,了解遗传变异对基因表达的影响很复杂,因为它通常涉及基因组内长距离的相互作用。一些调控效应可以跨越数百万个碱基对,这意味着模型必须能够处理非常长的遗传数据序列。尽管性能最好的语言模型(包括 ChatGPT)基于 transformer 架构,但它们在处理极长的上下文方面存在不足。语言模型架构的最新创新,如 Hyena [8] 和 Mamba [9],已经克服了这一主要障碍,并为基础 GLM(例如 HyenaDNA [10]、PlantCaduceus [11])的出现铺平了道路,这些 GLM 能够快速处理长达 100 万个碱基对的序列,并以单核苷酸分辨率完成。

    此外,为了使基因组模型在预测育种中有效,它们必须能够理解基因表达等位基因变异的影响。这需要来自各种基因型的数据来微调 GLM。尽管全基因组序列是实现此目的的理想选择,但伪组装(可以通过更实惠的测序技术生成的基因组的部分表示)可以提供一种具有成本效益的临时解决方案,以创建足够大的数据集来微调这些模型。使 GLM 长期获得最终成功的一个关键因素是基因组测序成本的快速降低。虽然在 90 年代,人类基因组计划 [12] 耗资数十亿美元,而在 2010 年,对全基因组进行测序的成本仍然约为 10,000 美元,但到今天,价格下降到仅 100 美元 [13]——在过去十年中下降了 100 倍,令人震惊。成本的大幅降低意味着,对大量基因型进行全基因组测序预计很快就会在经济上变得可行。

    植物育种者的行动呼吁 — 拥抱 AI 时代

    随着我们进入人工智能和基因组学融合的时代,植物育种公司拥有前所未有的机会来采用这些尖端技术。通过利用 AI 的力量,育种者可以在预测复杂性状方面将精度和效率提升到新的水平。这些进步不仅有可能加速有弹性、高产植物品种的开发,而且还有可能降低育种计划所需的成本和时间。气候变化加剧了全球粮食危机,需要创新的解决方案。基础基因组语言模型为释放预测育种的全部潜力提供了变革性的机会。通过采用 AI 驱动的工具,植物育种者可以在下一个突破重塑行业之前,将自己定位在作物开发新时代的前沿。


    现在是投资 AI 并引领迈向更可持续和粮食安全世界的时候了。工具是可用的,科学是经过验证的,需求是紧迫的。让我们共同发展未来。


    引用

    [1] Brown, T. B., et al. (2020):语言模型是少数镜头学习者,arXiv:2005.14165

    [https://doi.org/10.48550/arXiv.2005.14165]

    [2] Lin, Z. 等人 (2023):使用语言模型对原子级蛋白质结构进行进化尺度预测,科学,379,6637

    [https://doi.org/10.1126/science.ade2574]

    [3] Theodoris, C.V., et al. (2023):迁移学习在网络生物学中实现预测,Nature, 618, 616

    [https://doi.org/10.1038/s41586-023-06139-9]

    [4] Dalla-Torre, H., et al. (2025):核苷酸转换器:为人类基因组学构建和评估稳健的基础模型,Nature Methods,22, 287

    [https://doi.org/10.1101/2023.01.11.523679]

    [5] Benegas, G., et al. (2023):DNA 语言模型是全基因组变异效应的强大预测因子,PNAS,120,44

    [https://doi.org/10.1073/pnas.2311219120]

    [6] Mendoza-Revilla, J. 等人 (2023):可食用植物基因组的基础大型语言模型,bioRxiv:2023.10.24.563624

    [https://www.biorxiv.org/content/10.1101/2023.10.24.563624v1]

    [7] Consens, Micaela E., et al. (2023):《变形金刚及其他:基因组的大型语言模型》,arXiv 预印本 arXiv:2311.07621

    [https://arxiv.org/abs/2311.07621]

    [8] Poli, M. 等人 (2023):鬣狗层次结构:迈向更大的卷积语言模型,arXiv:2302.10866

    [https://doi.org/10.48550/arXiv.2302.10866]

    [9] Gu, A. & Dao, T. (2024):Mamba:具有选择性状态空间的线性时间序列建模,arXiv:2312.00752

    [https://doi.org/10.48550/arXiv.2312.00752]

    [10] Nguyen, E., et al. (2023):鬣狗DNA:单核苷酸分辨率的长距离基因组序列建模,神经信息处理系统进展,36, 43177

    [https://doi.org/10.48550/arXiv.2306.15794]

    [11] Zhai, J., et al. (2024):使用预先训练的 DNA 语言模型以单核苷酸分辨率对植物基因组进行跨物种建模,bioRxiv:2024.06.04.596709

    [https://doi.org/10.1101/2024.06.04.596709]

    [12] 国际人类基因组测序联盟 (2001):人类基因组的初始测序和分析,自然,409,860

    [https://doi.org/10.1038/35057062]

    [13] https://www.science.org/content/article/100-genome-new-dna-sequencers-could-be-game-changer-biology-medicine


  • 原文来源:https://www.computomics.com/news-reader/foundation-models-in-plant-breeding-.html
相关报告
  • 《AI 破译植物 DNA:语言模型将改变基因组学和农业》

    • 来源专题:农机装备
    • 编译者:江浩
    • 发布时间:2025-06-03
    • 信用:作者图 3 基因组序列和语言序列之间的相似性。Newswise — 通过利用基因组序列和自然语言之间的结构相似性,这些 AI 驱动的模型可以解码复杂的遗传信息,从而为植物生物学提供前所未有的见解。面对全球挑战,这一进步有望加速作物改良、加强生物多样性保护和加强粮食安全。 传统上,植物基因组学一直在努力解决庞大而复杂的数据集的复杂性,这些数据集通常受到传统机器学习模型的特殊性和注释数据的稀缺性的限制。虽然 LLM 已经彻底改变了自然语言处理等领域,但它们在植物基因组学中的应用仍处于起步阶段。主要障碍是调整这些模型来解释植物基因组的独特“语言”,这与人类的语言模式有很大不同。本研究解决了这一差距,探索了如何定制 LLM 以有效地理解和预测植物遗传功能。 海南大学邹美玲、柴海伟和夏志强团队于 2025 年 4 月 14 日发表在《热带植物》上的一项研究 (DOI: 10.48130/tp-0025-0008) 详细介绍了 LLM 在基于大量植物基因组数据进行训练时如何准确预测基因功能和调控元件。 在这项研究中,研究人员探索了 LLM 在植物基因组学中的潜力。通过在自然语言和基因组序列的结构之间进行相似之处,该研究强调了如何训练 LLM 来理解和预测植物中的基因功能、调节元件和表达模式。该研究讨论了各种 LLM 架构,包括仅编码器模型(如 DNABERT)、仅解码器模型(如 DNAGPT)和编码器-解码器模型(如 ENBED)。该团队采用了一种方法,该方法涉及在植物基因组序列的大量数据集上对 LLM 进行预训练,然后使用特定的注释数据进行微调以提高准确性。通过像处理语言句子一样处理 DNA 序列,这些模型可以识别遗传密码中的模式和关系。这些模型在启动子预测、增强子鉴定和基因表达分析等任务中显示出前景。值得注意的是,已经开发了 AgroNT 和 FloraBERT 等植物特异性模型,在注释植物基因组和预测组织特异性基因表达方面表现出更好的性能。然而,该研究还指出,大多数现有的 LLM 都是在动物或微生物数据上训练的,这些数据通常缺乏全面的基因组注释,展示了 LLM 在不同植物物种中的多功能性和稳健性。为了解决这个问题,作者主张开发以植物为重点的 LLM,这些 LLM 在各种植物基因组数据集上进行训练,包括来自热带植物等代表性不足的物种的数据集。他们还强调了整合多组学数据和开发标准化基准以评估模型性能的重要性。 总之,这项研究强调了将人工智能,特别是大型语言模型,整合到植物基因组学研究中的巨大潜力。通过弥合计算语言学和遗传分析之间的差距,LLM 可以彻底改变我们对植物生物学的理解,为农业、保护和生物技术的创新铺平道路。未来的研究将侧重于改进这些模型,扩展其训练数据集,并探索它们在实际农业场景中的应用,以充分利用其功能。 ### 引用 数字对象标识符 编号:10.48130/TP-0025-0008 原始源 URL https://doi.org/10.48130/tp-0025-0008 关于热带植物 《热带植物》(E-ISSN 2833-9851)是海南大学的官方期刊,由最大学术出版社出版。《热带植物》经过严格的同行评审,并以开放获取的形式出版,以便快速传播研究成果,促进学术知识交流,并鼓励就热带植物研究中出现的创新技术和问题进行学术讨论。 资金信息 该研究得到了生物育种-国家科技重大专项(2023ZD04073)、三亚崖湾科技城项目(SCKJ-JYRC-2022-57)和YZBSTCACC高性能计算平台的支持。期刊链接:热带植物,2025 年 4 月请求专家
  • 《武汉植物园揭示药用植物三叶青基因组进化和黄酮类代谢物分化的遗传基础》

    • 来源专题:转基因生物新品种培育
    • 编译者:姜丽华
    • 发布时间:2023-03-08
    • 三叶崖爬藤(Tetrastigma hemsleyanum)是葡萄科崖爬藤属多年生草质藤本植物,块根或全草入药,也称三叶青。《本草纲目》记载“三叶青,性味苦、辛、凉,清热解毒、活血祛风”,现代药理研究亦证实,其在抗病毒、抗氧化、免疫调节以及抗肿瘤等方面均有疗效。目前,三叶青已被列为新“浙八味”中药材培育品种之一,是浙江省新冠肺炎一号方“化湿宣肺合剂”的主要成分。武汉植物园东亚植物演化、保护与利用学科组邱英雄研究员团队近日以“Chromosome-level reference genome of Tetrastigma hemsleyanum (Vitaceae) provides insights into genomic evolution and the biosynthesis of phenylpropanoids and flavonoids”为题在《The Plant Journal》发表了三叶青研究论文。该论文基于Illumina、PacBio long reads和Hi-C测序技术相结合的组装策略获得了三叶青高质量参考基因组,解析了其基因组进化特征;结合转录组和代谢组数据,阐明了苯丙烷-黄酮类代谢途径合成基因的重复模式及其与表达量的相关性;基于群体重测序分析,解析了黄酮类代谢产物在不同谱系分化的遗传基础。   研究结果发现,三叶青基因组大小为~2.19Gb,是葡萄属物种的4~5倍。基因组中73.43%为重复序列,其中长末端重复反转座子(LTR-RTs)占基因组的69%。三叶青和葡萄属植物同样只经历1次gamma全基因组复制事件,而LTR-RTs尤其是Copia和Gypsy家族在三叶青基因组扩张中发挥了主要原因。基因家族分析表明,三叶青特有基因家族和扩张基因家族主要与多种活性成分如黄酮类、萜类、芪类、脂肪酸、生物碱等合成有关,还有一些基因则参与植物的防御、响应环境胁迫以及昼夜节律调节等,这可能与三叶青具有较强的环境适应性有关。   为了全面解析三叶青的代谢物组成,研究团队利用LC-MS 技术对三叶青的不同组织(根、茎、叶)进行检测,共检测到941种化合物,其中黄酮类多达148种。由于黄酮类物质是三叶青的主要有效成分,研究团队结合基因组和转录组数据,通过同源比对和结构域鉴定方法解析了代谢途径中的关键酶基因家族和转录因子,重构了三叶青的苯丙烷-黄酮类合成途径。同时,我们发现通路中的大部分关键酶基因家族如PAL、CHS、CHI相比葡萄属物种发生了显著的扩张,扩张主要来源于串联重复。此外,我们还发现这些重复基因存在一致性高表达的现象,可能促进了下游代谢物的合成与积累。对来自同质园中两个谱系代表性地区(西南谱系:广西;中东部谱系:浙江)的块根进行了转录组和代谢组分析,结果显示来自浙江的三叶青块根含有更多的次生代谢产物如黄酮、多糖、萜类等。研究团队进一步对来自这两个谱系的38份样本进行了重测序和群体基因学分析,在谱系间高分化区域内鉴定到一系列与性状发育、响应外界刺激及苯丙烷-黄酮类合成途径相关的基因,可能促进了东西谱系重要表型(如块根大小、代谢产物含量)的分化。   本研究结果为探明三叶青药用活性成分的生物合成和调控机制奠定了基础,也为三叶青野生资源的引种、驯化和育种提供了指导。浙江大学博士后朱珊珊(现为宁波大学副研究员)、博士生张心怡和任超前为论文共同第一作者,中国科学院武汉植物园邱英雄研究员为论文通讯作者,浙大生科院傅承新教授、中国科学院植物所洪德元院士在项目设计与实施过程中给予了指导。研究得到浙江省十四五育种专项、浙大-杭州三叶青公司校企合作等项目的支持。