《解锁植物育种的未来:基础基因组语言模型的力量》

  • 来源专题:农机装备
  • 编译者: 袁雪
  • 发布时间:2025-05-06
  • 解锁植物育种的未来:基础基因组语言模型的力量植物育种一直是农业的基石,它使作物的开发生产力更高、适应性更强、适应性更强。传统上,育种者依靠统计方法(例如线性混合模型)来根据植物的基因组成来预测植物的表现。然而,在产量等高度复杂的农艺性状的情况下,这些传统方法在解释复杂的逐个基因和逐个环境的基因相互作用的能力方面存在严重限制。机器学习 (ML) 模型能够对这些复杂的交互进行建模,与传统方法相比,具有更强的预测能力,尤其是在数据丰富的情况下。ML 的一个主要优势是,它的性能随着数据的变化而呈爆炸式增长:模型训练的数据越多,它的性能就越优于统计方法。这就是为什么大型多环境试验可以显著改善基于 ML 的预测,帮助育种者做出更明智的决策。但这也带来了一个挑战:获取足够的数据以充分利用 ML 模型的潜力。

    数据稀缺的挑战

    虽然 ML 对育种者来说前景广阔,但它在预测能力方面满足高期望的能力受到数据可用性的限制。收集这些数据集需要在不同的环境中进行广泛的现场试验和先进的基因组测序,这不仅耗费资源,而且成本高昂。此外,这些数据集通常是专有的,竞争使得组合来自不同来源的信息变得不可行,除非育种公司同意共享他们的数据并进行合作。这种数据稀缺一直是充分利用 ML 进行植物育种的主要瓶颈,人们很容易通过期望使用微小、不平衡的数据集来改变游戏规则的 ML 性能,从而将标准设置得太高。

    游戏规则改变者:迁移学习

    迁移学习为数据稀缺问题提供了强大的解决方案,迁移学习是一个开创性的深度学习概念,一直是计算机视觉、自然语言处理甚至医疗保健等领域 AI 革命的主要驱动力。从本质上讲,迁移学习允许在具有丰富数据的任务上训练的模型,通过利用大量现有知识来适应数据稀缺的不同但相似的任务。就像专业的意大利厨师比厨房新手更容易学习法国高级菜肴的复杂性一样,尖端的深度学习模型也能够在相关任务之间转移相关知识。这种非凡的能力导致了 AI 的一些非凡壮举,例如,它允许在数十亿张图像上预先训练的计算机视觉模型识别常见的日常物体,并在有限数量的医学图像上进行微调,并达到(甚至超过)放射科医生诊断癌症的性能。在类似环境中的任务之间转移基础知识确实可以带来惊人的结果。

    基因组语言模型:植物育种的新前沿

    迁移学习在缓解植物育种中数据稀缺挑战方面最有前途的应用是基因组语言模型 (GLM) 的形式。这些模型在大量基因组序列上进行训练,使它们能够理解 DNA 的语言。正如 GPT-3 [1] 等人类大型语言模型 (LLM) 理解人类语言的结构,并且可以进行微调以翻译、推理甚至写诗一样,GLM 经过训练以获得对基因序列结构的基本理解。由于进化对许多物种的基因组塑造了相似,因此许多基因组信息不仅可以在单个基因型之间转移,而且可以在不同物种之间转移。

    GLM 的最新进展堪称开创性。像 ESMFold [2] 这样的模型通过从核苷酸序列中以原子分辨率准确预测蛋白质结构,彻底改变了生物学。在转录组(例如,Geneformer [3])或 DNA 序列(例如,Nucleotide Transformer [4]、Genomic Pre-Trained Network [5])上预先训练的其他基础 GLM 在微调后,即使在低数据设置下,也能在各种任务中提供准确的预测。此类基准测试任务包括染色质谱预测、识别剪接位点和转录因子结合位点、检测启动子区域,甚至预测全基因组变异效应。这些曾经是劳动密集型且容易出错的任务,而通过迁移学习实现自动化的巨大成功清楚地表明了 GLM 理解复杂生活语言的能力。最新一代的开源 GLM 专门针对作物物种的 DNA 进行了预训练(例如 AgroNT [6]),为农业技术领域开辟了新的领域。



    图 1 基因组 LLM 可以分析顺序数据(如 DNA 序列、ATAC-seq、Hi-C)和非序列数据(如单细胞 RNA-seq、大量转录组、多组)。他们找到模式来预测事物,例如功能区域、致病 SNP 和基因表达。首先,他们从数据中学习(训练),并接受微调或提示执行特定任务。(改编自 Consens et al., 2023)[7]


    特征预测的微调:挑战和解决方案

    当然,微调这些预先训练的基因组模型以进行性状预测并非没有挑战。一个主要障碍是需要捕获基因组中的长程相互作用。例如,了解遗传变异对基因表达的影响很复杂,因为它通常涉及基因组内长距离的相互作用。一些调控效应可以跨越数百万个碱基对,这意味着模型必须能够处理非常长的遗传数据序列。尽管性能最好的语言模型(包括 ChatGPT)基于 transformer 架构,但它们在处理极长的上下文方面存在不足。语言模型架构的最新创新,如 Hyena [8] 和 Mamba [9],已经克服了这一主要障碍,并为基础 GLM(例如 HyenaDNA [10]、PlantCaduceus [11])的出现铺平了道路,这些 GLM 能够快速处理长达 100 万个碱基对的序列,并以单核苷酸分辨率完成。

    此外,为了使基因组模型在预测育种中有效,它们必须能够理解基因表达等位基因变异的影响。这需要来自各种基因型的数据来微调 GLM。尽管全基因组序列是实现此目的的理想选择,但伪组装(可以通过更实惠的测序技术生成的基因组的部分表示)可以提供一种具有成本效益的临时解决方案,以创建足够大的数据集来微调这些模型。使 GLM 长期获得最终成功的一个关键因素是基因组测序成本的快速降低。虽然在 90 年代,人类基因组计划 [12] 耗资数十亿美元,而在 2010 年,对全基因组进行测序的成本仍然约为 10,000 美元,但到今天,价格下降到仅 100 美元 [13]——在过去十年中下降了 100 倍,令人震惊。成本的大幅降低意味着,对大量基因型进行全基因组测序预计很快就会在经济上变得可行。

    植物育种者的行动呼吁 — 拥抱 AI 时代

    随着我们进入人工智能和基因组学融合的时代,植物育种公司拥有前所未有的机会来采用这些尖端技术。通过利用 AI 的力量,育种者可以在预测复杂性状方面将精度和效率提升到新的水平。这些进步不仅有可能加速有弹性、高产植物品种的开发,而且还有可能降低育种计划所需的成本和时间。气候变化加剧了全球粮食危机,需要创新的解决方案。基础基因组语言模型为释放预测育种的全部潜力提供了变革性的机会。通过采用 AI 驱动的工具,植物育种者可以在下一个突破重塑行业之前,将自己定位在作物开发新时代的前沿。


    现在是投资 AI 并引领迈向更可持续和粮食安全世界的时候了。工具是可用的,科学是经过验证的,需求是紧迫的。让我们共同发展未来。


    引用

    [1] Brown, T. B., et al. (2020):语言模型是少数镜头学习者,arXiv:2005.14165

    [https://doi.org/10.48550/arXiv.2005.14165]

    [2] Lin, Z. 等人 (2023):使用语言模型对原子级蛋白质结构进行进化尺度预测,科学,379,6637

    [https://doi.org/10.1126/science.ade2574]

    [3] Theodoris, C.V., et al. (2023):迁移学习在网络生物学中实现预测,Nature, 618, 616

    [https://doi.org/10.1038/s41586-023-06139-9]

    [4] Dalla-Torre, H., et al. (2025):核苷酸转换器:为人类基因组学构建和评估稳健的基础模型,Nature Methods,22, 287

    [https://doi.org/10.1101/2023.01.11.523679]

    [5] Benegas, G., et al. (2023):DNA 语言模型是全基因组变异效应的强大预测因子,PNAS,120,44

    [https://doi.org/10.1073/pnas.2311219120]

    [6] Mendoza-Revilla, J. 等人 (2023):可食用植物基因组的基础大型语言模型,bioRxiv:2023.10.24.563624

    [https://www.biorxiv.org/content/10.1101/2023.10.24.563624v1]

    [7] Consens, Micaela E., et al. (2023):《变形金刚及其他:基因组的大型语言模型》,arXiv 预印本 arXiv:2311.07621

    [https://arxiv.org/abs/2311.07621]

    [8] Poli, M. 等人 (2023):鬣狗层次结构:迈向更大的卷积语言模型,arXiv:2302.10866

    [https://doi.org/10.48550/arXiv.2302.10866]

    [9] Gu, A. & Dao, T. (2024):Mamba:具有选择性状态空间的线性时间序列建模,arXiv:2312.00752

    [https://doi.org/10.48550/arXiv.2312.00752]

    [10] Nguyen, E., et al. (2023):鬣狗DNA:单核苷酸分辨率的长距离基因组序列建模,神经信息处理系统进展,36, 43177

    [https://doi.org/10.48550/arXiv.2306.15794]

    [11] Zhai, J., et al. (2024):使用预先训练的 DNA 语言模型以单核苷酸分辨率对植物基因组进行跨物种建模,bioRxiv:2024.06.04.596709

    [https://doi.org/10.1101/2024.06.04.596709]

    [12] 国际人类基因组测序联盟 (2001):人类基因组的初始测序和分析,自然,409,860

    [https://doi.org/10.1038/35057062]

    [13] https://www.science.org/content/article/100-genome-new-dna-sequencers-could-be-game-changer-biology-medicine


  • 原文来源:https://www.computomics.com/news-reader/foundation-models-in-plant-breeding-.html
相关报告
  • 《武汉植物园揭示药用植物三叶青基因组进化和黄酮类代谢物分化的遗传基础》

    • 来源专题:生物安全知识资源中心—领域情报网
    • 编译者:hujm
    • 发布时间:2023-03-07
    • 三叶崖爬藤(Tetrastigma hemsleyanum)是葡萄科崖爬藤属多年生草质藤本植物,块根或全草入药,也称三叶青。《本草纲目》记载“三叶青,性味苦、辛、凉,清热解毒、活血祛风”,现代药理研究亦证实,其在抗病毒、抗氧化、免疫调节以及抗肿瘤等方面均有疗效。目前,三叶青已被列为新“浙八味”中药材培育品种之一,是浙江省新冠肺炎一号方“化湿宣肺合剂”的主要成分。武汉植物园东亚植物演化、保护与利用学科组邱英雄研究员团队近日以“Chromosome-level reference genome of Tetrastigma hemsleyanum (Vitaceae) provides insights into genomic evolution and the biosynthesis of phenylpropanoids and flavonoids”为题在《The Plant Journal》发表了三叶青研究论文。该论文基于Illumina、PacBio long reads和Hi-C测序技术相结合的组装策略获得了三叶青高质量参考基因组,解析了其基因组进化特征;结合转录组和代谢组数据,阐明了苯丙烷-黄酮类代谢途径合成基因的重复模式及其与表达量的相关性;基于群体重测序分析,解析了黄酮类代谢产物在不同谱系分化的遗传基础。   研究结果发现,三叶青基因组大小为~2.19Gb,是葡萄属物种的4~5倍。基因组中73.43%为重复序列,其中长末端重复反转座子(LTR-RTs)占基因组的69%。三叶青和葡萄属植物同样只经历1次gamma全基因组复制事件,而LTR-RTs尤其是Copia和Gypsy家族在三叶青基因组扩张中发挥了主要原因。基因家族分析表明,三叶青特有基因家族和扩张基因家族主要与多种活性成分如黄酮类、萜类、芪类、脂肪酸、生物碱等合成有关,还有一些基因则参与植物的防御、响应环境胁迫以及昼夜节律调节等,这可能与三叶青具有较强的环境适应性有关。   为了全面解析三叶青的代谢物组成,研究团队利用LC-MS 技术对三叶青的不同组织(根、茎、叶)进行检测,共检测到941种化合物,其中黄酮类多达148种。由于黄酮类物质是三叶青的主要有效成分,研究团队结合基因组和转录组数据,通过同源比对和结构域鉴定方法解析了代谢途径中的关键酶基因家族和转录因子,重构了三叶青的苯丙烷-黄酮类合成途径。同时,我们发现通路中的大部分关键酶基因家族如PAL、CHS、CHI相比葡萄属物种发生了显著的扩张,扩张主要来源于串联重复。此外,我们还发现这些重复基因存在一致性高表达的现象,可能促进了下游代谢物的合成与积累。对来自同质园中两个谱系代表性地区(西南谱系:广西;中东部谱系:浙江)的块根进行了转录组和代谢组分析,结果显示来自浙江的三叶青块根含有更多的次生代谢产物如黄酮、多糖、萜类等。研究团队进一步对来自这两个谱系的38份样本进行了重测序和群体基因学分析,在谱系间高分化区域内鉴定到一系列与性状发育、响应外界刺激及苯丙烷-黄酮类合成途径相关的基因,可能促进了东西谱系重要表型(如块根大小、代谢产物含量)的分化。   本研究结果为探明三叶青药用活性成分的生物合成和调控机制奠定了基础,也为三叶青野生资源的引种、驯化和育种提供了指导。浙江大学博士后朱珊珊(现为宁波大学副研究员)、博士生张心怡和任超前为论文共同第一作者,中国科学院武汉植物园邱英雄研究员为论文通讯作者,浙大生科院傅承新教授、中国科学院植物所洪德元院士在项目设计与实施过程中给予了指导。研究得到浙江省十四五育种专项、浙大-杭州三叶青公司校企合作等项目的支持。
  • 《武汉植物园揭示药用植物三叶青基因组进化和黄酮类代谢物分化的遗传基础》

    • 来源专题:转基因生物新品种培育
    • 编译者:姜丽华
    • 发布时间:2023-03-08
    • 三叶崖爬藤(Tetrastigma hemsleyanum)是葡萄科崖爬藤属多年生草质藤本植物,块根或全草入药,也称三叶青。《本草纲目》记载“三叶青,性味苦、辛、凉,清热解毒、活血祛风”,现代药理研究亦证实,其在抗病毒、抗氧化、免疫调节以及抗肿瘤等方面均有疗效。目前,三叶青已被列为新“浙八味”中药材培育品种之一,是浙江省新冠肺炎一号方“化湿宣肺合剂”的主要成分。武汉植物园东亚植物演化、保护与利用学科组邱英雄研究员团队近日以“Chromosome-level reference genome of Tetrastigma hemsleyanum (Vitaceae) provides insights into genomic evolution and the biosynthesis of phenylpropanoids and flavonoids”为题在《The Plant Journal》发表了三叶青研究论文。该论文基于Illumina、PacBio long reads和Hi-C测序技术相结合的组装策略获得了三叶青高质量参考基因组,解析了其基因组进化特征;结合转录组和代谢组数据,阐明了苯丙烷-黄酮类代谢途径合成基因的重复模式及其与表达量的相关性;基于群体重测序分析,解析了黄酮类代谢产物在不同谱系分化的遗传基础。   研究结果发现,三叶青基因组大小为~2.19Gb,是葡萄属物种的4~5倍。基因组中73.43%为重复序列,其中长末端重复反转座子(LTR-RTs)占基因组的69%。三叶青和葡萄属植物同样只经历1次gamma全基因组复制事件,而LTR-RTs尤其是Copia和Gypsy家族在三叶青基因组扩张中发挥了主要原因。基因家族分析表明,三叶青特有基因家族和扩张基因家族主要与多种活性成分如黄酮类、萜类、芪类、脂肪酸、生物碱等合成有关,还有一些基因则参与植物的防御、响应环境胁迫以及昼夜节律调节等,这可能与三叶青具有较强的环境适应性有关。   为了全面解析三叶青的代谢物组成,研究团队利用LC-MS 技术对三叶青的不同组织(根、茎、叶)进行检测,共检测到941种化合物,其中黄酮类多达148种。由于黄酮类物质是三叶青的主要有效成分,研究团队结合基因组和转录组数据,通过同源比对和结构域鉴定方法解析了代谢途径中的关键酶基因家族和转录因子,重构了三叶青的苯丙烷-黄酮类合成途径。同时,我们发现通路中的大部分关键酶基因家族如PAL、CHS、CHI相比葡萄属物种发生了显著的扩张,扩张主要来源于串联重复。此外,我们还发现这些重复基因存在一致性高表达的现象,可能促进了下游代谢物的合成与积累。对来自同质园中两个谱系代表性地区(西南谱系:广西;中东部谱系:浙江)的块根进行了转录组和代谢组分析,结果显示来自浙江的三叶青块根含有更多的次生代谢产物如黄酮、多糖、萜类等。研究团队进一步对来自这两个谱系的38份样本进行了重测序和群体基因学分析,在谱系间高分化区域内鉴定到一系列与性状发育、响应外界刺激及苯丙烷-黄酮类合成途径相关的基因,可能促进了东西谱系重要表型(如块根大小、代谢产物含量)的分化。   本研究结果为探明三叶青药用活性成分的生物合成和调控机制奠定了基础,也为三叶青野生资源的引种、驯化和育种提供了指导。浙江大学博士后朱珊珊(现为宁波大学副研究员)、博士生张心怡和任超前为论文共同第一作者,中国科学院武汉植物园邱英雄研究员为论文通讯作者,浙大生科院傅承新教授、中国科学院植物所洪德元院士在项目设计与实施过程中给予了指导。研究得到浙江省十四五育种专项、浙大-杭州三叶青公司校企合作等项目的支持。