解锁植物育种的未来:基础基因组语言模型的力量植物育种一直是农业的基石,它使作物的开发生产力更高、适应性更强、适应性更强。传统上,育种者依靠统计方法(例如线性混合模型)来根据植物的基因组成来预测植物的表现。然而,在产量等高度复杂的农艺性状的情况下,这些传统方法在解释复杂的逐个基因和逐个环境的基因相互作用的能力方面存在严重限制。机器学习 (ML) 模型能够对这些复杂的交互进行建模,与传统方法相比,具有更强的预测能力,尤其是在数据丰富的情况下。ML 的一个主要优势是,它的性能随着数据的变化而呈爆炸式增长:模型训练的数据越多,它的性能就越优于统计方法。这就是为什么大型多环境试验可以显著改善基于 ML 的预测,帮助育种者做出更明智的决策。但这也带来了一个挑战:获取足够的数据以充分利用 ML 模型的潜力。
数据稀缺的挑战
虽然 ML 对育种者来说前景广阔,但它在预测能力方面满足高期望的能力受到数据可用性的限制。收集这些数据集需要在不同的环境中进行广泛的现场试验和先进的基因组测序,这不仅耗费资源,而且成本高昂。此外,这些数据集通常是专有的,竞争使得组合来自不同来源的信息变得不可行,除非育种公司同意共享他们的数据并进行合作。这种数据稀缺一直是充分利用 ML 进行植物育种的主要瓶颈,人们很容易通过期望使用微小、不平衡的数据集来改变游戏规则的 ML 性能,从而将标准设置得太高。
游戏规则改变者:迁移学习
迁移学习为数据稀缺问题提供了强大的解决方案,迁移学习是一个开创性的深度学习概念,一直是计算机视觉、自然语言处理甚至医疗保健等领域 AI 革命的主要驱动力。从本质上讲,迁移学习允许在具有丰富数据的任务上训练的模型,通过利用大量现有知识来适应数据稀缺的不同但相似的任务。就像专业的意大利厨师比厨房新手更容易学习法国高级菜肴的复杂性一样,尖端的深度学习模型也能够在相关任务之间转移相关知识。这种非凡的能力导致了 AI 的一些非凡壮举,例如,它允许在数十亿张图像上预先训练的计算机视觉模型识别常见的日常物体,并在有限数量的医学图像上进行微调,并达到(甚至超过)放射科医生诊断癌症的性能。在类似环境中的任务之间转移基础知识确实可以带来惊人的结果。
基因组语言模型:植物育种的新前沿
迁移学习在缓解植物育种中数据稀缺挑战方面最有前途的应用是基因组语言模型 (GLM) 的形式。这些模型在大量基因组序列上进行训练,使它们能够理解 DNA 的语言。正如 GPT-3 [1] 等人类大型语言模型 (LLM) 理解人类语言的结构,并且可以进行微调以翻译、推理甚至写诗一样,GLM 经过训练以获得对基因序列结构的基本理解。由于进化对许多物种的基因组塑造了相似,因此许多基因组信息不仅可以在单个基因型之间转移,而且可以在不同物种之间转移。
GLM 的最新进展堪称开创性。像 ESMFold [2] 这样的模型通过从核苷酸序列中以原子分辨率准确预测蛋白质结构,彻底改变了生物学。在转录组(例如,Geneformer [3])或 DNA 序列(例如,Nucleotide Transformer [4]、Genomic Pre-Trained Network [5])上预先训练的其他基础 GLM 在微调后,即使在低数据设置下,也能在各种任务中提供准确的预测。此类基准测试任务包括染色质谱预测、识别剪接位点和转录因子结合位点、检测启动子区域,甚至预测全基因组变异效应。这些曾经是劳动密集型且容易出错的任务,而通过迁移学习实现自动化的巨大成功清楚地表明了 GLM 理解复杂生活语言的能力。最新一代的开源 GLM 专门针对作物物种的 DNA 进行了预训练(例如 AgroNT [6]),为农业技术领域开辟了新的领域。
图 1 基因组 LLM 可以分析顺序数据(如 DNA 序列、ATAC-seq、Hi-C)和非序列数据(如单细胞 RNA-seq、大量转录组、多组)。他们找到模式来预测事物,例如功能区域、致病 SNP 和基因表达。首先,他们从数据中学习(训练),并接受微调或提示执行特定任务。(改编自 Consens et al., 2023)[7]
特征预测的微调:挑战和解决方案
当然,微调这些预先训练的基因组模型以进行性状预测并非没有挑战。一个主要障碍是需要捕获基因组中的长程相互作用。例如,了解遗传变异对基因表达的影响很复杂,因为它通常涉及基因组内长距离的相互作用。一些调控效应可以跨越数百万个碱基对,这意味着模型必须能够处理非常长的遗传数据序列。尽管性能最好的语言模型(包括 ChatGPT)基于 transformer 架构,但它们在处理极长的上下文方面存在不足。语言模型架构的最新创新,如 Hyena [8] 和 Mamba [9],已经克服了这一主要障碍,并为基础 GLM(例如 HyenaDNA [10]、PlantCaduceus [11])的出现铺平了道路,这些 GLM 能够快速处理长达 100 万个碱基对的序列,并以单核苷酸分辨率完成。
此外,为了使基因组模型在预测育种中有效,它们必须能够理解基因表达等位基因变异的影响。这需要来自各种基因型的数据来微调 GLM。尽管全基因组序列是实现此目的的理想选择,但伪组装(可以通过更实惠的测序技术生成的基因组的部分表示)可以提供一种具有成本效益的临时解决方案,以创建足够大的数据集来微调这些模型。使 GLM 长期获得最终成功的一个关键因素是基因组测序成本的快速降低。虽然在 90 年代,人类基因组计划 [12] 耗资数十亿美元,而在 2010 年,对全基因组进行测序的成本仍然约为 10,000 美元,但到今天,价格下降到仅 100 美元 [13]——在过去十年中下降了 100 倍,令人震惊。成本的大幅降低意味着,对大量基因型进行全基因组测序预计很快就会在经济上变得可行。
植物育种者的行动呼吁 — 拥抱 AI 时代
随着我们进入人工智能和基因组学融合的时代,植物育种公司拥有前所未有的机会来采用这些尖端技术。通过利用 AI 的力量,育种者可以在预测复杂性状方面将精度和效率提升到新的水平。这些进步不仅有可能加速有弹性、高产植物品种的开发,而且还有可能降低育种计划所需的成本和时间。气候变化加剧了全球粮食危机,需要创新的解决方案。基础基因组语言模型为释放预测育种的全部潜力提供了变革性的机会。通过采用 AI 驱动的工具,植物育种者可以在下一个突破重塑行业之前,将自己定位在作物开发新时代的前沿。
现在是投资 AI 并引领迈向更可持续和粮食安全世界的时候了。工具是可用的,科学是经过验证的,需求是紧迫的。让我们共同发展未来。
引用
[1] Brown, T. B., et al. (2020):语言模型是少数镜头学习者,arXiv:2005.14165
[https://doi.org/10.48550/arXiv.2005.14165]
[2] Lin, Z. 等人 (2023):使用语言模型对原子级蛋白质结构进行进化尺度预测,科学,379,6637
[https://doi.org/10.1126/science.ade2574]
[3] Theodoris, C.V., et al. (2023):迁移学习在网络生物学中实现预测,Nature, 618, 616
[https://doi.org/10.1038/s41586-023-06139-9]
[4] Dalla-Torre, H., et al. (2025):核苷酸转换器:为人类基因组学构建和评估稳健的基础模型,Nature Methods,22, 287
[https://doi.org/10.1101/2023.01.11.523679]
[5] Benegas, G., et al. (2023):DNA 语言模型是全基因组变异效应的强大预测因子,PNAS,120,44
[https://doi.org/10.1073/pnas.2311219120]
[6] Mendoza-Revilla, J. 等人 (2023):可食用植物基因组的基础大型语言模型,bioRxiv:2023.10.24.563624
[https://www.biorxiv.org/content/10.1101/2023.10.24.563624v1]
[7] Consens, Micaela E., et al. (2023):《变形金刚及其他:基因组的大型语言模型》,arXiv 预印本 arXiv:2311.07621
[https://arxiv.org/abs/2311.07621]
[8] Poli, M. 等人 (2023):鬣狗层次结构:迈向更大的卷积语言模型,arXiv:2302.10866
[https://doi.org/10.48550/arXiv.2302.10866]
[9] Gu, A. & Dao, T. (2024):Mamba:具有选择性状态空间的线性时间序列建模,arXiv:2312.00752
[https://doi.org/10.48550/arXiv.2312.00752]
[10] Nguyen, E., et al. (2023):鬣狗DNA:单核苷酸分辨率的长距离基因组序列建模,神经信息处理系统进展,36, 43177
[https://doi.org/10.48550/arXiv.2306.15794]
[11] Zhai, J., et al. (2024):使用预先训练的 DNA 语言模型以单核苷酸分辨率对植物基因组进行跨物种建模,bioRxiv:2024.06.04.596709
[https://doi.org/10.1101/2024.06.04.596709]
[12] 国际人类基因组测序联盟 (2001):人类基因组的初始测序和分析,自然,409,860
[https://doi.org/10.1038/35057062]
[13] https://www.science.org/content/article/100-genome-new-dna-sequencers-could-be-game-changer-biology-medicine