信用:作者图 3 基因组序列和语言序列之间的相似性。Newswise — 通过利用基因组序列和自然语言之间的结构相似性,这些 AI 驱动的模型可以解码复杂的遗传信息,从而为植物生物学提供前所未有的见解。面对全球挑战,这一进步有望加速作物改良、加强生物多样性保护和加强粮食安全。
传统上,植物基因组学一直在努力解决庞大而复杂的数据集的复杂性,这些数据集通常受到传统机器学习模型的特殊性和注释数据的稀缺性的限制。虽然 LLM 已经彻底改变了自然语言处理等领域,但它们在植物基因组学中的应用仍处于起步阶段。主要障碍是调整这些模型来解释植物基因组的独特“语言”,这与人类的语言模式有很大不同。本研究解决了这一差距,探索了如何定制 LLM 以有效地理解和预测植物遗传功能。
海南大学邹美玲、柴海伟和夏志强团队于 2025 年 4 月 14 日发表在《热带植物》上的一项研究 (DOI: 10.48130/tp-0025-0008) 详细介绍了 LLM 在基于大量植物基因组数据进行训练时如何准确预测基因功能和调控元件。
在这项研究中,研究人员探索了 LLM 在植物基因组学中的潜力。通过在自然语言和基因组序列的结构之间进行相似之处,该研究强调了如何训练 LLM 来理解和预测植物中的基因功能、调节元件和表达模式。该研究讨论了各种 LLM 架构,包括仅编码器模型(如 DNABERT)、仅解码器模型(如 DNAGPT)和编码器-解码器模型(如 ENBED)。该团队采用了一种方法,该方法涉及在植物基因组序列的大量数据集上对 LLM 进行预训练,然后使用特定的注释数据进行微调以提高准确性。通过像处理语言句子一样处理 DNA 序列,这些模型可以识别遗传密码中的模式和关系。这些模型在启动子预测、增强子鉴定和基因表达分析等任务中显示出前景。值得注意的是,已经开发了 AgroNT 和 FloraBERT 等植物特异性模型,在注释植物基因组和预测组织特异性基因表达方面表现出更好的性能。然而,该研究还指出,大多数现有的 LLM 都是在动物或微生物数据上训练的,这些数据通常缺乏全面的基因组注释,展示了 LLM 在不同植物物种中的多功能性和稳健性。为了解决这个问题,作者主张开发以植物为重点的 LLM,这些 LLM 在各种植物基因组数据集上进行训练,包括来自热带植物等代表性不足的物种的数据集。他们还强调了整合多组学数据和开发标准化基准以评估模型性能的重要性。
总之,这项研究强调了将人工智能,特别是大型语言模型,整合到植物基因组学研究中的巨大潜力。通过弥合计算语言学和遗传分析之间的差距,LLM 可以彻底改变我们对植物生物学的理解,为农业、保护和生物技术的创新铺平道路。未来的研究将侧重于改进这些模型,扩展其训练数据集,并探索它们在实际农业场景中的应用,以充分利用其功能。
###
引用
数字对象标识符
编号:10.48130/TP-0025-0008
原始源 URL
https://doi.org/10.48130/tp-0025-0008
关于热带植物
《热带植物》(E-ISSN 2833-9851)是海南大学的官方期刊,由最大学术出版社出版。《热带植物》经过严格的同行评审,并以开放获取的形式出版,以便快速传播研究成果,促进学术知识交流,并鼓励就热带植物研究中出现的创新技术和问题进行学术讨论。
资金信息
该研究得到了生物育种-国家科技重大专项(2023ZD04073)、三亚崖湾科技城项目(SCKJ-JYRC-2022-57)和YZBSTCACC高性能计算平台的支持。期刊链接:热带植物,2025 年 4 月请求专家