《小麦等大基因组作物核心基因组低成本组装及新基因挖掘研究获进展》

  • 来源专题:生物安全知识资源中心 | 领域情报网
  • 编译者: hujm
  • 发布时间:2018-07-08
  • 6月21日,Nucleic Acids Research 期刊在线发表中国科学院分子植物科学卓越创新中心/植物生理生态研究所张一婧研究组与中国科学院遗传与发育生物学研究所童依平研究组合作完成的题为CGT-seq: epigenome-guided de novo assembly of the core genome for divergent populations with large genome 的方法学论文。该工作开发并优化实验与计算流程,实现低成本组装小麦等大基因组作物的核心基因组。

    博士研究生齐美芳、李子娟和刘春梅为共同第一作者,水稻实验材料及数据获得植生生态所研究员林鸿宣的帮助。相关工作得到中国科学院A类先导及自然科学基因项目的资助。

    植物高度的遗传多态性为分子育种提供了丰富的遗传资源,确定重要农艺性状的根本方法在于比较不同群体或比较栽培种和野生种间遗传多态性与表型的关联。然而,很多经济物种经历了长期的驯化,基因组复杂而庞大。例如,目前普遍种植的小麦是6倍体,全基因组有17Gb,另外,广泛栽培的大麦、棉花、玉米、花生和大豆都具有Gb尺度的基因组,即便是覆盖度要求较低的重测序实验都需要极高的成本。而且,还存在不少未测序的大基因组经济物种,全基因组测序成本非常高,特别是对于群体水平的研究全基因组测序不现实。怎样有效刻画大基因组多态性群体的遗传多样性是一个挑战性的工作。由于很多研究并不需要知道基因组所有的碱基序列,所以人们针对大基因组物种开发了各种低成本的替代测序技术。其基本原理通常是对全基因组序列进行选择性测序,但是这些方法普遍对已有的基因组序列信息要求高,而对于遗传变异大的群体,依赖参考基因组的技术,包括外显子测序,甚至全基因组重测序,都会显着低估多态性。因而,开发不依赖参考基因组直接捕获基因及调控区序列的简化基因组测序方法对于研究多态性高的群体具有重要价值。该方法的理论依据在于调控基因活性的重要表观修饰普遍富集在基因及启动子区(图A-B),通过免疫共沉淀技术及优化拼接方案从而有效获得基因及附近序列(图C)。对小麦中国春品种进行核心基因组组装获得的片段与基因区域高度吻合(图D),能够高效挖掘新基因(图E-F)、调控区域(图G)及多态性位点(图H-J)。该方法已申请专利,其优势在于不依赖参考基因组序列,直接捕获基因及调控区序列,从而极大地降低群体核心基因组拼接的成本,有力地提高大基因组物种的分子遗传与群体遗传学研究效率。

  • 原文来源:http://news.bioon.com/article/6724545.html
相关报告
  • 《泛基因组数据库:找到油菜的“好基因”》

    • 来源专题:转基因生物新品种培育
    • 编译者:王晶静
    • 发布时间:2020-11-28
    • 油菜是世界第二大油料作物,也是我国最重要的油料作物之一。今年初,华中农业大学一支科研队伍公布了8个甘蓝型油菜的高质量参考基因组。近日,他们在原有研究基础上,通过整合1689份油菜的基因组及重测序数据,构建了首个油菜泛基因组和比较基因组生物信息平台BnPIR。 有了这一平台,研究人员可以更快捷、更方便地检索和使用油菜泛基因组相关资源。为何建设油菜泛基因组平台?这是一个什么样的数据库?油菜相关的多组学数据研究进展情况如何?《中国科学报》对此进行了采访。 “标准地图”有盲区 甘蓝型油菜大约在7500年前由白菜和甘蓝自然杂交形成,是非常“年轻”的多倍体植物。“多倍体物种,尤其是年轻的多倍体植物中,往往存在大量的非同源染色体重组事件,这些重组事件导致甘蓝型油菜内部的遗传变异非常丰富。”华中农业大学生物信息团队副教授杨庆勇说。 而在过去的几十年里,为了提高油菜的产量、品质及适应性等目标性状,国内外油菜遗传育种科学家持续地将白菜、芥菜等种质资源中控制重要性状(如抗性等)的遗传位点,通过杂交或者远缘杂交等手段导入到甘蓝型油菜中,进一步丰富了其物种的遗传多样性。“现有的研究数据表明,甘蓝型油菜基因组中7成以上基因都存在大的遗传变异,也就是通常所说的结构变异。换句话说,对于油菜这样的年轻多倍体物种,单一参考基因组往往无法很好地包含物种内丰富的遗传变异信息。”杨庆勇进一步解释道。 如何系统挖掘和揭示甘蓝型油菜的遗传变异? 杨庆勇介绍,传统的遗传变异检测手段主要通过基因组重测序,然后将重测序的读段比对到参考基因组,可以称之为“按图索异”。这里的图是指参考基因组(参考基因组作为生命科学研究中的“标准地图”),而我们目前使用的“标准地图”(单一参考基因组)仍然存在大量的“暗区和盲区”。单一参考基因组为重要性状相关遗传位点和基因的挖掘与利用设置了重重障碍。为了克服这些困难,科学家提出了通过整合多个代表性种质资源的基因组信息,构建泛基因组的研究思路和策略。 首个油菜泛基因组 甘蓝型油菜是研究植物多倍化和进化的模式物种。遗憾的是,甘蓝型油菜一直缺乏专门的基因组数据库,研究人员不得不借助芸薹属数据库(BRAD)和其他公共数据库(Genoscope和Ensembl等)来获取甘蓝型油菜的基因组数据。“这些数据库是基于单一品种基因组和注释,并且缺乏多组学数据和群体变异信息。” 华中农业大学生物信息团队教授陈玲玲说。 据介绍,整合多种个体的泛基因组可以更加全面的检测物种内部的遗传变异,获得各个样本的共有和特有的基因集,结合不同样本的表型差异可以为进一步挖掘重要的农艺性状基因提供基础。 2020年1月,华中农业大学油菜团队与生物信息团队合作,在《自然—植物》上发布了8个甘蓝型油菜种质基因组序列,并通过比较基因组分析鉴定了大量SNPs(单碱基多态性)、PAVs(存在/缺失变异)等变异,构建了大小约为1.8Gb泛基因组,包含约15万个基因。通过基于PAVs的全基因组关联分析直接鉴定到了与角果长度、种子重量和开花时间相关的结构变异。研究发现,多个FLC基因上的PAVs与开花时间和生态型分化紧密相关。 华中农业大学油菜团队教授刘克德介绍,该研究为进一步解析甘蓝型油菜的基因组结构和加速遗传改良提供了资源,泛基因组的建立对鉴定与重要农艺性状关联的结构变异有重要意义。为了让油菜遗传育种研究人员能够快捷、方便地检索和使用油菜泛基因组相关资源,研究人员进一步结合1689份油菜的基因组及重测序数据,构建了甘蓝型油菜泛基因组数据库BnPIR。相关论文10月17日在线发表于《植物生物技术杂志》。 泛基因组数据库BnPIR 杨庆勇介绍,BnPIR是基于基因信息模块的综合平台,以泛基因组浏览器和多基因组共线性为核心,包含多组学数据和常见的生物信息学工具。BnPIR包含基因组序列、基因注释、系统发育关系、表达数据、PAVs 信息、基因分类,品种信息和常用多组学工具,并提供快速搜索和可视化的集成。BnPIR为油菜分子生物学和育种提供丰富资源,有助于油菜研究人员在泛基因组背景下搜索和可视化其结果,并为其他物种的泛基因组分析提供有价值的模板和平台。同时,研究人员也指出,“目前我们用于构建泛基因组的代表性油菜品系仅9个,未来将收集、组装和收集更多代表性油菜品系的基因组及其变异信息,整合到BnPIR泛基因组数据库中。”此外,除了主要聚焦在检索变异层面的BnPIR,现在他们还已完成了基于图形结构泛基因组的构建,并应用这个新构建的泛基因组进行全基因组关联分析及进化分析等研究工作。 当前,我国科学家在十字花科作物育种领域发表外文论文总量排名世界第一,并且产生了大量优良的遗传材料,以及基因组、转录组和代谢组等多组学数据。如何实现多组学数据复用和共享,将数据转化成知识、专利、品种及生产力,一直是科研人员思考和努力的方向。“泛基因组数据库仅仅是个开端,目前我们与国内的多个油菜研究团队合作,已经完成了油菜泛转录组数据库的构建,很快就会与大家见面。油菜代谢组数据库相关构建工作也已开展。”华中农业大学油菜团队教授郭亮说。华中农大的研究人员希望,未来通过与国内油菜科学家更加紧密的交流与合作,为油菜遗传育种提供更加系统全面、准确高效和友好的数据库和生物信息平台服务工作。 相关论文信息:https://doi.org/10.1038/s41477-019-0577-7;https://doi.org/10.1111/pbi.13491
  • 《“棉花基因组变异与纤维品质和产量遗传研究”取得新进展》

    • 来源专题:转基因生物新品种培育
    • 编译者:zhangyi8606
    • 发布时间:2018-05-15
    • 5月8日,国际权威期刊Nature Genetics在线发表了由中国科学家完成的一项在棉花基因组变异和纤维性状遗传领域的研究成果,该研究通过首次对来自中、美、澳等主要植棉国的419份陆地棉核心种质的基因组重测序,确定了一系列在长期的自然选择和人工选育过程中,与棉花纤维长度、强度、铃重、衣分等重要性状相关的基因组变异和位点及其分布规律,为棉花重要性状定向育种提供了较为精准的标记和基因资源。 该研究通过对上述419份陆地棉核心种质进行深度达6.55倍的基因组重测序,鉴定出3665030个单核苷酸多态性(SNP)。研究人员通过与陆地棉野生种系全基因组功能基因SNP变异比较,首次发现23876个(33.88%)基因无任何SNP变异,表明这些基因在长期驯化过程中高度保守;发现33899(40.10%)和6957(9.87%)个基因分别表现为SNP变异数减少和增加,暗示这些基因应是育种改良予以重点关注的基因。同时,研究人员在我国黄河流域、长江流域和西北内陆3大棉区6个地点12个环境鉴定了与纤维长度、强度、铃重、衣分等13个纤维品质和产量性状,获得了近20万个表型数据。基于测定的3665030个SNP的全基因组关联分析,研究人员共鉴定出11026个与13个性状显著关联的SNP,并找到了多个与纤维长度、强度等显著关联的SNP所在的基因位点。 因其广泛适应性和高产特性,陆地棉的种植占全球棉花的90%以上。马峙英告诉记者,深入挖掘不同种类种质资源特别是核心种质的基因组变异仍是一项重要的研究工作。特别是随着纺织工艺的改进,人们对棉花纤维品质提出更高的要求,通过深化对种质资源表型变异的分子基础研究和优异遗传变异位点发掘,实现棉花品质、产量等重要性状的有效选择与改良仍然是棉花育种的重大科学问题。 据了解,参与这一长期研究的研究者全部为中国科学家,他们来自于河北农业大学华北作物种质资源研究与利用教育部重点实验室马峙英团队、中国农业科学院棉花研究所杜雄明研究员团队等8个单位。