《泛基因组数据库:找到油菜的“好基因”》

  • 来源专题:转基因生物新品种培育
  • 编译者: 王晶静
  • 发布时间:2020-11-28
  • 油菜是世界第二大油料作物,也是我国最重要的油料作物之一。今年初,华中农业大学一支科研队伍公布了8个甘蓝型油菜的高质量参考基因组。近日,他们在原有研究基础上,通过整合1689份油菜的基因组及重测序数据,构建了首个油菜泛基因组和比较基因组生物信息平台BnPIR。

    有了这一平台,研究人员可以更快捷、更方便地检索和使用油菜泛基因组相关资源。为何建设油菜泛基因组平台?这是一个什么样的数据库?油菜相关的多组学数据研究进展情况如何?《中国科学报》对此进行了采访。

    “标准地图”有盲区

    甘蓝型油菜大约在7500年前由白菜和甘蓝自然杂交形成,是非常“年轻”的多倍体植物。“多倍体物种,尤其是年轻的多倍体植物中,往往存在大量的非同源染色体重组事件,这些重组事件导致甘蓝型油菜内部的遗传变异非常丰富。”华中农业大学生物信息团队副教授杨庆勇说。

    而在过去的几十年里,为了提高油菜的产量、品质及适应性等目标性状,国内外油菜遗传育种科学家持续地将白菜、芥菜等种质资源中控制重要性状(如抗性等)的遗传位点,通过杂交或者远缘杂交等手段导入到甘蓝型油菜中,进一步丰富了其物种的遗传多样性。“现有的研究数据表明,甘蓝型油菜基因组中7成以上基因都存在大的遗传变异,也就是通常所说的结构变异。换句话说,对于油菜这样的年轻多倍体物种,单一参考基因组往往无法很好地包含物种内丰富的遗传变异信息。”杨庆勇进一步解释道。

    如何系统挖掘和揭示甘蓝型油菜的遗传变异?

    杨庆勇介绍,传统的遗传变异检测手段主要通过基因组重测序,然后将重测序的读段比对到参考基因组,可以称之为“按图索异”。这里的图是指参考基因组(参考基因组作为生命科学研究中的“标准地图”),而我们目前使用的“标准地图”(单一参考基因组)仍然存在大量的“暗区和盲区”。单一参考基因组为重要性状相关遗传位点和基因的挖掘与利用设置了重重障碍。为了克服这些困难,科学家提出了通过整合多个代表性种质资源的基因组信息,构建泛基因组的研究思路和策略。

    首个油菜泛基因组

    甘蓝型油菜是研究植物多倍化和进化的模式物种。遗憾的是,甘蓝型油菜一直缺乏专门的基因组数据库,研究人员不得不借助芸薹属数据库(BRAD)和其他公共数据库(Genoscope和Ensembl等)来获取甘蓝型油菜的基因组数据。“这些数据库是基于单一品种基因组和注释,并且缺乏多组学数据和群体变异信息。” 华中农业大学生物信息团队教授陈玲玲说。

    据介绍,整合多种个体的泛基因组可以更加全面的检测物种内部的遗传变异,获得各个样本的共有和特有的基因集,结合不同样本的表型差异可以为进一步挖掘重要的农艺性状基因提供基础。

    2020年1月,华中农业大学油菜团队与生物信息团队合作,在《自然—植物》上发布了8个甘蓝型油菜种质基因组序列,并通过比较基因组分析鉴定了大量SNPs(单碱基多态性)、PAVs(存在/缺失变异)等变异,构建了大小约为1.8Gb泛基因组,包含约15万个基因。通过基于PAVs的全基因组关联分析直接鉴定到了与角果长度、种子重量和开花时间相关的结构变异。研究发现,多个FLC基因上的PAVs与开花时间和生态型分化紧密相关。

    华中农业大学油菜团队教授刘克德介绍,该研究为进一步解析甘蓝型油菜的基因组结构和加速遗传改良提供了资源,泛基因组的建立对鉴定与重要农艺性状关联的结构变异有重要意义。为了让油菜遗传育种研究人员能够快捷、方便地检索和使用油菜泛基因组相关资源,研究人员进一步结合1689份油菜的基因组及重测序数据,构建了甘蓝型油菜泛基因组数据库BnPIR。相关论文10月17日在线发表于《植物生物技术杂志》。

    泛基因组数据库BnPIR

    杨庆勇介绍,BnPIR是基于基因信息模块的综合平台,以泛基因组浏览器和多基因组共线性为核心,包含多组学数据和常见的生物信息学工具。BnPIR包含基因组序列、基因注释、系统发育关系、表达数据、PAVs 信息、基因分类,品种信息和常用多组学工具,并提供快速搜索和可视化的集成。BnPIR为油菜分子生物学和育种提供丰富资源,有助于油菜研究人员在泛基因组背景下搜索和可视化其结果,并为其他物种的泛基因组分析提供有价值的模板和平台。同时,研究人员也指出,“目前我们用于构建泛基因组的代表性油菜品系仅9个,未来将收集、组装和收集更多代表性油菜品系的基因组及其变异信息,整合到BnPIR泛基因组数据库中。”此外,除了主要聚焦在检索变异层面的BnPIR,现在他们还已完成了基于图形结构泛基因组的构建,并应用这个新构建的泛基因组进行全基因组关联分析及进化分析等研究工作。

    当前,我国科学家在十字花科作物育种领域发表外文论文总量排名世界第一,并且产生了大量优良的遗传材料,以及基因组、转录组和代谢组等多组学数据。如何实现多组学数据复用和共享,将数据转化成知识、专利、品种及生产力,一直是科研人员思考和努力的方向。“泛基因组数据库仅仅是个开端,目前我们与国内的多个油菜研究团队合作,已经完成了油菜泛转录组数据库的构建,很快就会与大家见面。油菜代谢组数据库相关构建工作也已开展。”华中农业大学油菜团队教授郭亮说。华中农大的研究人员希望,未来通过与国内油菜科学家更加紧密的交流与合作,为油菜遗传育种提供更加系统全面、准确高效和友好的数据库和生物信息平台服务工作。

    相关论文信息:https://doi.org/10.1038/s41477-019-0577-7;https://doi.org/10.1111/pbi.13491

相关报告
  • 《北京基因组所发布原核生物泛基因组数据库》

    • 来源专题:转基因生物新品种培育
    • 编译者:姜丽华
    • 发布时间:2022-10-31
    •   相比于传统的比较基因组学分析,泛基因组学为开展物种基因组动力学、分类及鉴定、致病性和环境适应等研究提供了新视角。近日,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的原核生物泛基因组数据库(ProPan)正式上线,旨在提供多物种的基因组动力学特征,为物种关键抗性和代谢相关基因鉴定及其演化规律研究提供重要的数据资源。相关研究成果以ProPan: a comprehensive database for profiling prokaryotic pan-genome dynamics为题,在线发表在Nucleic Acid Research上。   ProPan剖析了多个原核生物物种的基因组动力学特征,并进行了基因簇核苷酸多样性计算、COG功能富集分析、31个关键代谢循环过程及图谱构建、126种物质(包括杀菌剂、抗菌药物和金属)抗性基因预测和基因存在/缺失变异分析等。目前,ProPan收集了432个属的1504个物种(23个古细菌物种、1481个细菌物种)的51,882个基因组(295个古细菌基因组、51587个细菌基因组)和182867222个基因簇。用户可以以物种作为基本单元,进行数据的浏览、搜索和下载。   研究工作得到中国科学院战略性先导科技专项、国家自然科学基金、国家重点研发计划等的支持。
  • 《首个全球人群基因组多样性和祖源信息数据库》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:huangcui
    • 发布时间:2017-12-06
    • 11月3日,中国科学院上海生命科学研究院(人口健康领域)计算生物学研究所徐书华课题组的研究成果,以PGG.Population: a database for understanding genomic diversity and genetic ancestry of human populations为题,在线发表在《核酸研究》上。该研究分析了涵盖全球范围107个国家的356个人类族群的基因组多样性和祖源信息,并发布了开放获取的专门数据库——PGG.Population(群体基因组学·族群)。 PGG.Population是迄今唯一在基因组水平专门解析人类族群遗传关系和祖源信息的公开数据库,也是目前收集族群数量最大的群体基因组数据库,为研究人员、临床医生及学生和公众理解不同人群的遗传背景提供查询和分析平台。 人类族群多样性的形成是迁移、隔离、分化、再接触和交流的复杂演化过程。同时,长期对特定环境的适应或能影响特定的性状以及基因组局部区域的多样性变化。相对来讲,人群的基因组多样性在很大程度上决定了其表型多样性——这也是族群特异性的表型可以世代传承的原因。因此,要真正理解人类不同族群在肤色、体质以及疾病等性状上的差异,最终需要回到基因组、追溯人群的演化历程。 众多大型国际计划(比如人类单倍体型图计划和千人基因组计划)以及我国此前完成的各类全基因组关联研究(GWAS)集中关注常见主体人群,而对各地少数族群(大多是土著人群)的研究较为缺乏。部分研究人员逐渐意识到,在一个人群研究中的困惑,往往在另一个人群的研究中找到答案,例如科研人员对比青藏高原人群的基因组,了解到为何平原人群无法像藏族人那样舒适地生活在高原上。专家认为,这就是多样性的魅力,也是进化留给我们的财富。 PGG.Population正是在这样的大背景下建立起来。研究人员通过测序或收集众多人类群体基因组研究数据,对每个族群的基因组重新整合与分析(包括人群的地理语言归属等基本信息、Y染色体与线粒体谱系、群体间亲缘关系、群体遗传结构、遗传混合以及自然选择印记等),并建立数据库,以开放获取的方式向公众展示每个族群的基因组多样性与祖源信息。 目前,该数据库包括7122个个体的基因组数据,覆盖107个国家的356个族群,每个族群都有自己的“故事”。该数据库以理解每个人群的基因组多样性与遗传背景为主,对其他研究领域也具有重要的学术意义和应用价值,人类群体基因组数据库建设任重道远。全世界有2000多个族群,而该数据库目前只包括世界族群的1/6。课题组正在收集或产生更多的来自不同族群基因组数据,以覆盖更多的族群,以期用于全面探索亚洲人群尤其是东亚、东南亚族群的演化历史和自然选择等遗传和演化问题。同时,数据库可供遗传学、语言学、体质人类学、医学等行业参考和使用,应用于生物医学等多个领域的研究。此外,科研人员希望公众通过访问和查询该数据库,对人类基因组多样性和人群祖源等方面的知识和信息有更广泛和深入的理解。 研究工作得到了中国科学院战略性先导科技专项(B类)、国家自然科学基金委重大研究计划及国家相关人才计划、中国科学院青年促进会、上海市科委等的资助,并得到国家遗传与发育协同创新中心支持。