《Nature Plants发表植物基因组分析及其数据库》

  • 编译者: 季雪婧
  • 发布时间:2024-04-26
  • 植物基因组学研究为植物基因功能、群体遗传、进化和育种研究提供了重要基因组数据资源。近日,浙江大学樊龙江教授课题组在国际知名期刊《Nature Plants》发表了题为“Technology-enabled great leap in deciphering plant genomes”文章,系统收集并分析了自2000年(第一个植物基因组发表)以来测序组装完成的高质量植物基因组,合计包括来自1,575个物种的3,517个基因组。这些测序完成的基因组中,2/3的基因组(2,373个)和1/2的植物物种(793个)是在最近三年(2021-2023)完成的,相比于前20年(2000-2020)呈现出了一个巨大飞跃(图1)。该研究系统分析了完成这些基因组的测序技术和组装算法及其变迁。测序和拼接技术的进步推进了近期植物基因组学研究的快速发展。为了更全面地展示测序物种信息,并提供有关测序技术和组装算法应用情况,他们搭建了N3数据库(N3: plants, genomes, technologies),提供了现有3,517个植物基因组的详细信息,包括测序平台、组装质量、组装工具、可用基因组及其注释文件的下载链接等。该数据库为植物基因组学研究提供了重要资源和支撑。

    近三年来,植物基因组的组装质量迅速提高,拼接达到染色体水平的基因组比例从前20年的47.3%增长为近三年的73.2%,平均contig N50大小从1.44 Mb增长到11.92 Mb。近三年组装的2,373个基因组涵盖了植物界物种的主要分支(目),同时大量研究致力于更高质量基因组的组装,例如单倍型基因组,泛基因组和端粒到端粒(T2T)基因组。在近三年组装的基因组中,94.0%的基因组均利用了三代测序(TGS)技术,已占据主导地位,6.0%的基因组仅使用二代测序(NGS)数据进行拼接。其中三代HiFi数据在2022年的使用比例激增,2023年已达到35.1%。组装算法的创新也为获得更完整的复杂基因组提供了机会。文章详细分析了组装三个阶段的不同特点,统计分析了每个阶段最常使用的软件并详细阐述了其算法的迭代过程。例如基因组拼接步骤,其算法最初是基于测序读序重叠区联配延伸的OLC算法为主,NGS数据出现后德布鲁因图(de Bruijn graph)算法成为主流算法(如SOAPdenovo和Velvet),而随着TGS数据的出现,由于测序读序变长,OLC算法(如Canu)重新换发活力,同时串图(string graph)算法(Hifiasm,Falcon和NextDenovo)可以利用长读序优势,同样成为主流算法。

    该研究搭建的N3数据库(http://ibi.zju.edu.cn/N3database/),提供了1,777篇植物基因组相关论文的元数据,涵盖来自1,575个物种的3,517个植物基因组的详细信息。N3数据库提供了代表性物种基因组及其基因注释集,BLAST搜索和JBrowse基因组浏览等功能,为广大研究人员提供了一个及时跟踪获取已测序的植物基因组详细信息的综合平台。

相关报告
  • 《南京农业大学Genome Biology构建世界首个植物重复基因数据库》

    • 来源专题:转基因生物新品种培育
    • 编译者:zhangyi8606
    • 发布时间:2019-12-30
    • 植物在千百年的进化中,怎样变得越来越多姿多彩?一个重要因素,就是植物会复制自己基因,丰富自己的基因库数量。多了自己的“同胞胎”兄弟姐妹,基因在生物体中就“声势壮大了”,团结起来力量大,不仅能抵御外界复杂多变的环境,还能增加进化变异的机会,实现物种分化和多样性。 以往的研究发现,有的植物有复制自己基因的功能,即通过不同类型复制方式产生一个与原基因序列相同的新基因。基因复制产生的两个同源基因称为重复基因或“姊妹基因”。近年来,随着测序技术的不断升级和测序成本的大幅度降低,越来越多的植物基因组被破译。 目前已经完成全基因组测序的植物超过200种,包括单细胞绿藻,苔藓类植物,蕨类植物,裸子植物以及被子植物。然而,目前仍缺乏一个具有广泛适用性的鉴定不同种类植物重复基因的方法。 来自南京农业大学园艺学院的研究人员发表了题为“Gene duplication and evolution in recurring polyploidization–diploidization cycles in plants”的文章,系统鉴定了梨等141种植物基因组中不同类型重复基因,构建了世界首个植物重复基因数据库,揭示了重复基因进化的普遍规律。 这一研究成果公布在Genome Biology杂志上,南京农业大学为第一完成单位,文章第一作者为乔鑫,通讯作者为南京农业大学张绍铃教授和美国佐治亚大学Andrew H.Paterson教授。 此前,这一研究组系统鉴定梨基因组中重复基因的基础上,开发了一个具有普遍适用性的生物信息学方法(命名为DupGen_finder),用于鉴定植物界中不同种类植物基因组中的重复基因。 在此基础上,研究人员深入分析141种植物基因组中重复基因含量随时间变化规律发现,基因串联复制和邻近复制在植物漫长的进化过程中始终保持较高的发生频率,为植物适应复杂多变的外界环境提供了源源不断的遗传变异材料。同时该研究还揭示,基因组加倍发生后的较短时间内,重复基因之间发生高频率的基因置换(geneconversion),随着时间的推移,重复基因之间会发生广泛的时空表达分化。最后,利用141种植物基因组中包含的所有蛋白序列构建了大规模的植物直系同源基因家族(86,831)。 此外,研究人员还通过大规模收集整合国内外植物基因组数据资源,构建了世界首个植物重复基因数据库(PlantDGD,http://pdgd.njau.edu.cn:8080),目前已收录141种完成基因组测序的植物,包含大豆、水稻、小麦、玉米等大宗粮食作物,以及梨、桃、葡萄、蔬菜、花卉等园艺作物,并将拓展为植物相关的所有类别。该数据库将为深入研究重复基因的进化机制提供宝贵的数据资源。 张绍铃教授领衔的南京农业大学梨工程技术研究中心主要从事梨种质资源与遗传育种,梨自交不亲和性机理,基因组与功能基因,品质形成机制与调控等方面的研究。已在Genome Biology、Genome Research、Plant Cell、Plant Journal和NewPhytologist等国际著名期刊上发表了多篇高水平研究论文,其中一篇论文入选ESI高被引论文,得到了国内外同行的高度关注和认可。 原文标题: Gene duplication and evolution in recurring polyploidization–diploidization cycles in plants https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1650-2
  • 《昆明动物所与北京基因组所联合开发iDog数据库》

    • 来源专题:中国科学院亮点监测
    • 编译者:yanyf@mail.las.ac.cn
    • 发布时间:2019-01-10
    • 近日,由昆明动物所与北京基因组所合作开发的犬科动物数据库iDog正式上线。该项研究成果以“iDog:an integrated resource for domestic dogs and wild animals”为题在国际学术期刊Nucleic Acids Research在线发表。   家犬毫无争议是人类最好的朋友之一,同时也是许多人类遗传病的基础研究模型。iDog 是第一个家犬与野生犬科动物整合性资源数据库,它不仅提供了丰富的组学数据,基因组拼接数据,基因表达谱数据,犬类疾病及相关表型信息,同时,iDog 数据库还整合了序列比对工具用于线上数据分析,以及基因组浏览器用于数据可视化。iDog的建立不仅有利于全球范围内犬科动物的研究,同时还为大量的爱狗人士提供了一个用户友好的界面查找相关宠物狗信息。   iDog具有良好的可拓展性和持续性等特点,其包含的主要模块有基于127个家犬样本基因组重测序数据产生的变异信息数据库、含有32220个基因的犬科动物基因数据库、基于RNA-Seq测序数据的基因表达数据库、犬科动物相关疾病的文献数据库、人-狗疾病同源信息数据库、犬科动物基因组拼接数据库等。iDog计划后续整合更多的组学数据,在Dog10K项目的背景下,持续更新高质量的数据集,逐步转化成犬科动物基础研究的信息知识宝库。   中国科学院昆明动物研究所王国栋研究员和北京基因组研究所赵文明正高级工程师为共同通讯作者。该项目得到了中国科学院战略性先导科技专项、国家自然科学基金、国家重点研发计划、中国科学院国际伙伴计划、中国科学院“十三五”信息化专项、中国科学院关键技术人才项目、中国科学院青年创新促进会等基金资助。