《植物所开发出基因组组装质量评估和改进新方法》

  • 来源专题:生物育种
  • 编译者: 季雪婧
  • 发布时间:2023-11-10
  •     近年来,随着测序技术和算法的开发,大量动植物基因组被陆续测序和组装,但基因组组装质量参差不齐,存在不同程度的组装错误,影响后续的相关研究。高质量的参考基因组对于基因的精准注释和功能研究以及比较基因组学和调控元件的挖掘等至关重要。目前已有一些基因组组装质量评估的方法,而多数方法仅提供概述性的评估值,未能针对特定区域设置特定碱基给出精准度的评估。

        中国科学院植物研究所焦远年研究组研究开发了新的不依赖参考基因组的组装质量评估工具CRAQ (Clipping information for Revealing Assembly Quality),可以在单碱基水平检测和评估基因组序列的精准度,并提供了相关纠错方案。

        CRAQ通过将原始测序序列比对到组装的基因组上,基于序列比对产生的有效剪切对齐(clipping alignment)信息,精准地检测基因组中存在的组装错误。结合SMS长读长测序片段和NGS短读长测序片段与基因组比对的特征,CRAQ可以识别基因组内小规模的区域组装错误(CREs)和大范围的结构组装错误(CSEs)。不同类别的错误数量经过统计和标准化处理后被转化为两个组装质量评估指标——R-AQI和S-AQI,以反映不同层面的基因组组装质量。

        此外,CRAQ能够将组装错误与基因组内的高杂合区域或单倍型差异区分开来,并在单碱基分辨率下指示低质量组装区域和潜在错误断点的位置。因此,CRAQ能够帮助研究人员识别基因组中存在的嵌合片段,并将这些片段准确地拆分,以利于结合光学图谱或构象捕获(Hi-C)技术进一步构建结构更加准确的参考基因组。

        10月17日,相关研究成果发表在《自然-通讯》(Nature Communications)上。研究工作得到国家重点研发计划、国家自然科学基金和中国科学院青年交叉团队项目等的支持。

  • 原文来源:http://www.cas.cn/syky/202310/t20231023_4982044.shtml
相关报告
  • 《研究人员开发高质量基因组组装软件》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:hujm
    • 发布时间:2019-12-09
    • 11月25日,中国科学院遗传与发育生物学研究所梁承志研究组开发的高质量基因组组装软件HERA在《自然-通讯》在线发表(Nature Communications,DOI:10.1038/s41467-019-13355-3)。论文题目为Assembly of chromosome-scale contigs by efficiently resolving repetitive sequences with long reads。 高质量基因组序列对于研究一个物种基因组的结构、功能、进化、基因定位和克隆等都至关重要。目前单分子测序技术的发展,已使得构建高质量基因组草图越来越容易。然而,这些草图序列仍然存在着由于组装序列碎片化而导致的多种错误,比如不完整的基因序列、排列到染色体上之后的片段遗漏、排列顺序错误和方向错误等。这些错误对于利用这些基因组所做的很多研究会造成不便或误导。 中国科学院遗传与发育生物学研究所梁承志组多年来通过结合单分子测序和光学图谱及HiC等技术构建高质量基因组,已完成多个植物基因组的组装。最近在前期工作的基础上开发了一个利用单分子测序长片段进行基因组复杂区域组装的新方法HERA。在现有软件组装的基础上,HERA能够大大改进基因组序列的连续性并减少了组装错误。通过对水稻基因组进行测试发现,HERA将水稻中的绝大部分重复序列包括复杂的长串联重复序列都正确地组装了出来。在玉米、苦荞和人基因组中与已发表版本进行对比,玉米的Contig N50从1.3 Mb提升至61.2Mb,人的Contig N50从8.3 MB提升至54.4 MB,苦荞基因组Contig N50达到了27.85 Mb。在玉米B73参考基因组中填补了大量以前没有组装出的序列,校正了多处染色体上序列位置或方向错误,并增加了一些以前丢失的多个重要基因。苦荞中全基因组8条染色体共只由20个Contig组成,其中一条染色体是一个Contig,展示了利用现有常规技术条件构建几乎完整的基因组的潜力。HERA跟已有基因组组装软件CANU等非常互补,预期二者的整合将会产生新的软件,大大提高基因组组装的效率。目前,由于单分子测序价格的下降,组装一个与日本晴质量相当或更好的水稻参考基因组的成本已降到了3万元以下。结合单分子测序、BioNano和Hi-C数据,目前可以很低的成本得到绝大多数物种的高质量参考基因组。对于功能基因组研究来说,高质量基因组序列的获取已不再是一个瓶颈,这预示着后基因组时代在多数物种中的全面到来。 论文第一作者为梁承志研究组博士生杜会龙,通讯作者为梁承志。软件开发得到基因组分析平台的大力支持和帮助。该研究得到中国科学院战略性先导科技专项(A)“分子模块设计育种创新体系”等的资助。
  • 《植物线粒体基因组组装新工具研发成功》

    • 来源专题:转基因生物新品种培育
    • 编译者:姜丽华
    • 发布时间:2023-02-25
    • 近日,中国农业科学院深圳农业基因组研究所绿色轻简超级稻遗传解析与分子育种创新团队开发出一套新型植物线粒体基因组组装工具GSAT。该工具能够快速组装图形化植物线粒体基因组,更好地评估其泛结构信息,为植物线粒体基因组的进化和功能研究奠定了重要基础。相关研究成果发表在《生物信息学简报(Briefing in Bioinformatics)》上。 植物线粒体基因组分子结构各异,包括环状、线状、分枝状等,然而现有工具往往只能生成一个或多个环状形式的组装结果,难以完整反映其原有结构信息。 为解决这一问题,研究人员提出了图形化线粒体基因组的组装形式,并开发了相应的组装工具GSAT(下载地址:https://github.com/hwc2021/GSAT)。GSAT能够利用二、三代高通量基因组测序数据,通过图形化比对策略快速组装获得植物的图形化线粒体基因组。 借助GSAT工具,研究人员组装得到水稻和拟南芥的线粒体基因组主图。基因组测序数据进一步支持了线粒体基因组主图中的多种主要结构,展示了线粒体DNA分子的结构多样性。研究结果表明,GSAT有望成为植物图形化线粒体基因组组装的标准流程,为探明植物线粒体基因组的结构变异和功能进化规律提供有力工具。 该研究得到了国家自然科学基金、深圳市科学技术创新委员会、中国农业科学院青年英才项目的支持。(通讯员  马昕怡) 原文链接: https://doi.org/10.1093/bib/bbac522