《研究人员开发高质量基因组组装软件》

  • 来源专题:生物安全知识资源中心 | 领域情报网
  • 编译者: hujm
  • 发布时间:2019-12-09
  • 11月25日,中国科学院遗传与发育生物学研究所梁承志研究组开发的高质量基因组组装软件HERA在《自然-通讯》在线发表(Nature Communications,DOI:10.1038/s41467-019-13355-3)。论文题目为Assembly of chromosome-scale contigs by efficiently resolving repetitive sequences with long reads。

    高质量基因组序列对于研究一个物种基因组的结构、功能、进化、基因定位和克隆等都至关重要。目前单分子测序技术的发展,已使得构建高质量基因组草图越来越容易。然而,这些草图序列仍然存在着由于组装序列碎片化而导致的多种错误,比如不完整的基因序列、排列到染色体上之后的片段遗漏、排列顺序错误和方向错误等。这些错误对于利用这些基因组所做的很多研究会造成不便或误导。

    中国科学院遗传与发育生物学研究所梁承志组多年来通过结合单分子测序和光学图谱及HiC等技术构建高质量基因组,已完成多个植物基因组的组装。最近在前期工作的基础上开发了一个利用单分子测序长片段进行基因组复杂区域组装的新方法HERA。在现有软件组装的基础上,HERA能够大大改进基因组序列的连续性并减少了组装错误。通过对水稻基因组进行测试发现,HERA将水稻中的绝大部分重复序列包括复杂的长串联重复序列都正确地组装了出来。在玉米、苦荞和人基因组中与已发表版本进行对比,玉米的Contig N50从1.3 Mb提升至61.2Mb,人的Contig N50从8.3 MB提升至54.4 MB,苦荞基因组Contig N50达到了27.85 Mb。在玉米B73参考基因组中填补了大量以前没有组装出的序列,校正了多处染色体上序列位置或方向错误,并增加了一些以前丢失的多个重要基因。苦荞中全基因组8条染色体共只由20个Contig组成,其中一条染色体是一个Contig,展示了利用现有常规技术条件构建几乎完整的基因组的潜力。HERA跟已有基因组组装软件CANU等非常互补,预期二者的整合将会产生新的软件,大大提高基因组组装的效率。目前,由于单分子测序价格的下降,组装一个与日本晴质量相当或更好的水稻参考基因组的成本已降到了3万元以下。结合单分子测序、BioNano和Hi-C数据,目前可以很低的成本得到绝大多数物种的高质量参考基因组。对于功能基因组研究来说,高质量基因组序列的获取已不再是一个瓶颈,这预示着后基因组时代在多数物种中的全面到来。

    论文第一作者为梁承志研究组博士生杜会龙,通讯作者为梁承志。软件开发得到基因组分析平台的大力支持和帮助。该研究得到中国科学院战略性先导科技专项(A)“分子模块设计育种创新体系”等的资助。

  • 原文来源:http://news.bioon.com/article/6747669.html
相关报告
  • 《植物所开发出基因组组装质量评估和改进新方法》

    • 来源专题:生物育种
    • 编译者:季雪婧
    • 发布时间:2023-11-10
    •     近年来,随着测序技术和算法的开发,大量动植物基因组被陆续测序和组装,但基因组组装质量参差不齐,存在不同程度的组装错误,影响后续的相关研究。高质量的参考基因组对于基因的精准注释和功能研究以及比较基因组学和调控元件的挖掘等至关重要。目前已有一些基因组组装质量评估的方法,而多数方法仅提供概述性的评估值,未能针对特定区域设置特定碱基给出精准度的评估。     中国科学院植物研究所焦远年研究组研究开发了新的不依赖参考基因组的组装质量评估工具CRAQ (Clipping information for Revealing Assembly Quality),可以在单碱基水平检测和评估基因组序列的精准度,并提供了相关纠错方案。     CRAQ通过将原始测序序列比对到组装的基因组上,基于序列比对产生的有效剪切对齐(clipping alignment)信息,精准地检测基因组中存在的组装错误。结合SMS长读长测序片段和NGS短读长测序片段与基因组比对的特征,CRAQ可以识别基因组内小规模的区域组装错误(CREs)和大范围的结构组装错误(CSEs)。不同类别的错误数量经过统计和标准化处理后被转化为两个组装质量评估指标——R-AQI和S-AQI,以反映不同层面的基因组组装质量。     此外,CRAQ能够将组装错误与基因组内的高杂合区域或单倍型差异区分开来,并在单碱基分辨率下指示低质量组装区域和潜在错误断点的位置。因此,CRAQ能够帮助研究人员识别基因组中存在的嵌合片段,并将这些片段准确地拆分,以利于结合光学图谱或构象捕获(Hi-C)技术进一步构建结构更加准确的参考基因组。     10月17日,相关研究成果发表在《自然-通讯》(Nature Communications)上。研究工作得到国家重点研发计划、国家自然科学基金和中国科学院青年交叉团队项目等的支持。
  • 《水牛的新高质量参考基因组-爱丁堡大学》

    • 来源专题:动植物疫病
    • 编译者:刘小燕
    • 发布时间:2019-01-29
    • 研究人员创造了一种新的高质量水牛基因组装配,它超越了人类和山羊组装的连续性。评估基因组装配质量的一种方法是查看中断基因组序列连续性的间隙数。目前研究人员开发出的新水牛基因组装配体,其数量上的差距比以前人类和山羊基因组的数量少。尽管测序技术取得了进展,但我们产生长连续DNA序列读数的能力仍然有限,基因组中通常存在一些缺口。在这项研究中,研究人员结合了许多技术,从而使得可能产生异常高质量的染色体水平基因组组装。他们已经证明,通过组合这些技术,可以显着减少基因组中的缺口数量。水牛是经济上重要的牲畜物种,它通过肉类、牛奶、皮革和通风力为全球农业作出贡献。罗斯林研究所为这项研究作出了贡献,该研究由阿德莱德大学的约翰威廉姆斯教授教导。罗斯林科学家已经为超过50种组织产生了超过210亿个RNA测序读数,为水牛提供了全年的基因表达图谱,另外该数据的重要部分用于注释水牛基因组。