《科学家研发新的全基因组组装算法》

  • 来源专题:生物安全知识资源中心 | 领域情报网
  • 编译者: hujm
  • 发布时间:2019-12-19
  • 10年前,Illumina基因组测序技术进入市场时,前所未有的庞大数据量淘汰了较早开发的测序分析工具。

    历史总是重演。如今,第三代测序技术已经达到低成本群体测序规模的临界点。

    12月10日,《自然—方法学》在线发表了第一个能够跟上基因组测序产生速度的组装算法。

    论文作者、中国农业科学院农业基因组研究所博士阮珏与美国哈佛大学医学院博士李恒,将这个新的第三代测序数据组装算法称为Wtdbg。

    第三代测序的尴尬

    20年前,破译人类遗传密码还是极具挑战的大科学工程,当时的人类基因组测序计划与曼哈顿原子弹计划、阿波罗计划并称为三大科学计划。

    如今,完成一个人的全基因组测序已经是普通实验室甚至家庭都可以负担起费用的“平常事”。用第三代测序技术完成个体全基因组测序仅需一天,费用也已经低于5万元。

    2011年,PacBio公司正式宣布第三代单分子测序开始商业化。相比于第二代测序每个序列的几百碱基对测序读长,第三代测序的平均读长达到了几万碱基对,最长可以达到数百万碱基对。

    西北工业大学生态环境学院教授邱强告诉《中国科学报》,这一技术出现时,科研人员期待利用它填补基因组序列中高重复高杂合的区域,挑战高难度的基因组。然而,人们迅速发现,这一新技术的普及和应用遇到了很大的困难。

    “主要有两个原因:第三代测序的成本在初期要远高于第二代测序;由于第三代测序错误率较高,此前用于第二代基因组测序的组装方法纷纷失效,缺乏有效率的组装工具,特别是PacBio官方推出的falcon方法,消耗资源极多。”邱强介绍,数年后,Ont公司推出纳米孔测序技术,市场竞争逐渐拉低了第三代测序的成本。而在基因组组装方面,尽管已经出现了canu、marvel等多个组装软件,“但组装仍然是一个十分费时费力的过程,一个哺乳动物基因组的组装时间要数周”。

    以人类基因组组装为例,在2014年需要消耗50万个CPU小时,只能在超大计算机集群上进行。“这种情况下,同时对大量个体进行组装分析是难以想象的。”但现实是,“以全基因组组装方式对群体进行测序分析已经成为生物医学研究的趋势。”阮珏说。

    首次:数据分析比产生更快

    “wtdbg和即将推出的工具可能会从根本上改变当前测序数据分析的实践。”阮珏在接受《中国科学报》采访时说。

    此前,“数据产出速度远高于数据分析速度。”因此,近年来,生物信息学领域的科学家群体致力于改变这种尴尬状况,不断开发出更高效的组装分析算法。

    例如,继falcon、canu等算法之后,2019年4月,美国加利福尼亚大学圣迭戈分校NIH计算质谱中心主任Pavel A. Pevzner在《自然—生物技术》上发表了Flye算法,其速度远高于falcon、canu。

    而阮珏和李恒正式发表的第三代测序数据组装算法wtdbg,比之Flye算法,分析速度提升了5倍,也首次让数据分析时间少于产出时间。

    西北工业大学生态环境学院的科学家已经用wtdbg组装了十多个哺乳动物基因组。西北工业大学教授陈垒在接受《中国科学报》采访时说:“我们用过falcon和canu等组装方法,相比较而言,wtdbg组装运算时间最快,占用资源少,能节省大量时间。组装出的基因组连续性很高,组装质量均符合现在主流的基因组评估。”特别是,对超大型基因组的组装,wtdbg应该是目前为数不多的可以高效使用的组装软件。

    “对于人类基因组数据,wtdbg比已发布的工具快几十倍,同时实现了相当的连续性和准确性。它代表了算法上的重大进步,并为将来群体规模的组装分析铺平道路。”阮珏说。

    模糊布鲁因图问世

    上世纪90年代,Pavel A. Pevzner将德布鲁因图引入了基因组组装领域。德布鲁因图是一个展示符号序列之间重叠关系的有方向的图。阮珏介绍,由于第二代测序错误率低,大部分短串(k-mer)是正确的,相同的短串间可以利用德布鲁因图的原理合并起来构成组装图。

    但第三代测序数据的错误率非常高,如果还是使用短串k-mer的话,大部分短串带有测序错误,不可以合并起来。因此,德布鲁因图从未成功应用在第三代测序数据。

    突破性的方法基于突破性的理论基础。

    2013年开始,阮珏和李恒着手解决第三代测序组装的问题,分别开发的SMARTdenovo和Miniasm在领域内均有较好的表现。随后在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图。

    他们重新定义了“短串”,将测序数据切分为固定长度的新型短串k-bin,k-bin比k-mer的长度更长。“新设计的模糊布鲁因图能够容忍高噪声数据,并随后对生成组装图与恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。”阮珏说。

    “一般软件组装第三代测序数据的思路是,先对测序数据进行比对纠错,再进行基因组序列的构建。”邱强说,wtdbg则直接进行基因组组装,避免了需要提前纠错的耗时步骤,直接得到一个相对可靠的组装结果。

    “组装费时费力这一问题的真正改善,正是从阮珏和李恒研发的wtdbg算法开始。”邱强说。在他们的课题组中,wtdbg算法得到了广泛使用,极大提高了工作效率。不仅如此,他们还与阮珏进行了深入沟通,对超大基因组组装进行了优化,“我们得以获取40G左右的高质量基因组序列”。

    公众参与下的技术改进

    2016年,为了让基因组测序领域可以及时使用新技术,阮珏和李恒将wtdbg研究成果免费开放。

    3年来,wtdbg不仅被几十篇学术论文引用,还被国内多家基因组测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中作为性能测试赛题。

    “我们通过邮件、GitHub网站等方式收到大量反馈,这些反馈不仅帮助我们修订算法软件中的漏洞,还带来了新的想法和思路。换个角度来讲,现在发表的论文已经经历了3年多的‘公众审稿’,感谢多年来参与和关注wtdbg开发的同行。”阮珏说。

    邱强认为,wtdbg算法不仅相对于更早的falcon、canu等算法具有效率和准确性的优势,相比此后出现的flye等组装算法也更可靠。“这一研究成果表明我国在基因组算法领域具有了引领国际的实力,也代表了我国科技发展的软实力。”

    现在,科学家们可以使用全基因组组装的方式,对大群体开展研究了。

  • 原文来源:http://news.bioon.com/article/6748142.html
相关报告
  • 《中国科学家率先完成菊花全基因组测序》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:huangcui
    • 发布时间:2017-12-12
    • 12月7日,中国中医科学院中药研究所和安利植物研发中心对外发布消息称,由他们共同发起的科研团队,在菊花全基因组计划获重大进展的同时,还完成了重要的药用菊花品种——杭白菊的全长转录组遗传信息发掘。此举使我国成为世界上首次完成菊属植物菊花全基因组测序的国家。 研究人员表示,“菊花基因组测序的完成,是本草基因组研究的一个重要里程碑,该工作不仅对研究菊属的物种多样性研究、菊花的遗传进化机制研究和分子育种具有重要的意义,而且对研究具有重要药用价值的多倍体药用菊花——杭白菊具有重大的参考价值。” 面对菊花的复杂染色体遗传结构以及丰富的种质资源多样性,进行菊花基因组测序对于揭示菊属物种的起源进化及物种多样性具有重要意义。对此,2016年,中国中医科学院中药研究所和安利植物研发中心共同开启科研攻关,最终利用纳米孔测序技术突破复杂基因组测序,在菊属植物研究中迈出了人类认知的重要一步。 全基因组测序是对未知基因组序列的物种进行个体的基因组测序。全基因组测序能检测个体基因组中的全部遗传信息,其准确率可高达99%。可谓是基因组最为全面的研究方案。全基因组测序工作的完成,好比绘制了一张物种基因地图,对植物来说,科学家可按图索骥,大大缩短育种周期,培育更高产、抗病、美观的优质新品种。 据了解,菊属植物染色体结构复杂,包含从2n=18到8n=72之间的各种染色体组结构。生产上作为菊花茶使用的菊花(以著名的杭白菊为例)是一个复杂的多倍体物种,有多套二倍体亚基组成。菊属植物是一个非常大的种类,包括菊组和苞叶组两大分支,在每一个品种之下又有数量不等的栽培种,具有很高的观赏价值和药用价值。此次完成菊属植物全基因组测序,将有助于培育更具观赏价值,更具药用价值的菊属植物。 而被广泛熟知的野菊花、甘菊、菊花、异色菊等,都属于菊组,该分支植物主要特点为全部总苞片草质,边缘白色、褐色、棕褐色或黑褐色膜质。 面对菊花的复杂染色体遗传结构以及丰富的种质资源多样性,进行菊花基因组测序对于揭示菊属物种的起源进化及物种多样性具有重要意义。对此,2016年,中国中医科学院中药研究所和安利植物研发中心共同开启科研攻关,最终利用纳米孔测序技术突破复杂基因组测序,在菊属植物研究中迈出了人类认知的重要一步。 作为该科研团队成员的中国中医科学院中药研究所博士宋驰表示,他们在全球率先使用纳米孔测序这一最新的测序技术,完成了高等植物中全基因组测序,并克服了之前在二代测序技术时代解决不了的高杂合、高重复基因组组装的难题,此举必将极大推动植物基因组,尤其是药用植物基因组研究的发展,是本草基因组学研究的一项重要突破。 该科研团队透露,相关研究成果和基因组数据自即日起,在中国中医科学院中药研究所官网及安利植物研发中心学术研究网站公布,免费向全世界研究菊花的学术团队和非盈利组织开放。
  • 《中国科学家完成天敌昆虫广聚萤叶甲染色体水平基因组组装》

    • 来源专题:农业生物安全
    • 编译者:李周晶
    • 发布时间:2024-07-15
    •       植保所农业入侵生物预防与监控创新团队和南繁院南繁生物安全与风险评估团队采用了Nanopore长读序列、Illumina短读序列和染色体构象捕获(Hi-C)技术相结合的方法,首次将广聚萤叶甲 Ophraella communa 参考基因组提升至染色体水平,进行了结构和功能注释。该基因组为萤叶甲属中首个染色体水平的基因组组装,这一高质量的参考基因组不仅为更好地提升广聚萤叶甲的生物防治潜力提供了可靠的基因组数据基础,也为理解萤叶甲属的遗传学、生态学和系统进化提供宝贵的数据资源,研究结果于2024年6月在线发表于SCI刊物 《Scientific Data 》。        广聚萤叶甲原产于北美,为入侵杂草豚草 Ambrosia artemisiifolia 的专一性天敌昆虫,对豚草非常好的控制效果。为了更好地应用广聚萤叶甲,其化学生态学、繁殖生物学和耐寒遗传学的研究一直在进行中,原有的基因组草图已不能满足目前研究的需求。研究人员首先构建了广聚萤叶甲的实验室种群,经过多代近交降低杂合度后,测序获得Nanopore长读长序列和Illumina短读长序列,分别用于组装和矫正基因组,得到基因组大小为735.31 Mb,contig N50为7.05 Mb的组装结果。结合染色体构象捕获(Hi-C)技术,将基因组挂载到17条染色体上。结构注释共鉴定了25,873个蛋白质编码基因,其中22,084个基因同时被功能注释。此外,在基因组中注释了204个 rRNA,626个 tRNA,1791个小 RNA。重复序列注释得到的重复元件占基因组的414.41 Mb (57.76%)。BUSCO评估基因组组装完整度为99.7%,注释完整度为95.1%,利用Illumina短读长序列对基因组组装的准确性进行评估,比对率为99.56%。