《科研人员发布人类基因组结构变异数据库和计算分析平台》

  • 来源专题:转基因生物新品种培育
  • 编译者: 姜丽华
  • 发布时间:2022-10-31
  •   10月16日,复旦大学生命科学学院/人类表型组研究院教授徐书华团队、中国科学院上海营养与健康研究所研究员张国庆、复旦大学生命科学学院研究员樊少华合作,开发出人类基因组结构变异数据库PGG.SV(https://www.biosino.org/pggsv/)。相关研究成果以PGG.SV: a whole-genome-sequencing-based structural variant resource and data analysis platform为题,发表在《核酸研究》(Nucleic Acids Research)上。该数据库通过收集全球人群的全基因组测序数据,专注于基因组结构变异数据的挖掘和整合,为人类基因组结构变异的研究提供了数据获取、信息查询和在线分析的综合平台。

      基因组结构变异(SVs)主要包括基因组上大片段的DNA缺失、插入、片段重复等变异类型。研究显示,SV与癌症、自闭症、神经发育障碍等多种复杂遗传病有关,近年来在医学和遗传学领域中持续受到关注。随着基因组测序技术的进步和普及,大量的结构变异被不断发现和研究,一些具有强致病性的结构变异也逐渐得到验证。该研究旨在通过构建具有代表性、多样性的健康人群基因组结构变异数据集,一方面为遗传病患者的结构变异研究提供可靠的对照样本,另一方面对变异功能的注释和预测将有效缩小致病性突变的筛选范围,为相关领域研究提供有效的指导和帮助。

      由于结构变异在不同地区和民族之间存在显著差异和多样性,而现有的数据库和公共数据集各自采用不同的分析流程,因此缺乏具有人群样本和新一代测序数据代表性的结构变异资源和分析平台,尤其对东亚人群样本的覆盖度不足。科研团队整合了大规模的测序数据,包括全球177个代表性地区和族群的6,048个全基因组测序数据,特别对我国丰富的民族多样性特征进行了深度分析,首次覆盖了我国50个少数民族。截至论文发表,数据库共收录584,277个结构变异,并将在未来持续增加。此外,PGG.SV首次纳入了三代长读长(long-reads)测序数据,其在结构变异的检测中具有更大的优势,特别是在插入序列的检测和判定方面,效果显著优于二代测序技术。先前的大规模结构变异数据库均基于二代测序或基因芯片数据构建。研究团队产生和收集了1,030个三代测序基因组,并首次采用三代测序与二代测序结合的方式构建结构变异数据库,从而大幅提升了结构变异检测结果的数量和质量。

      在数据库功能上,PGG.SV提供了简洁、友好的查询功能,提供不同族群结构变异在基因组位置上的精确展示以及全球各个族群之间的频率差异等统计信息。利用课题组先前积累的优势,PGG.SV与徐书华团队此前开发的PGG.SNV等数据库进行联动,借助连锁不平衡和基因组空间位置信息,将单核苷酸变异(SNV)的详细结果与结构变异相结合,以增强数据多样性的解析功能。此外,PGG.SV提供了丰富的临床效应分析和预测分析功能,根据与结构变异存在关联的基因和调控元件,提供对其潜在表型、功能的预测和富集分析以及由特定疾病和表型检索相关结构变异的工具,以便有临床研究等需求的用户使用。

      此外,PGG.SV支持丰富的在线分析和可视化功能。研究团队提供对用户提交的结构变异结果的比较和注释,以便使用者了解自己的目标样本与数据库提供的对照样本之间的差异;提供结构变异可视化功能,能够在人类基因组上检索用户提交的DNA序列、展示相关变异的基因组位置以及变异空间结构变化的精细可视化。

      PGG.SV提供了高质量的人群基因组结构变异数据资源,基于新一代测序数据大幅提升人类基因组结构变异信息检测和展示,尤其是首次较为全面地覆盖了东亚人群和中国人群的结构变异多样性,并提供相关基因和潜在临床效应的注释。此外,该平台提供了包括病例对照研究在内的多种在线分析功能以及人类基因组结构变异的可视化工具。

      研究工作得到国家自然科学基金、中国科学院战略性先导科技专项、英国皇家学会牛顿高级学者基金、人类表型组上海市市级重大专项等的支持。

  • 原文来源:http://www.cas.ac.cn/syky/202210/t20221019_4851735.shtml
相关报告
  • 《中国科研人员发布人类基因组结构变异数据库和计算分析平台》

    • 来源专题:生物安全网络监测与评估
    • 编译者:闫亚飞
    • 发布时间:2022-11-26
    • 据生物谷网10月21日消息,复旦大学和中国科学院的研究团队开发出高质量人类基因组结构变异数据库PGG.SV,为人类基因组结构变异的研究提供数据获取、信息查询和在线分析的综合平台。PGG.SV提供了全球177个代表性地区和族群的6048个全球人群的全基因组测序数据,共计584277个结构变异,尤其覆盖东亚人群和中国50个少数民族的结构变异多样性,并提供相关基因和潜在临床效应的注释。此外,PGG.SV首次采用三代测序与二代测序结合的方式纳入了1030个三代长读长测序基因组数据,大幅提升了结构变异检测结果的数量和质量。该研究旨在通过构建具有代表性、多样性的健康人群基因组结构变异数据集,为遗传病患者的对照研究和致病性突变的筛选等研究领域提供有效的指导和帮助。相关研究成果发表于Nucleic Acids Research期刊。
  • 《首个全球人群基因组多样性和祖源信息数据库》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:huangcui
    • 发布时间:2017-12-06
    • 11月3日,中国科学院上海生命科学研究院(人口健康领域)计算生物学研究所徐书华课题组的研究成果,以PGG.Population: a database for understanding genomic diversity and genetic ancestry of human populations为题,在线发表在《核酸研究》上。该研究分析了涵盖全球范围107个国家的356个人类族群的基因组多样性和祖源信息,并发布了开放获取的专门数据库——PGG.Population(群体基因组学·族群)。 PGG.Population是迄今唯一在基因组水平专门解析人类族群遗传关系和祖源信息的公开数据库,也是目前收集族群数量最大的群体基因组数据库,为研究人员、临床医生及学生和公众理解不同人群的遗传背景提供查询和分析平台。 人类族群多样性的形成是迁移、隔离、分化、再接触和交流的复杂演化过程。同时,长期对特定环境的适应或能影响特定的性状以及基因组局部区域的多样性变化。相对来讲,人群的基因组多样性在很大程度上决定了其表型多样性——这也是族群特异性的表型可以世代传承的原因。因此,要真正理解人类不同族群在肤色、体质以及疾病等性状上的差异,最终需要回到基因组、追溯人群的演化历程。 众多大型国际计划(比如人类单倍体型图计划和千人基因组计划)以及我国此前完成的各类全基因组关联研究(GWAS)集中关注常见主体人群,而对各地少数族群(大多是土著人群)的研究较为缺乏。部分研究人员逐渐意识到,在一个人群研究中的困惑,往往在另一个人群的研究中找到答案,例如科研人员对比青藏高原人群的基因组,了解到为何平原人群无法像藏族人那样舒适地生活在高原上。专家认为,这就是多样性的魅力,也是进化留给我们的财富。 PGG.Population正是在这样的大背景下建立起来。研究人员通过测序或收集众多人类群体基因组研究数据,对每个族群的基因组重新整合与分析(包括人群的地理语言归属等基本信息、Y染色体与线粒体谱系、群体间亲缘关系、群体遗传结构、遗传混合以及自然选择印记等),并建立数据库,以开放获取的方式向公众展示每个族群的基因组多样性与祖源信息。 目前,该数据库包括7122个个体的基因组数据,覆盖107个国家的356个族群,每个族群都有自己的“故事”。该数据库以理解每个人群的基因组多样性与遗传背景为主,对其他研究领域也具有重要的学术意义和应用价值,人类群体基因组数据库建设任重道远。全世界有2000多个族群,而该数据库目前只包括世界族群的1/6。课题组正在收集或产生更多的来自不同族群基因组数据,以覆盖更多的族群,以期用于全面探索亚洲人群尤其是东亚、东南亚族群的演化历史和自然选择等遗传和演化问题。同时,数据库可供遗传学、语言学、体质人类学、医学等行业参考和使用,应用于生物医学等多个领域的研究。此外,科研人员希望公众通过访问和查询该数据库,对人类基因组多样性和人群祖源等方面的知识和信息有更广泛和深入的理解。 研究工作得到了中国科学院战略性先导科技专项(B类)、国家自然科学基金委重大研究计划及国家相关人才计划、中国科学院青年促进会、上海市科委等的资助,并得到国家遗传与发育协同创新中心支持。