《Nature | 人类全基因组的变异受限图谱:基于7.6万人DNA测序数据的分析》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-12-07
  • 2023年12月6日,美国Broad研究所Siwei Chen和Konrad J. Karczewski联合Benjamin M. Neale和Daniel G. MacArthur团队在Nature上发表了题为A genomic mutational constraint map using variation in 76,156 human genomes的文章。研究人员建立了gnomAD v3,整合分析了7.6万余人的全基因组测序数据——这是目前最大的人类全基因组等位基因频率的开源数据库——并利用它构建了人类全基因组的变异受限图谱(genome-wide mutational constraint map)。

    研究人员提出了一个新的适用于模拟非编码区变异的统计模型,该模型结合了局部DNA序列和区域基因组特征对突变率的影响,以更准确的度量自然选择对于任一特定DNA区域发生突变的限制程度。大规模分析结果显示,与蛋白质编码区相比,非编码区整体上受到负选择的程度较弱;但在所发现的变异受限的区域中,富集了具有基因调控功能的元件,以及与人类疾病和特征相关的变异,这为定位和表征功能性非编码区域提供了有效帮助。同时,研究人员还发现,变异受限的调控元件更倾向于调控那些同样受限的蛋白质编码基因,这提示我们,通过研究非编码区,可以更好地识别功能重要的基因,更完整地了解它们的调控机制和网络,以及它们的变异对于人类复杂遗传疾病和表型的影响。

    总的来说,该研究拓展了我们对于人类非编码DNA的认识。研究人员所构建的全基因组范围的变异受限图谱有助于科研人员发现和解释在人类健康中起着关键作用的遗传变异;而这些变异可能在罕见病患者的基因诊断中被检测到,为患者疾病的遗传原因提供重要线索,进而有望为针对性的精准治疗提供新的思路和方法。


  • 原文来源:https://www.nature.com/articles/s41586-023-06045-0
相关报告
  • 《科研人员发布人类基因组结构变异数据库和计算分析平台》

    • 来源专题:转基因生物新品种培育
    • 编译者:姜丽华
    • 发布时间:2022-10-31
    •   10月16日,复旦大学生命科学学院/人类表型组研究院教授徐书华团队、中国科学院上海营养与健康研究所研究员张国庆、复旦大学生命科学学院研究员樊少华合作,开发出人类基因组结构变异数据库PGG.SV(https://www.biosino.org/pggsv/)。相关研究成果以PGG.SV: a whole-genome-sequencing-based structural variant resource and data analysis platform为题,发表在《核酸研究》(Nucleic Acids Research)上。该数据库通过收集全球人群的全基因组测序数据,专注于基因组结构变异数据的挖掘和整合,为人类基因组结构变异的研究提供了数据获取、信息查询和在线分析的综合平台。   基因组结构变异(SVs)主要包括基因组上大片段的DNA缺失、插入、片段重复等变异类型。研究显示,SV与癌症、自闭症、神经发育障碍等多种复杂遗传病有关,近年来在医学和遗传学领域中持续受到关注。随着基因组测序技术的进步和普及,大量的结构变异被不断发现和研究,一些具有强致病性的结构变异也逐渐得到验证。该研究旨在通过构建具有代表性、多样性的健康人群基因组结构变异数据集,一方面为遗传病患者的结构变异研究提供可靠的对照样本,另一方面对变异功能的注释和预测将有效缩小致病性突变的筛选范围,为相关领域研究提供有效的指导和帮助。   由于结构变异在不同地区和民族之间存在显著差异和多样性,而现有的数据库和公共数据集各自采用不同的分析流程,因此缺乏具有人群样本和新一代测序数据代表性的结构变异资源和分析平台,尤其对东亚人群样本的覆盖度不足。科研团队整合了大规模的测序数据,包括全球177个代表性地区和族群的6,048个全基因组测序数据,特别对我国丰富的民族多样性特征进行了深度分析,首次覆盖了我国50个少数民族。截至论文发表,数据库共收录584,277个结构变异,并将在未来持续增加。此外,PGG.SV首次纳入了三代长读长(long-reads)测序数据,其在结构变异的检测中具有更大的优势,特别是在插入序列的检测和判定方面,效果显著优于二代测序技术。先前的大规模结构变异数据库均基于二代测序或基因芯片数据构建。研究团队产生和收集了1,030个三代测序基因组,并首次采用三代测序与二代测序结合的方式构建结构变异数据库,从而大幅提升了结构变异检测结果的数量和质量。   在数据库功能上,PGG.SV提供了简洁、友好的查询功能,提供不同族群结构变异在基因组位置上的精确展示以及全球各个族群之间的频率差异等统计信息。利用课题组先前积累的优势,PGG.SV与徐书华团队此前开发的PGG.SNV等数据库进行联动,借助连锁不平衡和基因组空间位置信息,将单核苷酸变异(SNV)的详细结果与结构变异相结合,以增强数据多样性的解析功能。此外,PGG.SV提供了丰富的临床效应分析和预测分析功能,根据与结构变异存在关联的基因和调控元件,提供对其潜在表型、功能的预测和富集分析以及由特定疾病和表型检索相关结构变异的工具,以便有临床研究等需求的用户使用。   此外,PGG.SV支持丰富的在线分析和可视化功能。研究团队提供对用户提交的结构变异结果的比较和注释,以便使用者了解自己的目标样本与数据库提供的对照样本之间的差异;提供结构变异可视化功能,能够在人类基因组上检索用户提交的DNA序列、展示相关变异的基因组位置以及变异空间结构变化的精细可视化。   PGG.SV提供了高质量的人群基因组结构变异数据资源,基于新一代测序数据大幅提升人类基因组结构变异信息检测和展示,尤其是首次较为全面地覆盖了东亚人群和中国人群的结构变异多样性,并提供相关基因和潜在临床效应的注释。此外,该平台提供了包括病例对照研究在内的多种在线分析功能以及人类基因组结构变异的可视化工具。   研究工作得到国家自然科学基金、中国科学院战略性先导科技专项、英国皇家学会牛顿高级学者基金、人类表型组上海市市级重大专项等的支持。
  • 《科学家解析寨卡病毒基因组RNA二级结构图谱》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:huangcui
    • 发布时间:2019-01-24
    • 近期清华大学生命科学学院张强锋课题组、药学院谭旭课题组在《细胞宿主与微生物》(Cell Host & Mircobe)期刊在线发表题为《寨卡病毒基因组RNA结构的综合分析揭示了病毒感染性的关键决定因素》(Integrative Analysis of Zika Virus Genome RNA Structure Reveals Critical Determinants of Viral Infectivity)的研究论文。该论文对寨卡病毒的RNA基因组在二级结构层次进行了综合分析和建模,并在此基础上发现且验证了一个只在流行株系中特异性存在的长程RNA-RNA相互作用,研究表明该相互作用可能促进寨卡病毒流行株系的细胞感染功能。论文显示了RNA二级结构对寨卡病毒的重要作用,阐释了调控RNA病毒传染性和毒性的新型分子机制,为相关药物开发提供了重要的结构基础。 寨卡病毒是一种黄热病毒。与登革病毒、乙型脑炎等常见典型黄热病毒类似,寨卡病毒通过蚊虫叮咬在人类和其它动物中传播,对人类健康有严重的威胁。寨卡病毒有两个流行株系:一个比较古老的非洲株系,于 1947年发现于非洲;另一种是流行的亚洲株系(又称美洲株系),原在东南亚流行,后在南美洲和中北美洲爆发。目前,对人类威胁较大的株系是亚洲株系。早在2013年法属波利尼西亚群岛(大溪地)和2015年巴西的寨卡疫情中,人们就发现感染寨卡病毒孕妇的胎儿会有小头畸形的症状,同时亚洲株系也被发现会引起格林巴氏综合症。2016年寨卡病毒大规模流行,据统计感染规模超过百万人;因此被世界卫生组织宣布为国际公共卫生紧急事件。 自从大规模流行以后,寨卡病毒吸引了广泛的研究关注。一个重要的科学问题是理解流行株系和非流行株系的基因组差异在病毒传播过程中的作用。以前的研究主要关注氨基酸或者说蛋白质的差异。比如在2017年,军事医学科学院的秦成峰课题组和清华大学的程功课题组分别报道了两个关键的病毒蛋白的氨基酸单位点突变,这些突变对寨卡流行病毒株系的毒性和传播有关键提升作用。然而,比较基因组的分析结果表明,寨卡病毒流行株系和非流行株系的大部分基因组差异并不带来氨基酸的变化,而是发生在非编码区的突变和编码区的同义突变。这些在蛋白层次“沉默”的突变有可能在RNA层次造成功能和调控的差异。然而,由于技术的限制,人们对此所知甚少。 和其它黄热病毒一样,寨卡病毒的基因组是一条长为一万个核苷酸左右的正链RNA,其中包括编码全部11个病毒蛋白的编码区以及5’端和3’端的非编码区域。在本研究中,研究者综合利用了两种新型的、基于高通量测序技术的RNA二级结构研究手段,平行解析并比较了亚洲株系和非洲株系的寨卡病毒在哺乳动物细胞内的基因组RNA结构。这两种新技术包括利用小分子修饰结合深度测序探测RNA二级结构的icSHAPE技术(2015年发表于Nature),和利用小分子交联结合深度测序检测RNA分子相互配对作用的PARIS技术(2016年发表于Cell)。研究者将测得的icSHAPE和PARIS数据和已知病毒RNA元件的二级结构进行了系统比较,验证了两种技术解析病毒RNA结构的有效性。以PARIS数据为依据,对寨卡病毒RNA基因组进行了RNA结构域的划分,并在结构域的基础上,结合icSHAPE数据和RNA结构预测软件,构建了亚洲和非洲株系寨卡病毒全基因组RNA的二级结构模型。 值得注意的是,结合 PARIS数据和寨卡病毒各亚型的系统进化分析,研究者从中发现了一个亚洲株系特异的5’端非编码区和病毒包膜蛋白编码区之间的长距离RNA-RNA相互作用。在这个区域,亚洲株系相对于非洲株系有很大的核苷酸差异。这些差异都特异的位于氨基酸密码子的第三位因而不影响编码蛋白,但却形成了亚洲株系中特异RNA相互作用的基础。研究者对这个RNA-RNA相互作用进行了突变和回补实验,验证了其对亚洲株系的重要性,如果破坏该相互作用会大幅降低寨卡病毒在神经胶质瘤细胞中的感染性。这个结果揭示了RNA二级结构对于病毒感染性调控的复杂性和重要性,对于理解病毒的基因组组成和进化,开发新型基于RNA的抗病毒药物都有启示意义。 清华大学生命学院张强锋研究员和药学院谭旭研究员为本文的通讯作者,CLS项目博士生李盼、生命学院博士生魏逸凡、梅淼和PTN项目博士生生唐磊为本文共同第一作者。本工作得到了军事科学院秦成峰、加州大学河边分校和清华大学姜涛、苏州大学戴剑锋等的帮助,并获得国家重点研发计划项目、国家自然科学基金、清华大学结构生物学高精尖中心、清华-北大生命科学联合中心和国家青年相关人才计划项目的资金支持。