在过去的8年里,基因组聚合数据库联盟(gnomAD)(以及它的前身外显子组聚合联盟,简称ExAC)一直在与世界各地的遗传学家合作,汇编和研究来自世界各地人群的超过12.5万个外显子和1.5万个全基因组。
现在,在《自然》、《自然通讯》和《自然医学》杂志上发表的七篇论文中,gnomAD联盟的科学家描述了他们从数据库中获得的第一组发现,展示了这个庞大数据集的威力。一起研究:
提供一个更完整的目录和对一类被称为功能损失(LoF)变异的罕见遗传变异的理解,这被认为是破坏基因编码的蛋白质;
介绍一种尚未被充分研究但很重要的遗传变异——结构变异——的最大综合参考图;
展示工具如何解释独特的变异形式和变异的生物背景,可以帮助临床遗传学家试图诊断病人罕见的遗传疾病;和
说明像gnomAD这样的人口规模数据集如何帮助评估药物靶点。
麻省理工学院布罗德研究所(Broad Institute of MIT)和哈佛大学及麻省总医院(Harvard and Massachusetts General Hospital, MGH)的研究人员与来自英国帝国理工学院(Imperial College London)、直接面向消费者的遗传学公司23andMe以及其他机构的科学家共同撰写了所有这些研究的第一作者或共同高级作者。国际上有100多名科学家和团体向该联盟提供了数据和/或分析工作。
“这些研究发现的第一个有效波的gnomAD财团,”丹尼尔。麦克阿瑟说科学gnomAD项目的领导,六个研究的高级作者,一个研究所成员计划在广泛的医疗和种群遗传学研究所,现在人口基因组学中心主任Garvan医学研究所的,在澳大利亚默多克儿童研究所的。“这个数据库的强大之处在于其庞大的规模和人口的多样性,而我们能够做到这一点,要感谢为其提供数据的研究人员,以及那些提供研究的研究参与者的慷慨解囊。”
”在某种意义上,gnomAD是财团,财团的产物在底层数据代表的工作和贡献许多组织已经收集外显子组和基因组序列的理解人类生物学,”康拉德•Karczewski说,《自然》杂志的论文第一作者收集的旗舰和广泛,MGH的分析和计算生物学家平移遗传单位。“每一篇论文都代表着一个人给数据集带来了一个新的角度,他说,‘我有一个想法,我们如何能把所有这些工作,’并为遗传学社区创造了一个新的资源。”看着它展开真是太棒了。”
GNOMAD LOOKBACK
麦克阿瑟和他在Broad和MGH的同事们先后建立了ExAC和gnomAD,以扩展1000个基因组项目(1000 genome Project)和其他项目的工作。1000个基因组项目是首个为人类基因变异分类的大规模国际项目。
麦克阿瑟回忆道:“2012年,我的实验室对罕见疾病患者的基因组进行测序,发现现有的正常变异目录不够大或不够多样化,不足以帮助我们解释我们所看到的基因变化。”“与此同时,我们在世界各地的同事对成千上万的人进行了测序,以研究常见的、复杂的疾病。所以我们着手把这些数据集放在一起,为罕见疾病研究创建一个参考数据集。”
ExAC于2014年10月发布了首个完整的exome数据集。然后,它开始收集整个基因组数据,演变成gnomAD联盟,并在2017年2月发布了gnomAD v1.0。
随后发布的gnomAD着重于增加外泌体和基因组的数量、数据中突出显示的变异的数量以及数据集的多样性。
新发表的论文基于gnomAD v2.1.1数据集,该数据集包括来自超过2.5万人的东亚和南亚血统、近1.8万名拉美血统和1.2万名非洲或非洲裔美国人血统的基因组和外显子。
综合目录
七篇论文中有两篇展示了大量的基因组数据集如何帮助研究人员更多地了解罕见或未研究的遗传变异类型。
这项由卡尔切夫斯基和麦克阿瑟领导的旗舰研究发表在《自然》杂志上,描述了gnomAD和地图的功能缺失(LoF)变异:基因变化被认为是完全扰乱蛋白质编码基因的功能。作者在gnomAD数据集中识别了超过443,000个LoF变体,大大超过了以前的所有目录。通过比较这些罕见变异的数量在每一个基因与新模式的预测人类基因的突变率,作者也能够分类所有蛋白质编码基因据他们是多么宽容的颠覆性突变,基因是如何可能导致重大疾病时基因变化而中断。这个新的分类系统精确地定位了那些更可能与严重疾病有关的基因,比如智力残疾。
“gnomAD目录为我们提供了迄今为止最好的基因对变异的敏感性图谱,并提供了支持常见和罕见疾病基因发现的资源,”Karczewski解释说。
当Karczewski和MacArthur的研究集中于小的变异(点突变、小的插入或删除等)时,研究生Ryan Collins、Broad联合科学家Harrison Brand、研究所成员Michael Talkowski和同事使用gnomAD探索结构变异。这类基因组变异包括复制、删除、逆转录和涉及较大DNA片段的其他变化(通常大于50-100个碱基长)。他们的研究也发表在《自然》杂志上,介绍了gnomAD- sv,这是一个在近15000个gnomAD基因组中发现的超过43.3万个结构变异的目录。gnomAD-SV中的变体代表了大多数已知的主要结构变体类别,并共同形成了迄今为止最大的结构变体图。
塔尔科夫斯基说:“众所周知,在全基因组数据中识别结构变异非常困难,而且以前从未进行过这种规模的研究。”塔尔科夫斯基也是麻省总医院基因组医学中心的教员。“但它们改变的基因组个体碱基比任何其他形式的变异都多,是人类进化和疾病的既定驱动因素。”
他们的调查得出了几个令人惊讶的结果。例如,作者发现,在平均个体基因组中,至少有25%的罕见LoF变异实际上是结构变异,许多人携带的是应该是有害或有害的结构改变,但没有预期的表型或临床结果。
他们还指出,许多基因对复制和删除同样敏感;也就是说,从进化的角度来看,获得一个或多个基因拷贝可能和失去一个一样不受欢迎。
塔尔科夫斯基说:“通过在gnomAD中建立这个目录,我们学到了很多东西,但我们显然只了解了基因组结构对生物学和疾病的影响的皮毛。”
更好的诊断工具
其中三篇论文揭示了gnomAD对不同类型的遗传变异和变异发生的细胞环境的深入分类,可以帮助临床遗传学家更准确地确定给定的变异是否可能对患者具有保护作用、中性作用或有害作用。
在《自然》杂志的一篇论文中,Beryl Cummings,一个前Broad/MGH研究生,现在在Maze Therapeutics, MacArthur,和他的同事发现,基于组织的基因片段表达的差异可以改变这些基因片段中变异对生物和疾病风险的下游影响。该团队结合了gnomAD和基因型组织表达(GTEx)项目的数据,开发了一种利用这些差异来评估变异的临床意义的方法。
在《自然通讯》杂志上,麦克阿瑟、研究生王清波和合作者调查了多核核苷酸变异——由两个或两个以上的邻近碱基对变化共同遗传而成的变异。这些变异可能会产生复杂的影响,而这项研究首次尝试系统地对这些变异进行分类,检查它们在整个基因组中的分布,并预测它们对基因结构和功能的影响。
自然通信和在一个单独的研究中,麦克阿瑟,尼古拉Whiffin和伦敦帝国学院的James制品,和同事的影响进行了探讨DNA基因的5 '未翻译区域中发生变异,这是位于细胞的转录机制之前,开始阅读一个基因的蛋白质编码的基因。这些区域的变异可以欺骗细胞开始在错误的位置读取基因,但这在以前还没有得到很好的证明。
“临床实验室每天都在使用gnomAD,”临床遗传学家海蒂·雷姆(Heidi Rehm)说;博德公司MPG研究所成员,博德公司临床研究测序平台医学主任;MGH医学部首席基因组学官;与布罗德研究所gnomAD指导委员会成员Mark Daly共同担任主席。“这些研究中的方法已经帮助我们更好地解释病人的基因测试结果。”
指导药物开发
剩下的两项gnomAD研究描述了多样性、人群规模的遗传数据如何帮助研究人员评估和选择最佳药物靶点。
2018年,布罗德联合研究所的科学家埃里克·米尼克尔(Eric Minikel)在他的研究博客上沉思了一下,关于具有自然发生的预测LoF变异的基因是否可以用来评估药物靶向这些基因的安全性。他写道,如果自然灭活的基因似乎没有有害影响,或许可以用药物安全地抑制该基因。这篇博文成为了《自然》杂志的一篇论文的基础,米尼克尔、麦克阿瑟和他的同事利用gnomAD数据集来探究这个问题。他们提出了在药物开发过程中结合LoF变异的方法。
利用专业知识广泛,迈克尔·j·福克斯基金会发起的Whiffin帝国理工学院之间的合作,麦克阿瑟,广大博士后Irina Armean, 23 andme的亚伦Kleinman和保罗炮,和其他人使用LoF变体在gnomAD编目,英国生物库,和23 andme研究的潜在安全负债减少LRRK2基因的表达,这与帕金森病的风险。在《自然医学》杂志上,他们利用这些数据预测,降低LRRK2蛋白水平或部分阻断该基因活性的药物不太可能产生严重的副作用。
“我们已经在gnomAD中记录了大量的基因干扰变异,”麦克阿瑟说。“通过这两项研究,我们已经展示了如何利用这些变异来阐明和评估潜在的药物靶点。”
日益增长的影响
从一开始,所有数据的公共共享就是gnomAD项目的核心原则。这七篇论文背后的数据在2016年通过gnomAD浏览器公开发布,没有使用或出版限制。
“这一资源已经对医学研究和临床实践产生了广泛的影响,证明了基因组数据共享和聚合的不可思议的价值,”麦克阿瑟说。“自从我们提供数据以来,已经有超过350个独立的研究使用gnomAD来研究癌症易感性、心血管疾病、罕见的遗传疾病,以及更多其他方面。
“但我们离饱和的发现或解决不同的解释还很远,”他补充说。“该联盟的下一步工作将集中于增加这些资源的规模和种群多样性,并将由此产生的大规模遗传数据集与临床信息联系起来。”
国家普通医学科学研究所为gnomAD的开发提供了支持;国家糖尿病、消化和肾脏疾病研究所;国家人类基因组研究所;国家精神卫生研究所;国家心肺血液研究所;维康信托基金、生物素制药公司和赛诺菲-健赞公司。提供的额外支持gnomAD研究是国家研究资源中心国家医学转化中心,尤尼斯•肯尼迪•施莱佛国立儿童健康和人类发展研究所,英国医学研究理事会,Rosetree信托,迈克尔·j·福克斯帕金森氏症研究基金会,和其他来源。