2024年5月20日,美国再生元基因中心的研究人员在 Nature 期刊发表了题为A deep catalogue of protein-coding variation in 983,578 individuals的文章。
对功能有重大影响的罕见编码变异有助于深入了解基因的生物学特性。然而,确定其频率需要大量样本。该研究展示了人类蛋白质编码变异的目录,该目录来自不同人群中 983,578 个个体的外显子测序。再生元基因中心百万外显子组数据(RGC-ME)中有 23% 来自非洲、东亚、美洲土著、中东和南亚血统的非欧洲人。该目录包括 1040 多万个错义变异和 110 多万个预测功能缺失 (pLOF) 变异。研究人员在 4,848 个基因中发现了具有罕见的双拷贝 pLOF 变异的个体,其中 1,751 个基因以前从未报道过。
通过对杂合功能缺失选择的精确定量估计,研究人员确定了 3,988 个不耐受功能缺失的基因,其中包括 86 个以前被评估为耐受的基因和 1,153 个缺乏既定疾病注释的基因。研究人员还确定了高分辨率的错义缺失区域。值得注意的是,有 1,482 个基因尽管对 pLOF 变异具有耐受性,但其错义变体区域却已耗尽。最后,研究人员估计有 3% 的个体存在可用于临床的基因变异,而 ClinVar 中报告的 11,773 个意义不明的变异很可能是有害的隐性剪接位点。为了方便对变异的解释和以遗传学为依据的精准医疗,研究人员通过一个公开的变异等位基因频率浏览器,提供来自 RGC-ME 的这一重要编码变异资源。