《Nature | 983578 个个体的蛋白质编码变异深度目录》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2024-05-24
  • 2024年5月20日,美国再生元基因中心的研究人员在 Nature 期刊发表了题为A deep catalogue of protein-coding variation in 983,578 individuals的文章。

    对功能有重大影响的罕见编码变异有助于深入了解基因的生物学特性。然而,确定其频率需要大量样本。该研究展示了人类蛋白质编码变异的目录,该目录来自不同人群中 983,578 个个体的外显子测序。再生元基因中心百万外显子组数据(RGC-ME)中有 23% 来自非洲、东亚、美洲土著、中东和南亚血统的非欧洲人。该目录包括 1040 多万个错义变异和 110 多万个预测功能缺失 (pLOF) 变异。研究人员在 4,848 个基因中发现了具有罕见的双拷贝 pLOF 变异的个体,其中 1,751 个基因以前从未报道过。

    通过对杂合功能缺失选择的精确定量估计,研究人员确定了 3,988 个不耐受功能缺失的基因,其中包括 86 个以前被评估为耐受的基因和 1,153 个缺乏既定疾病注释的基因。研究人员还确定了高分辨率的错义缺失区域。值得注意的是,有 1,482 个基因尽管对 pLOF 变异具有耐受性,但其错义变体区域却已耗尽。最后,研究人员估计有 3% 的个体存在可用于临床的基因变异,而 ClinVar 中报告的 11,773 个意义不明的变异很可能是有害的隐性剪接位点。为了方便对变异的解释和以遗传学为依据的精准医疗,研究人员通过一个公开的变异等位基因频率浏览器,提供来自 RGC-ME 的这一重要编码变异资源。

  • 原文来源:https://www.nature.com/articles/s41586-024-07556-0
相关报告
  • 《深度学习助力蛋白的设计》

    • 来源专题:生物科技领域知识集成服务
    • 编译者:陈方
    • 发布时间:2020-09-11
    • 蛋白设计通常有两种方法:“定向进化”是指随机改变编码天然蛋白质的氨基酸构件的基因序列,筛选具有所需活性的变体;“合理设计”是根据蛋白质3D结构对其进行建模,以识别可能影响蛋白质功能的氨基酸。然而,定向进化只能触及庞大数量蛋白质序列中的一小部分,而合理设计则需要对蛋白质3D结构进行艰难的解析。 2019年10月21日Nature Methods报道,哈佛大学Wyss生物启发工程研究所和哈佛医学院的研究人员创建了第三种蛋白质设计方法,利用深度学习直接从氨基酸序列中预测蛋白质基本特征。研究结果显示,该方法准确地预测了天然和从头设计的蛋白质功能,将大量工作转移给计算机,与现有方法相比,可将成本降低两个数量级。 研究人员将这个神经网络方法命名为“统一表示”(unified representation,UniRep),在大约三周的时间内,研究者对UniRep进行了约2400万个蛋白质序列的训练,以关联蛋白质序列及其特性,包括蛋白质稳定性、二级结构以及蛋白质内部序列对周围溶剂的可及性等。结果UniRep准确地描述了来自不同的蛋白质家族的蛋白质的这些特征,包括那些已经被研究清晰解析的蛋白质,以及自然界中不存在的蛋白质。 该团队进一步将UniRep作为研究工具,预测单个氨基酸取代如何影响蛋白质功能。该神经网络以多种生物学功能(包括酶催化、DNA结合、分子传感)可靠地预测8种不同蛋白质中单个氨基酸突变影响。此外,研究者使用绿色荧光蛋白作为模型,利用UniRep分析了该蛋白的64,800个变异体,每个变异体带有1~12个突变,结果UniRep准确地预测了突变的分布及其对蛋白质亮度的影响。 研究者表示,这种基于深度学习的蛋白质工程计算方法具有加速合成蛋白质设计的潜力,该方法可以针对任何所需应用量身定制蛋白质功能,可用于治疗、诊断、生物制造、生物催化及其他应用。 吴晓燕 编译自https://phys.org/news/2019-10-proteins-language.html 原文链接:https://www.nature.com/articles/s41592-019-0598-1                                  原文标题:Unified rational protein engineering with sequence-based deep representation learning
  • 《深度学习助力蛋白设计》

    • 来源专题:生物科技领域知识集成服务
    • 编译者:陈方
    • 发布时间:2020-04-08
    • 蛋白设计通常有两种方法:“定向进化”是指随机改变编码天然蛋白质的氨基酸构件的基因序列,筛选具有所需活性的变体;“合理设计”是根据蛋白质3D结构对其进行建模,以识别可能影响蛋白质功能的氨基酸。然而,定向进化只能触及庞大数量蛋白质序列中的一小部分,而合理设计则需要对蛋白质3D结构进行艰难的解析。 2019年10月21日Nature Methods报道,哈佛大学Wyss生物启发工程研究所和哈佛医学院的研究人员创建了第三种蛋白质设计方法,利用深度学习直接从氨基酸序列中预测蛋白质基本特征。研究结果显示,该方法准确地预测了天然和从头设计的蛋白质功能,将大量工作转移给计算机,与现有方法相比,可将成本降低两个数量级。 研究人员将这个神经网络方法命名为“统一表示”(unified representation,UniRep),在大约三周的时间内,研究者对UniRep进行了约2400万个蛋白质序列的训练,以关联蛋白质序列及其特性,包括蛋白质稳定性、二级结构以及蛋白质内部序列对周围溶剂的可及性等。结果UniRep准确地描述了来自不同的蛋白质家族的蛋白质的这些特征,包括那些已经被研究清晰解析的蛋白质,以及自然界中不存在的蛋白质。 该团队进一步将UniRep作为研究工具,以预测单个氨基酸取代如何影响蛋白质功能。该神经网络以多种生物学功能(包括酶催化、DNA结合、分子传感)可靠地预测了8种不同蛋白质中单个氨基酸突变的影响。此外,研究者使用绿色荧光蛋白作为模型,利用UniRep分析了该蛋白的64,800个变异体,每个变异体带有1~12个突变,结果UniRep准确地预测了突变的分布及其对蛋白质亮度的影响。 研究者表示,这种基于深度学习的蛋白质工程计算方法具有加速合成蛋白质设计的潜力,该方法可以针对任何所需应用量身定制蛋白质功能,可用于治疗、诊断、生物制造、生物催化及其他应用。