2023年10月11日,美国能源部联合基因组研究所的Georgios A. Pavlopoulos在Nature上发表题为Unraveling the functional dark matter through global metagenomics的文章。该研究开发了一种计算方法,从宏基因组的序列空间中生成无参考的蛋白质家族,以研究目前通过参考基因组所能实现的功能多样性之外尚未开发的功能多样性的规模。
该研究从IMG/M的26,931个宏基因组数据集中识别了新蛋白空间,去除了与IMG数据库中超过100,000个参考基因组或Pfam的所有基因匹配的基因,识别出 11.7 亿个长度超过 35 个氨基酸的蛋白质序列,这些序列与 102,491 个参考基因组或 Pfam 数据库中的任何序列都不相似。利用基于大规模并行图的聚类方法,该研究将这些蛋白质归入了 106,198 个成员超过 100 个的新序列群,这比利用相同方法从参考基因组聚类得到的蛋白质家族数量翻了一番。
该研究揭示了一个极其多样化的功能空间,突出了进一步探索微生物功能暗物质的重要性。
本文内容转载自“环境科研人”微信公众号。
原文链接: https://mp.weixin.qq.com/s/sc3As2BMfLHYi6blErBL7A