《青岛能源所推出第二代微生物组搜索引擎MSE 2》

  • 来源专题:能源情报网信息监测服务平台
  • 编译者: guokm
  • 发布时间:2021-01-23
  • 微生物组(即“菌群”)是微生物在自然界的存在形式,它们在自然界中无处不在,而且塑造了人类社会的过去、现在和未来。因此,微生物组“大数据”的深度挖掘,是利用菌群实现精准诊断、精准护理与精准营养的重要工具,也是认识生物资源、监控环境健康、维护国家生物安全的新手段。近日,青岛能源所单细胞中心发布了第二代微生物组搜索引擎MSE 2(http://mse.ac.cn),以支撑更全面、更深入、更便捷的菌群大数据挖掘。该项工作于1月20日发表于mSystems(美国微生物学会会刊)。

      在海量的人类已知微生物组数据空间中,微生物组搜索引擎(MSE)针对新的菌群样本,以亚秒级别的反应时间寻找结构类似样本,从而全面、快速地挖掘新样本的特征。因此,MSE被誉为“the Google of Microbiome”,并入选“2016年中国医药生物技术十大进展”。MSE 2从参照数据库、搜索引擎内核和用户界面等三个方面做了全面升级(图1)。具体来说,首先,相对于包含10万例16S rRNA扩增子测序样本的第一代MSE数据库,MSE 2中搜集、标准化分析和可视化了涵盖16S rRNA扩增子和鸟枪法元基因组类型的近27万个样本,是国内外生态系统覆盖最全面、样本数量最丰富的标准化元基因组数据库之一。其次,MSE 2的搜索引擎内核已完全兼容16S rRNA和鸟枪法两种测序数据,可从OTU(Operational Taxonomy Unit)、物种名称以及功能特征等三个角度进行大规模的菌群搜索和深度分析。这一能力对于多来源、多类型、兼容各种测序策略与技术的菌群数据融合具有重要意义。

      利用MSE,科研人员揭示了人类已知菌群在结构空间上的全局特征,并预测了微生物组领域最有科学潜力的方向(Su et al., mBio 2018)。同时,MSE代表着一种依托菌群大数据的疾病检测新策略,在基于肠道菌群的一些慢病诊断上,它在回答“是否健康”和“哪种疾病”这两个问题上的准确率上均优于常用的机器学习算法,从而有效降低了“漏诊”和“误诊”几率(Su et al., mSystems 2020)。此外,由于其涵盖了全面、多维、海量的微生物组及其生境信息,MSE已成为评估微生态健康、评价微生态产品疗效的有力工具,正在支撑宝洁公司等合作企业开发针对口腔、皮肤、室内环境、空气等微生态系统的精准护理和高效修复手段。基于其不断拓展的应用,MSE 2将成为遨游微生物组数据空间的“罗盘”,推动“数据驱动型”的微生态研究和大健康产业应用。

      该研究由青岛能源所与青岛大学、中国科学院文献情报中心、中国海洋大学等科研机构合作完成。单细胞中心生物信息研究组荆功超助理研究员和刘璐助理研究员为论文的共同一作,苏晓泉教授与徐健研究员为共同通讯作者。该项目获得了国家自然科学基金、山东省自然科学基金的支持。(文/图 荆功超)

相关报告
  • 《青岛能源所提出微生物组相似度新算法DMS》

    • 来源专题:中国科学院文献情报先进能源知识资源中心 |领域情报网
    • 编译者:guokm
    • 发布时间:2019-12-05
    • 自然界中,微生物组(亦称“菌群”)无所不在,其结构深刻体现着生态系统的健康状态,因此微生物组结构比对是菌群检测服务于精准健康、精准护理与精准营养的核心环节之一。青岛能源所单细胞中心提出了Dynamic Meta-Storms(DMS)算法,能够更精确地计算菌群相似度。该研究在线发表于Bioinformatics。   鸟枪法元基因组(shotgun metagenomics)通过直接测定菌群总体DNA序列,来刻画一个菌群的结构和功能。然而如何精确地计算鸟枪法元基因组数据点之间的量化差异,一直是业界的热点问题。苏晓泉副研究员带领的单细胞中心生物信息研究组,针对上述关键技术瓶颈开发了Dynamic Meta-Storms(DMS)算法。DMS充分利用菌群中已知物种的生物分类和进化关系,对未知物种的进化位置进行理性推测(图1),从而能够全面、精确地计算元基因组之间物种水平的相似度(图2a)。   与此同时,得益于高性能并行计算优化技术,在计算百万数量级之元基因组样本的相似度时(5×1011次相似度计算),DMS在单个计算节点上仅用6.4小时即可完成,与目前最快算法相比,速度提高了20%,同时还节省了40%的内存使用率(图2b)。   作为元基因组学领域的共性基础算法之一,DMS将基于单细胞中心开发的微生物组搜索引擎(http://mse.ac.cn),直接服务于地球微生物组计划(EMP)、人体微生物组计划(HMP)、中国科学院微生物组计划等大科学计划,从而支撑基于菌群测序的精准健康、精准护理与精准营养。   该论文的并列第一作者是生物信息研究组荆功超和张玉凤,由苏晓泉副研究员主持完成,并获得了国家自然科学基金、山东省自然科学重大基础研究项目、中国科学院微生物组计划等的支持。 (文/图 荆功超)
  • 《青岛能源所开发出基于微生物组大数据的疾病检测方法》

    • 来源专题:中国科学院文献情报先进能源知识资源中心 |领域情报网
    • 编译者:guokm
    • 发布时间:2020-03-18
    • 微生物组具有服务疾病诊治与生态监控的巨大潜力,但是其影响因素错综复杂。如何通过菌群检测实现快速精准的疾病诊断呢?青岛能源所单细胞中心发明了基于菌群大数据搜索的疾病检测方法,为此共性问题提供了原创的解决方案。该工作于2020年3月17日在线发表于mSystems(美国微生物学会会刊)。   作为与生俱来、无处不在的“小伙伴”,微生物组与人体、环境的健康有着千丝万缕的关联。同时,菌群检测具有非侵入性、可量化、可预警等优势。因此,如何用菌群来判断和识别人体或环境的健康状态,一直是精准医学和大健康的热点问题之一。但是,作为一种疾病诊断手段,菌群面临着三个关键的挑战。   首先,“漏诊”问题:现有的检测手段通常只针对于特定疾病,并依赖于该疾病已知的标识微生物来构建检测模型。然而很多疾病尚无明确标识物,而且同一种疾病在不同人群中的生物标识物种经常不尽一致,因此难以普适性地判断待检样本是否健康。其次,“误诊”问题:同一种生物标识经常与多种疾病相关联,导致难以准确地分辨具体的疾病类型。此外,由于元基因组数据的极端高通量、高度异质性、多种测序平台共存等特点,菌群诊断模型的构建、训练和更新,均具有突出的挑战性。   针对上述关键问题,苏晓泉副研究员带领的单细胞中心组群生物信息研究组,利用前期开发的微生物组搜索引擎MSE (Microbiome Search Engine; http://mse.ac.cn),发明了基于菌群大数据搜索的疾病检测新策略(图1)。与现有基于模型训练的机器学习手段相比,该方法不再依赖于疾病相关的特定标识微生物,而是利用待测菌群元基因组与已有菌群元基因组大数据的整体相似度来实现检测。首先,计算待测样本相对于数据库中所有健康样本的异常程度,即可评估其是否健康。其次,与数据库中的多种疾病的参照样本进行比对,即可识别具体的患病种类。基于超过3,000例肠道菌群样本的测试表明,针对炎症性肠病(IBD)、结直肠癌(CRC)、艾滋病毒感染(HIV)和肠腹泻病(EDD)等,MSE在回答“是否健康”和“哪种疾病”这两个问题上的准确率均超过80%,显著高于目前常用的机器学习算法,从而有效地降低了“漏诊”和“误诊”的可能。另一方面,与常规手段相比,该方法在跨研究、跨测试人群、跨测序平台、样品污染等因素影响下的适应性和抗干扰能力等方面,也具有显著优势。   此外,得益于其强大的高通量菌群结构搜索能力,MSE的使用与百度、谷歌一样简单,通常在0.5秒内即能完成诊断。同时,MSE能够通过其菌群大数据系统的实时更新,来提升检测的可靠性以及拓宽其适用范围。因此,随着微生物组测序数据的爆发式增长,该方法在实际应用中的便捷性、可延展性等特色将愈发突出。   单细胞中心开发的MSE是目前国内外最大的微生物组数据科学研究体系之一,其参照数据库包括来自肠道、皮肤、口腔、室内环境、海洋、土壤等广袤生态系统的超过23万例高质量、标准化、可比较的元基因组样本。与本研究提出的诊断手段相结合,MSE为建立针对各种慢性疾病或生态灾害的菌群诊断系统和干预手段效能评价体系奠定了一个共性的方法学基础。   该研究由单细胞中心与加州大学圣迭戈分校微生物组创新中心合作完成,并得到了中国科学院微生物组计划、山东省自然科学基金重大基础研究项目、国家自然科学基金等的支持。   图1、基于菌群大数据搜索引擎实现疾病检测的原理   引用:  Su X*, Jing G, Sun Z, Liu L, Xu Z, McDonald D, Wang Z, Wang H, Gonzalez A, Zhang Y, Huang S, Huttley G, Knight R*, Xu J*. Multiple-Disease detection and classification across cohorts via microbiome search. mSystems, 2020, 5:e00150-20.