《国家基因组科学数据中心:整合中国组学资源,在国际舞台奏出“共享乐章”》

  • 来源专题:生物安全知识资源中心 | 领域情报网
  • 编译者: hujm
  • 发布时间:2019-11-19
  • 2018年、2019年连续两年,组学数据库权威杂志《核酸研究》对前一年的全球基因组数据库建设进行总结,鲜见地在美英两个老牌的数据库以外,提到了中国的GSA(组学原始数据归档库)。

      “美国国立生物技术信息中心(National Center for Biotechnology Information,简称NCBI)和英国欧洲生物信息学中心(European Bioinformatics Institute,简称EBI)30多年前已经开始建立,我们的GSA是2015年底才上线运营的。”国家基因组科学数据中心主任鲍一明介绍,中心的组学数据库之所以能够得到权威杂志的认可“点名”,一方面是由于数据量增长快,另一方面是数据的可用性、标准化方面的工作均与国际接轨。

      据了解,针对我国基因组学数据“存管用”的实际需求,解决数据孤岛等重大问题,科技部、财政部共同支持组建国家基因组科学数据中心,依托中国科学院北京基因组研究所,联合中国科学院上海营养与健康研究所和中国科学院生物物理研究所共同建设。中心的科学数据专业化团队,对外提供基因组学数据统一存储、整合挖掘、共享应用的一站式数据服务。

      顺应大健康需求,构筑自主数据基础

      “之前,中国已成为基因组数据产出大国,但未能形成国家级公共数据资源。”鲍一明介绍,面向国家大数据战略发展需求,国家基因组科学数据中心围绕人、动物、植物、微生物基因组数据,重点开展了数据资源及数据库体系建设,并开展了数据服务、系统运维、技术研发、数据挖掘等系列工作。目前,国家基因组科学数据中心已拥有自主知识产权的基因组数据汇交、管理与共享系统,保障数据安全性,支撑并服务于国家重点研发计划、国家自然科学基金、中国科学院先导专项等300余个科研项目的数据存储、管理和共享。

      在生命科学研究领域,研究者获得的基因组学数据,均需上传到专业数据库,方可在杂志上发表。如今,我国已拥有获得认可的组学数据库,这将大大提高中国高水平论文被接收过程的便捷性。“中国的学者不需要再将数据‘飘洋过海’传输到海外,可以获得更加专业化的中国式服务。我们的平台已被多家国际顶级杂志认可,中国学者将数据提交到GSA系统,其发表的论文已经被多个国际知名期刊所收录,这包括CNS(《细胞》《自然》《科学》简称)、美国科学院院刊等。”鲍一明说,这为“用好科技资源、支撑创新发展”提供了基础。

      截至2019年8月,国家基因组科学数据中心已为国内外150多个单位提供免费数据存储服务,累计用户递交项目信息超过1200个,用户提交的测序数据量超过1.2PB,收集并存储的数据总量超过4PB,数据上传下载量日均达到1TB。

      与国际接轨,不做信息孤岛

      生物信息的数据要海量整合后才会有价值,割裂的数据库只完成了“存”却难以走向“使用”。例如对人类组学数据的整合和挖掘将更全面地获得人类健康问题的解决方案,避免“盲人摸象”。

      这正是国家基因组科学数据中心成立的初衷和建设的方向。在科学数据共享方面,科技部长期致力于打破条块分割,对相关部门和行业长期持续积累的数据资源,以及对国家科技计划项目的数据进行整理、汇交和建库,同时提高与国际科学数据组织的信息交换能力。

      2019年,我国国家基因组科学数据中心组学数据库被国际著名出版商Elsevier收录为指定基因数据归档库,其权威性得到国内外100余家学术杂志的认可。国家基因组科学数据中心已经成为有国际影响力的基因组科学数据中心。

      目前,国家科技基础条件平台中心正在组织国家科学数据中心编制五年建设运行实施方案。未来,国家基因组科学数据中心将继续围绕基因组科学研究前沿及数据的存管用需求,逐步完善中心组织管理架构与运行机制,强化队伍建设,培养复合型数据人才;建立数据共享、质量控制、安全管理等标准与规范,利用云计算、人工智能、机器学习等先进技术,提升数据储存、管理、挖掘与共享能力;发展数据加密、解密、分级管理、受控访问等数据安全关键技术,建立人类遗传资源数据管理体系,确保国家重要生物资源数据本地化存储、管理与共享利用。

      鲍一明表示,希望经过5年努力,建成汇聚海量科学数据、服务万家机构、引领大数据技术创新的国际一流基因组科学数据中心,切实解决我国基因组数据存管用难、数据流失严重、核心基因组科学信息资源先“出口”再“进口”的问题,不断提升我国在基因组学大数据领域的国际话语权。

  • 原文来源:http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2019-11/19/content_434991.htm?div=-1
相关报告
  • 《中国疾病预防控制中心、国家微生物科学数据中心等机构发布新发地新冠疫情及病毒基因组序列数据》

    • 来源专题:中国科学院病毒学领域知识资源中心
    • 编译者:malili
    • 发布时间:2020-06-20
    • 6月18日晚,中国疾病预防控制中心通过“新型冠状病毒国家科技资源服务系统”正式发布2020年6月北京新发地新冠疫情及病毒基因组序列数据。三条数据来自北京市确诊病例基因组序列数据(NMDC60013902-01、NMDC60013903-02)以及环境样本基因组序列数据(NMDC60013903-03)。中国疾病预防控制中心同时向世界卫生组织及全球共享流感数据倡议组织(GISAID)提交了新冠疫情及病毒基因组序列数据,向国际社会共享。 新型冠状病毒国家科技资源服务系统由中国科学院微生物研究所牵头的国家微生物科学数据中心与中国疾病预防控制中心牵头的国家病原微生物资源库共同建设。   国家微生物科学数据中心:   http://www.nmdc.cn/   新型冠状病毒国家科技资源服务系统:   http://www.nmdc.cn/nCoV   序列1:NMDC60013902-01:http://nmdc.cn/resource/ncov/genome/detail/NMDC60013901-01   序列2:NMDC60013903-02:   http://nmdc.cn/resource/ncov/genome/detail/NMDC60013902-01   序列3:NMDC60013903-03:   http://nmdc.cn/resource/ncov/genome/detail/NMDC60013903-01
  • 《北京基因组所等开发出叶绿体基因组综合数据库》

    • 来源专题:转基因生物新品种培育
    • 编译者:姜丽华
    • 发布时间:2022-10-31
    •       叶绿体是植物将光能转化为化学能的重要细胞器,具有独立的基因组。自植物叶绿体基因组被发现以来,被广泛应用于植物系统进化关系研究、光合作用调控机制研究、叶绿体基因工程等方面。随着基因测序技术的发展,尽管已发布了海量的植物叶绿体基因组序列,但如何整合应用这些数据目前仍面临数据命名标准不统一、数据信息不全以及较高经济价值的物种尚未进行测序等问题。   近日,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心章张、宋述慧团队,联合中国中医科学院中药资源中心袁媛、黄璐琦团队,开发了迄今为止物种数量最多的叶绿体基因组综合数据库Chloroplast Genome Information Resource(CGIR)。CGIR收录了来自11,946个物种的19,388条叶绿体基因组序列,包括利用全国第四次中药资源普查标本自测的718种未发表的叶绿体基因组序列,按照基因组(Genomes)、基因(Genes)、微卫星序列(SSRs)、DNA条形码(Barcodes)、DNA特征序列(DSSs)五个功能模块对数据进行组织与管理。相关研究成果以Towards comprehensive integration and curation of chloroplast genomes为题,发表在Plant Biotechnology Journal上。   根据生物物种名录(The Catalogue of Life),经过大规模人工审编,CGIR对所收录叶绿体基因组的物种分类信息进行审编,按照纲、目、科、属、种不同分类层级进行整理,并依据权威植物研究机构邱园发布的世界功能植物名录(World Checklist of Useful Plant Species)对药用植物、食用植物、环境植物、能源植物、有毒植物、能源植物等进行标注。同时,CGIR审编修正基因名的不规范命名、异名、错误注释等情况。在此基础上,CGIR系统整理各基因组的基因注释信息,为用户检索、浏览和信息获取提供便利。   针对分子标记开发这一叶绿体基因组最为常见的应用情景,CGIR使用生物信息学方法计算了所收录叶绿体基因组的微卫星序列、DNA条形码和DNA特征序列三种不同类型分子标记信息,同时,开发了相应的树型视图方便用户根据分类层级信息快速寻找目标标记,简化了科研人员开发分子标记的流程。   CGIR通过自主测序、整合公开基因组资源和人工数据审编向用户提供了目前最全面、物种数量最多的叶绿体基因组数据。经审编的物种分类、物种功能、基因名称与序列、分子标记等保证了数据的高度可靠,对植物系统发育、物种鉴定、叶绿体基因工程的发展均具有重要意义。   研究工作得到科技基础资源调查专项、中国中医科学院科技创新工程项目、中央本级重大增减支项目“名贵中药资源可持续利用能力建设项目”的支持。