《打破樊篱 中国科学院推出大数据共享平台》

  • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
  • 编译者: 冯瑞华
  • 发布时间:2019-01-16
  • 如今,利用空间遥感技术为地球上的某个地方拍照早已不是什么难事。如果把历年来的这些拍照数据与人口调查的数据结合起来,你就会有新的发现。比如1990年—1995年,大数据显示,安徽省的城市人口增长率在增加,但土地消耗率在降低,总体上人口城市化大于土地城市化;但2000年以后,大数据又显示,安徽省人口增长率持续降低,但土地消耗率却明显提升,土地消耗率与人口增长率比率持续增加,这表明安徽省的土地城市化远远大于人口城市化。

    在15日中国科学院举行的地球大数据科学工程专项2018年度数据共享发布会上,项目负责人、中国科学院院士郭华东用这个例子展示了大数据的作用。他说,我们把中国430个人口超过30万的城市遥感数据和人口数据等结合研究,就能了解土地使用率与人口增长率之间的比率。

    郭华东所领导的专项目标是建设地球大数据共享服务平台。它包括生物生态数据、对地观测数据、大气海洋数据、基础地理数据、地面观测数据等,是一个集成多领域海量数据,服务数据驱动的科学发现与决策支持的科学平台。

    我们已经有了资源丰富的某些学科数据库。中国科学院微生物所研究员马俊才说,2010年,世界微生物数据中心正式落户于中国科学院微生物所,是在我国落户的生命科学领域的第一个世界数据中心。目前已经有来自美、法、德、日等47个国家126个国际微生物资源中心正式加入,42万株微生物实物资源的信息汇集到中国团队开发的数据平台。

    但这个数据库基本上只服务于生命科学领域。现在专项要把类似的数据融入新的共享平台。

    “在我们的平台里,不是简单地把这些数据放到网上就完了,而是经过标准化的处理、按照一定体系、运用最新的技术手段,把这些数据以新的形式再度呈现出来。”中国科学院副院长张亚平说,这个技术是很有挑战性的。

    中国科学院空天信息研究院研究员何国全展示了大数据开发利用的神奇。他用鼠标在计算机屏幕的地图上点中一拉,所显示的方框区域里就能呈现出相应的植被指数、变化情况等,或者显示这一区域的二氧化碳监测数值及变化情况。这是多学科数据和数据应用新技术结合的产物。

    地球大数据科学工程是中国科学院A类战略性先导科技专项,于去年1月1日正式启动实施,执行期5年。一年来,项目取得了令人满意的结果,已经建立了两个核心系统——数据共享服务系统和CASEarth Databank系统,以及一个区域系统——数字丝路地球大数据系统。

    在中国,数据共享一直是个难题:国家各个部委、各个研究机构几乎都有自己的数据库。我共享你的数据,同意;你共享我的数据,门也没有。

    2016年10月,在中国科学院召开的一次会议上,院长白春礼提出:针对资源环境和生物等领域的地理信息系统平台建设,要部署一个院A类先导专项,建成资源共享的信息系统平台。为了打破樊篱,他亲自担任了这个专项领导小组的组长。在中国科学院当时已经实施的19个A类专项中,白春礼没有担任过任何一个专项的领导小组组长,只此例外,可见中国科学院的决心。

    为什么非要把大数据共享?郭华东说,大数据已经为科学研究带来了新的方法论,正在催生人们用全新的模式获得科学发现,而地球大数据正在成为人们认识地球的新钥匙、知识发现的新引擎、决策支持的新手段。

    大数据共享,中国科学院走出了成功的第一步。

  • 原文来源:http://www.stdaily.com/index/kejixinwen/2019-01/16/content_746939.shtml
相关报告
  • 《中国科学院科学数据中心建设与服务体系》

    • 来源专题:国家病毒资源信息监测和情报服务平台
    • 编译者:mall
    • 发布时间:2021-03-22
    • 数据资源作为重要的战略资源是驱动各领域创新发展的重要因素。随着信息化进程的发展,分布式多源异构数据的管理和应用问题凸显,如何有效地实现分布式数据的管理、整合、服务成为推动科研与应用的共性需求和必要手段。 中国科学院计算机网络信息中心大数据技术与应用发展部(以下简称大数据部)自“十•五”开始承担中国科学院“科学数据库及其应用系统”建设工作以来,立足实际需求,面向应用实效,扎实推进标准与系统研制和推广应用工作。从“十•五”面向分布式异构数据资源的规范化统一服务,到“十一•五”数据资源及其应用环境(含国家科学数据共享工程项目“基础科学数据共享网”)建设和服务体系形成,再到“十二•五”响应“海-云”环境和“十三•五”适应大数据环境下科研模式变革的体系完善,大数据部与时俱进推动科学数据中心体系相关标准(55项)、技术、工具(13个)的研制和应用,是我国数据资源管理研究与实践的先锋,为数据资源的开放与共享提供了强劲的源动力。 当前随着国家《科学数据管理办法》和首批国家科学数据中心的发布,结合国家建设科学数据中心的战略需求,大数据部提出面向科学数据数据中心体系的全生命周期体系化数据资源管理与服务解决方案。 标准规范体系 科学数据标准体系基本实现了从数据资源建设到应用及效果评估全生命周期关键内容的规范化,在科学数据资源建设和应用服务中发挥了积极的助推作用。科学数据标准体系可分为指导规范、数据采集与整理、元数据与元模型、系统与接口、数据管理、数据服务等类型,主要内容详见表1。自“十一•五”项目结束以来,在线发布的标准建设成果已被访问下载超过17万次之多,配套工具软件已经在项目内全面推广使用,部分成果(如VDB、MSIS等)还广泛应用到项目之外。 经过十余年的努力,大数据部的标准工作已经逐步形成了“有需求,多合作,要实用,慎提升”的特点,工作中与院内外合作机构建立了良好的关系,并谨慎的将有应用前景的标准提升为国家标准、国际标准,先后作为第一责任单位完成了《生态科学数据元数据(GB/T20533-2006)》、《信息技术数据溯源描述模型(GB/T34945-2017)》、《信息技术科学数据引用(GB/T35294-2017)》和CODATA国际标准《天然气水合物描述语言(GasHydrate Markup Language)》、以第二责任单位完成了《检测资源信息共享体系建设指南(GB/Z27414-2012)》和《土壤科学数据元数据(GB/T32739-2016)》。详见表2。 工具与技术体系 面向科学数据中心体系化、系统化建设及管理的需求,大数据部研发重点包括分布式数据资源自主管理与服务,数据资源集成整合管理与服务,数据资源与服务监控、统计分析及评估管理,数据资源统一发布、共享、服务及应用等。同时面向不同类型数据提供数据资源管理,并提供统一的管理和外延服务。 优势总结如下: 1、体系化的解决方案。采用体系化的设计理念,提供自顶向下的总体设计,协同策略、系统、规则、设施等各方面,保障数据资源高效、安全、可靠、敏捷的管理与服务。 2、完备的服务平台和软件体系。提供包括集成化数据服务、数据资源的监控与管理、数据资源的整合、分布式数据资源的自主管理在内的数据资源管理、整合与服务平台及完备的软件体系,并可为个性化需求提供定制和支持。 3、统一的管理和外延服务。基于标准化的数据资源管理机制,提供一整套有效的管理办法,并提供包括数据库建设、系统运维、服务咨询在内的多项外延服务。 4、丰富的建设经验。30年来,为中国科学院各科研单位的数据资源建设与服务有效助力,在地理、生态、环境等领域深入探索,为60多家科研单位提供服务。重点负责了国家生态系统研究网络体系建设、国防资源服务体系建设,为相关领域科研信息化建设,提供了体系架构、系统设计、开发、服务一体化的建设方案。
  • 《国家基因组科学数据中心:整合中国组学资源,在国际舞台奏出“共享乐章”》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:hujm
    • 发布时间:2019-11-19
    • 2018年、2019年连续两年,组学数据库权威杂志《核酸研究》对前一年的全球基因组数据库建设进行总结,鲜见地在美英两个老牌的数据库以外,提到了中国的GSA(组学原始数据归档库)。   “美国国立生物技术信息中心(National Center for Biotechnology Information,简称NCBI)和英国欧洲生物信息学中心(European Bioinformatics Institute,简称EBI)30多年前已经开始建立,我们的GSA是2015年底才上线运营的。”国家基因组科学数据中心主任鲍一明介绍,中心的组学数据库之所以能够得到权威杂志的认可“点名”,一方面是由于数据量增长快,另一方面是数据的可用性、标准化方面的工作均与国际接轨。   据了解,针对我国基因组学数据“存管用”的实际需求,解决数据孤岛等重大问题,科技部、财政部共同支持组建国家基因组科学数据中心,依托中国科学院北京基因组研究所,联合中国科学院上海营养与健康研究所和中国科学院生物物理研究所共同建设。中心的科学数据专业化团队,对外提供基因组学数据统一存储、整合挖掘、共享应用的一站式数据服务。   顺应大健康需求,构筑自主数据基础   “之前,中国已成为基因组数据产出大国,但未能形成国家级公共数据资源。”鲍一明介绍,面向国家大数据战略发展需求,国家基因组科学数据中心围绕人、动物、植物、微生物基因组数据,重点开展了数据资源及数据库体系建设,并开展了数据服务、系统运维、技术研发、数据挖掘等系列工作。目前,国家基因组科学数据中心已拥有自主知识产权的基因组数据汇交、管理与共享系统,保障数据安全性,支撑并服务于国家重点研发计划、国家自然科学基金、中国科学院先导专项等300余个科研项目的数据存储、管理和共享。   在生命科学研究领域,研究者获得的基因组学数据,均需上传到专业数据库,方可在杂志上发表。如今,我国已拥有获得认可的组学数据库,这将大大提高中国高水平论文被接收过程的便捷性。“中国的学者不需要再将数据‘飘洋过海’传输到海外,可以获得更加专业化的中国式服务。我们的平台已被多家国际顶级杂志认可,中国学者将数据提交到GSA系统,其发表的论文已经被多个国际知名期刊所收录,这包括CNS(《细胞》《自然》《科学》简称)、美国科学院院刊等。”鲍一明说,这为“用好科技资源、支撑创新发展”提供了基础。   截至2019年8月,国家基因组科学数据中心已为国内外150多个单位提供免费数据存储服务,累计用户递交项目信息超过1200个,用户提交的测序数据量超过1.2PB,收集并存储的数据总量超过4PB,数据上传下载量日均达到1TB。   与国际接轨,不做信息孤岛   生物信息的数据要海量整合后才会有价值,割裂的数据库只完成了“存”却难以走向“使用”。例如对人类组学数据的整合和挖掘将更全面地获得人类健康问题的解决方案,避免“盲人摸象”。   这正是国家基因组科学数据中心成立的初衷和建设的方向。在科学数据共享方面,科技部长期致力于打破条块分割,对相关部门和行业长期持续积累的数据资源,以及对国家科技计划项目的数据进行整理、汇交和建库,同时提高与国际科学数据组织的信息交换能力。   2019年,我国国家基因组科学数据中心组学数据库被国际著名出版商Elsevier收录为指定基因数据归档库,其权威性得到国内外100余家学术杂志的认可。国家基因组科学数据中心已经成为有国际影响力的基因组科学数据中心。   目前,国家科技基础条件平台中心正在组织国家科学数据中心编制五年建设运行实施方案。未来,国家基因组科学数据中心将继续围绕基因组科学研究前沿及数据的存管用需求,逐步完善中心组织管理架构与运行机制,强化队伍建设,培养复合型数据人才;建立数据共享、质量控制、安全管理等标准与规范,利用云计算、人工智能、机器学习等先进技术,提升数据储存、管理、挖掘与共享能力;发展数据加密、解密、分级管理、受控访问等数据安全关键技术,建立人类遗传资源数据管理体系,确保国家重要生物资源数据本地化存储、管理与共享利用。   鲍一明表示,希望经过5年努力,建成汇聚海量科学数据、服务万家机构、引领大数据技术创新的国际一流基因组科学数据中心,切实解决我国基因组数据存管用难、数据流失严重、核心基因组科学信息资源先“出口”再“进口”的问题,不断提升我国在基因组学大数据领域的国际话语权。