《大数据时代,科学数据管理成新命题》

  • 来源专题:中国科学院文献情报制造与材料知识资源中心 | 领域情报网
  • 编译者: 冯瑞华
  • 发布时间:2019-09-30
  • “人类正在经历一场前所未有的数字化革命,科学数据的丰富度、关联性与开放性,将成为21世纪驱动科技创新的核心要素。”近日,在北京召开的国际数据委员会(CODATA)2019年学术大会上,中国科学院副院长、中国科学院大学校长李树深院士认为,继“观察实验”“理论分析”“计算模拟”之后,“大数据驱动科学发现”已成为科学研究的第四范式。

    但在现实世界中,科学数据的发展也面临着机遇和挑战并存的局面。“海量且多样化的科学数据不断产生,大家却没有足够的系统去存储或者处理,80%有价值的数据都在两年之后就浪费了。”国际数据委员会主席Barend Mons认为,过去的一些系统和方法已经不适用于当下的大数据时代,机器的智能化处理和使用数据的能力亟待提升。

    “的确,在推动科学数据管理和开放共享工作向纵深发展的过程中,我们也发现还有许多政策问题需要探索。”国家科技基础条件平台中心主任苏靖坦言,如何真正实现科学数据可发现、可访问、可互操作和可重用?如何通过建立通用互认的科学数据标识体系来保障数据知识产权?如何进一步使科学数据的全生命周期和统一的技术标准更加完善?如何有效推动科学数据的开放和传播,同时保障数据的安全?如何使科学数据的应用成为解决复杂问题、推动科技创新的真正驱动力?等等。“这些问题的探讨和解决正逐步提上议程,中国也正在成为国际上推动科学数据资源建设与发展的重要参与者。”

    去年,国务院办公厅正式发布《科学数据管理办法》,并启动了国家科学数据中心的部署和建设工作。时隔一年,科技部和有关部门立足前期工作基础,在高能物理、基因组、气象、地震、海洋等领域组建了20个国家科学数据中心。这些中心将成为我国科学数据管理和开放共享方面重要的基础设施和载体。

    对于国家层面出台的第一个科学数据领域的管理办法,中国科学院院士郭华东表示,这使得科学数据的管理和使用有了可遵循的章程和依据,也使得科学数据的开放共享在科学界达成共识。但他同时也提出:“在《办法》推进的过程中还需要着力解决数据权益保障等一系列问题,才能使办法真正落实落地。”

    CODATA中委会副主席、中国科学院计算机网络信息中心主任廖方宇进一步解释说,站在科学家个人的角度来讲,存在一个科研竞争的压力问题,有的人很难得到科研数据,但有的人有了科研数据却不一定能产生很好的结果,如何来平衡评价?应该出台什么样的激励机制?另一方面,从国家的利益考虑,在国外核心期刊发表论文,科研数据提交到指定的储存机构,有时候就必然面临数据流失、知识产权得不到保护的问题。

    而国家基础学科公共科学数据中心主任胡良霖最关心的则是数据质量的问题,哪些数据需要保存?该如何保存?比如,一些数据在最初采集的时候成本比较大,经过几年采集技术的快速发展,成本已经大大降低,而长期使用的存储介质的费用远高于最新采集的成本,要不要把历史上存留的这么多数据都保存下来?他建议,我国急需建立自主可控的国际级权威数据库,推动科学数据的分级保存,并且对保存的数据做出明确分级指导和界定。

    会上,一些与会专家也呼吁,国际数据同样需要在全球开放共享。“多国科学家贡献科学数据共同建设的数据库,应当在贡献者所在国提供镜像服务,以保证各贡献国对数据的平等获取权;对于国际期刊发表论文要求提交数据,期刊应当与论文作者所在国联合确定论文关联数据的存储机构,首选在其所在国的优质数据存储机构。”专家们说。

    苏靖表示,希望国家科学数据中心能够很好地承担起科学数据管理和开放共享的功能,支撑更多具有世界领先水平的重大科学发现和原创性的技术突破,推动科技创新能力提升和经济社会发展。

  • 原文来源:http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2019-09/27/content_431948.htm?div=-1
相关报告
  • 《《科学数据管理办法》》

    • 来源专题:国家病毒资源信息监测和情报服务平台
    • 编译者:mall
    • 发布时间:2021-03-19
    • 国务院办公厅关于印发科学数据管理办法的通知 国办发〔2018〕17号 各省、自治区、直辖市人民政府,国务院各部委、各直属机构: 《科学数据管理办法》已经国务院同意,现印发给你们,请认真贯彻执行。 国务院办公厅 2018年3月17日 科学数据管理办法 第一章 总  则 第一条 为进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,更好支撑国家科技创新、经济社会发展和国家安全,根据《中华人民共和国科学技术进步法》、《中华人民共和国促进科技成果转化法》和《政务信息资源共享管理暂行办法》等规定,制定本办法。 第二条 本办法所称科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据。 第三条 政府预算资金支持开展的科学数据采集生产、加工整理、开放共享和管理使用等活动适用本办法。 任何单位和个人在中华人民共和国境内从事科学数据相关活动,符合本办法规定情形的,按照本办法执行。 第四条 科学数据管理遵循分级管理、安全可控、充分利用的原则,明确责任主体,加强能力建设,促进开放共享。 第五条 任何单位和个人从事科学数据采集生产、使用、管理活动应当遵守国家有关法律法规及部门规章,不得利用科学数据从事危害国家安全、社会公共利益和他人合法权益的活动。 第二章 职  责 第六条 科学数据管理工作实行国家统筹、各部门与各地区分工负责的体制。 第七条 国务院科学技术行政部门牵头负责全国科学数据的宏观管理与综合协调,主要职责是: (一)组织研究制定国家科学数据管理政策和标准规范; (二)协调推动科学数据规范管理、开放共享及评价考核工作; (三)统筹推进国家科学数据中心建设和发展; (四)负责国家科学数据网络管理平台建设和数据维护。 第八条 国务院相关部门、省级人民政府相关部门(以下统称主管部门)在科学数据管理方面的主要职责是: (一)负责建立健全本部门(本地区)科学数据管理政策和规章制度,宣传贯彻落实国家科学数据管理政策; (二)指导所属法人单位加强和规范科学数据管理; (三)按照国家有关规定做好或者授权有关单位做好科学数据定密工作; (四)统筹规划和建设本部门(本地区)科学数据中心,推动科学数据开放共享; (五)建立完善有效的激励机制,组织开展本部门(本地区)所属法人单位科学数据工作的评价考核。 第九条 有关科研院所、高等院校和企业等法人单位(以下统称法人单位)是科学数据管理的责任主体,主要职责是: (一)贯彻落实国家和部门(地方)科学数据管理政策,建立健全本单位科学数据相关管理制度; (二)按照有关标准规范进行科学数据采集生产、加工整理和长期保存,确保数据质量; (三)按照有关规定做好科学数据保密和安全管理工作; (四)建立科学数据管理系统,公布科学数据开放目录并及时更新,积极开展科学数据共享服务; (五)负责科学数据管理运行所需软硬件设施等条件、资金和人员保障。 第十条 科学数据中心是促进科学数据开放共享的重要载体,由主管部门委托有条件的法人单位建立,主要职责是: (一)承担相关领域科学数据的整合汇交工作; (二)负责科学数据的分级分类、加工整理和分析挖掘; (三)保障科学数据安全,依法依规推动科学数据开放共享; (四)加强国内外科学数据方面交流与合作。 第三章 采集、汇交与保存 第十一条 法人单位及科学数据生产者要按照相关标准规范组织开展科学数据采集生产和加工整理,形成便于使用的数据库或数据集。 法人单位应建立科学数据质量控制体系,保证数据的准确性和可用性。 第十二条 主管部门应建立科学数据汇交制度,在国家统一政务网络和数据共享交换平台的基础上开展本部门(本地区)的科学数据汇交工作。 第十三条 政府预算资金资助的各级科技计划(专项、基金等)项目所形成的科学数据,应由项目牵头单位汇交到相关科学数据中心。接收数据的科学数据中心应出具汇交凭证。 各级科技计划(专项、基金等)管理部门应建立先汇交科学数据、再验收科技计划(专项、基金等)项目的机制;项目/课题验收后产生的科学数据也应进行汇交。 第十四条 主管部门和法人单位应建立健全国内外学术论文数据汇交的管理制度。 利用政府预算资金资助形成的科学数据撰写并在国外学术期刊发表论文时需对外提交相应科学数据的,论文作者应在论文发表前将科学数据上交至所在单位统一管理。 第十五条 社会资金资助形成的涉及国家秘密、国家安全和社会公共利益的科学数据必须按照有关规定予以汇交。 鼓励社会资金资助形成的其他科学数据向相关科学数据中心汇交。 第十六条 法人单位应建立科学数据保存制度,配备数据存储、管理、服务和安全等必要设施,保障科学数据完整性和安全性。 第十七条 法人单位应加强科学数据人才队伍建设,在岗位设置、绩效收入、职称评定等方面建立激励机制。 第十八条 国务院科学技术行政部门应加强统筹布局,在条件好、资源优势明显的科学数据中心基础上,优化整合形成国家科学数据中心。 第四章 共享与利用 第十九条 政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享,畅通科学数据军民共享渠道。国家法律法规有特殊规定的除外。 第二十条 法人单位要对科学数据进行分级分类,明确科学数据的密级和保密期限、开放条件、开放对象和审核程序等,按要求公布科学数据开放目录,通过在线下载、离线共享或定制服务等方式向社会开放共享。 第二十一条 法人单位应根据需求,对科学数据进行分析挖掘,形成有价值的科学数据产品,开展增值服务。鼓励社会组织和企业开展市场化增值服务。 第二十二条 主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据。 第二十三条 科学数据使用者应遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据。 第二十四条 对于政府决策、公共安全、国防建设、环境保护、防灾减灾、公益性科学研究等需要使用科学数据的,法人单位应当无偿提供;确需收费的,应按照规定程序和非营利原则制定合理的收费标准,向社会公布并接受监督。 对于因经营性活动需要使用科学数据的,当事人双方应当签订有偿服务合同,明确双方的权利和义务。 国家法律法规有特殊规定的,遵从其规定。 第五章 保密与安全 第二十五条 涉及国家秘密、国家安全、社会公共利益、商业秘密和个人隐私的科学数据,不得对外开放共享;确需对外开放的,要对利用目的、用户资质、保密条件等进行审查,并严格控制知悉范围。 第二十六条 涉及国家秘密的科学数据的采集生产、加工整理、管理和使用,按照国家有关保密规定执行。主管部门和法人单位应建立健全涉及国家秘密的科学数据管理与使用制度,对制作、审核、登记、拷贝、传输、销毁等环节进行严格管理。 对外交往与合作中需要提供涉及国家秘密的科学数据的,法人单位应明确提出利用数据的类别、范围及用途,按照保密管理规定程序报主管部门批准。经主管部门批准后,法人单位按规定办理相关手续并与用户签订保密协议。 第二十七条 主管部门和法人单位应加强科学数据全生命周期安全管理,制定科学数据安全保护措施;加强数据下载的认证、授权等防护管理,防止数据被恶意使用。 对于需对外公布的科学数据开放目录或需对外提供的科学数据,主管部门和法人单位应建立相应的安全保密审查制度。 第二十八条 法人单位和科学数据中心应按照国家网络安全管理规定,建立网络安全保障体系,采用安全可靠的产品和服务,完善数据管控、属性管理、身份识别、行为追溯、黑名单等管理措施,健全防篡改、防泄露、防攻击、防病毒等安全防护体系。 第二十九条 科学数据中心应建立应急管理和容灾备份机制,按照要求建立应急管理系统,对重要的科学数据进行异地备份。 第六章 附  则 第三十条 主管部门和法人单位应建立完善科学数据管理和开放共享工作评价考核制度。 第三十一条 对于伪造数据、侵犯知识产权、不按规定汇交数据等行为,主管部门可视情节轻重对相关单位和责任人给予责令整改、通报批评、处分等处理或依法给予行政处罚。 对违反国家有关法律法规的单位和个人,依法追究相应责任。 第三十二条 主管部门可参照本办法,制定具体实施细则。涉及国防领域的科学数据管理制度,由有关部门另行规定。 第三十三条 本办法自印发之日起施行。 (来源:中国政府网)
  • 《 Frontiers推出FAIR2数据管理》

    • 来源专题:科技出版市场动态监测
    • 编译者:崔颖
    • 发布时间:2025-04-30
    •     2025年开放数据日,Frontiers正式启动FAIR2(FAIR Squared?)数据管理试点项目,这是一种首创的同行评审服务,帮助研究人员因其工作获得认可和引用,同时使数据为AI做好准备、可重用且具有影响力。FAIR2数据管理利用AI辅助管理构建研究数据结构,使其更易于被人类和机器查找、重用和分析,从而使研究人员能够专注于数据发现而非数据准备。通过使数据集共享和优化以供重复使用,FAIR2数据管理提高了研究效率和可重复性,推动全球健康、可持续性和科学创新方面的突破。     由于大多数科学数据难以被发现、获取和重复使用,每年有数十亿美元的研究价值被浪费。碎片化的格式、缺失的细节和技术障碍阻碍了人类和AI驱动的分析。研究人员花费大量宝贵时间清理数据,而不是进行数据发现,他们很少因生成的数据而获得认可。与此同时,资助者越来越多地要求研究人员发布他们的数据,但他们缺乏合规的工具且未得到奖励。如果没有可扩展的解决方案,大量的知识将被锁定,阻碍科学进步。     Frontiers的FAIR2数据管理背后的Senscience公司联合创始人兼董事总经理Sean Hill博士表示,“长期以来,研究人员一直缺乏分享数据的工具和激励措施,导致大量有价值的研究丢失,而这些数据可以推动突破性进展,促进创新,并提高全球研究质量。我们的AI驱动的数据管家使数据策划更简单、更有意义,帮助像Frontiers这样的出版商为研究人员提供一种高效的方式来分享他们的数据,并确保数据保持可访问性和可重用性,并为未来的发现做好数据准备。”     FAIR2数据管理超越了FAIR原则,通过提供一个AI驱动的解决方案,将研究数据转化为结构化的、机器可操作的资源。由Senscience提供支持,它利用AI数据管家自动化数据组织,提高可用性并协助治理。研究人员可以从AI辅助工作流程中受益,该工作流程简化了数据准备和共享,将其数据集转化为FAIR2数据包、交互式探索门户以及在Frontiers期刊中经过同行评审的FAIR2数据文章,从而最大限度地提高可见性、认可度和引用率。     Frontiers的联合创始人兼首席执行官Kamila Markram博士强调,“我们面临的全球挑战需要由更好的数据驱动更好的科学。数据不仅仅是开放的,还必须经过良好组织、可重用且具有影响力。FAIR2数据管理将数据转化为发现的工具,应对全球健康、可持续性等方面的紧迫挑战。”     (1)什么是FAIR2?推进FAIR迈向为AI时代     多年来,FAIR原则一直是研究数据共享的基础。然而,随着机器学习和AI成为科学研究中越来越重要的工具,数据必须同时为人类和机器进行结构化。     FAIR2(FAIR Squared)通过定义一个正式规范来扩展FAIR原则,使研究数据可用于AI,与负责任的AI原则保持一致,并为深入科学重用进行结构化。它与MLCommons Croissant的AI-ready格式兼容,整合了科学严谨性、可重用性和互操作性的基本要素。FAIR2确保数据得到充分记录,并与来源、方法和详细的数据字典相关联,为每个数据集创建一个具有上下文的表示。它还与TensorFlow、JAX和PyTorch整合,支持AI驱动的分析,便于在Kaggle和Hugging Face上共享,从而增强其跨学科的影响力。     FAIR原则论文的作者、莱顿公平与科学研究所(LIFES)创始主任Barend Mons教授强调了结构化、良好治理数据的必要性,“开放科学必须从原则转向实施、结构和治理。FAIR2为AI-ready、具有上下文且负责任治理的数据提供了框架,确保了明智的重复使用。FAIR2数据管理将这一理念付诸实践,帮助研究人员创建一个完全AI-ready、机器可操作数据的可扩展生态系统。”     (2)AI辅助数据管理的实际应用     FAIR2数据管理的力量已经在实践中得到证明。第一篇经过同行评审的FAIR2数据文章和FAIR2数据门户展示了AI驱动的数据管理。该数据集由西班牙AZTI基金会的ángel Borja博士领导,涵盖了巴斯克地区近三十年的海洋生物多样性监测,由巴斯克水务局(URA)管理,通过FAIR2进行整理,将长期环境数据转化为AI-ready资源。 ángel Borja博士强调了AI驱动数据管理的影响,“AI辅助管理改变游戏规则。AI辅助元数据创建使海洋可持续性研究更易于获取,为科学家、管理者和决策者提供了更快、更准确的见解。”     FAIR2数据门户进一步扩展了这一功能,提供AI聊天、交互式数据探索、AI生成的播客以及与Python和Jupyter Notebook的整合,使研究人员能够以全新的方式进行数据交互和数据分析。     (3)加入FAIR2数据管理试点     Frontiers邀请研究人员加入FAIR2数据管理试点项目,这是一个免费展示数据集并获得AI辅助数据管理的机会,所有服务费用全免。     ·将研究数据转化为FAIR2数据包、交互式数据门户和经过同行评审的FAIR2数据文章。     ·使用针对机器学习和传统分析优化的AI-ready、可引用数据集提高可见性。     ·通过AI辅助FAIR2工作流程简化数据管理。