《国家元数据库及其协同构建框架研究》

  • 来源专题:图书情报
  • 编译者: luoluo
  • 发布时间:2020-12-01
  • 2020年5月20日,《情报理论与实践》出版了一篇名为“国家元数据库及其协同构建框架研究”的文章。其摘要如下:[目的/意义]数字出版环境下文献资源传播方式灵活,数量呈爆发式增长,需要通过元数据整合与开发利用突破传统以全文为主的资源保障模式。国家元数据库建设,能够支持数据密集型研究、开放共享科学信息交流模式和深层次知识服务。[方法/过程]通过调研国内外元数据库建设实践和构建理论,探讨现有科研环境下国家元数据库的概念、特征及其功能,并进一步分析国家元数据库的构建框架。[结果/结论]在国家级文献保障机构的主导下,国家元数据库的构建需要多方参与,涉及参与主体的生态平衡机制、跨界元数据统一描述模型、多源异构元数据深度整合方法以及国家元数据库多方协同服务等4个方面,以保障国家元数据库的稳定构建与持续运行。该文章的后期研究方向:可在现有商业性资源发现系统实践基础上,凝练发展元数据库构建与应用的理论方法,探讨元数据生产与集成整合过程中的版权制约和利益诉求,制定元数据大规模集成整合标准框架和映射规范,研究国家元数据库可持续发展策略和更新维护方式。

相关报告
  • 《数据与知识双驱动的知识组织系统构建框架研究》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-07-11
    •        知识组织系统(KOS)反映领域知识的概念及概念关系,是描述、表示特定领域的知识而生成的语义工具,涵盖了从简单的术语表到包含语义关系的规范档、受控词表、本体等。 知识组织系统的构建方式与计算机技术的发展相呼应。早期知识组织系统的构建主要依赖于专家先验知识,具有严格受控、权威性、全局性等优势。但纯粹依赖专家构建的知识组织系 统具有不可忽视的缺陷:一是主观性强,多依赖于专家先验知识,缺乏对终端用户需求的客观反映;二是实时性不强,知识组织系统构建后处于封闭静止状态,其无法通过自主学习进 行知识动态更新,术语经过长期实践积累达到一定规模后,才会由专家进一步更新,因此知识组织系统的概念更新缓慢,具有滞后性;三是成本较高,严格受控的概念选取及层次结构 建设使手工构建知识组织系统耗时耗力。大数据环境下实时更新的数据资源有待挖掘以提供各种智能化决策,其为知识组织系统提供了丰富的语料,自动构建知识组织系统成为可能, 通过对多源海量数据的自动采集、加工、处理、分析、整合和提炼,抽象形成具有一定结构的概念知识体系,但自动构建的方式依然有一定的局限性:一是机器语义理解差,从海量数 据中挖掘其结构,生成达到一定语义规范的概念存在困难;二是知识组织系统具有严格受控的多层次结构,机器学习技术仍难以自动化识别概念之间的丰富语义关系,建立语义关联且 形成符合用户需求的概念层级结构仍需人工干预;三是对数据质量要求高,自动化构建的知识组织系统高度依赖于所采集的涵盖主题领域的数据样本,数据的质量决定了最终形成概念 体系的质量。当前数据与知识相结合的第三代人工智能的出现,旨在将专家知识与海量数据有机结合,提升数据处理效率和质量。 如何借此契机,探索知识组织系统新的构建方式将成为当前知识组织领域的重要问题。         文章在分析国内外研究现状的基础上,从理论层面深度剖析数据和知识的协同机制,应用符 号学理论分析“数据”与“知识”之间的双向转换关系,并从知识组织系统的语法、语义、 语用角度,提出数据与知识双驱动的知识组织系统构建框架,有助于厘清数据与知识的双向转化,突破现有知识组织系统构建方法存在的局限,实现两种构建方法的深度融合及优势互 补,为数智时代自动构建高质量、高效率的知识组织系统提供新的路径。       知识分为隐性和显性两种类型。隐性知识是通过经验、行动、主观的洞察力等嵌入人类头脑中,难以正式表达、沟通或分享的知识;显式知识是可以正式表达、共享、复制、存储 的知识,更具有实用价值。知识管理中这两类知识通过相互转换而实现价值,但转换过程离不开数据支持。海量数据中蕴含着有待被挖掘的一定量的显隐性知识,经过分析、加工、 提炼等形成可表达的显性知识,服务于具体应用场景,进而产生新的数据,如此不断反复。如何从海量“数据”中获取、提炼、转换为有用的“知识”,“知识”又如何物化成可计算 的“数据”是实现数据与知识两者有效转换的关键。数据到知识的转化过程一直都是信息管理、信息系统、计算机领域等多个学科或领域关 注的热点话题。数据本身是观察的产物,存在于人类的思维之外,没有任何意义,定义为 表示对象、事件及环境的属性的符号。美国哲学家皮尔斯(Pierce)的符号学理论指出符 号由三个相互关联的基本要素组成:符号形体(Representamen)、对象(Object)和解释 项(Interpretant),其中符号形体可视为一种指代,对象是由符号所指的客观存在,解释项是人对符号与物体之间联系的理解和反应。由此看出,当认知主体对客观物理世界 进行感知时,从而为客观对象赋予了能够表征它的符号,即形成了多样化数据。而符号的含 义则是由主体所认知的知识来反映,此时知识成为提供符号意义的解释项,体现了对客观世界的理解和反映,使人们能够共享符号及符号语义以实现无障碍交流。知识由认知主体对客 观世界中数据(符号)的理解和反映而形成,通过对数据一系列组织和处理分析,形成对当前问题或活动的解释、理解及经验。数据密集型社会带来了数据量的激增,借助于统计学、 机器学习等技术,对海量数据进行提炼总结形成知识,数据到知识的转换效率提升。 知识向数据的转化是一个反向过程,当知识被语法、语义等结构描述后成为信息,信息被详细定义的数据结构规范后成为数据。数据是可被计算的符号,知识为数据符号提供 了语义解释。知识转化为数据就是将知识描述为可被计算的形式化结构,应用到数据处理环节中,以提升数据处理的效率。不断增加的知识同样面临序化表示的问题,知识组织系统作 为重要的工具,以知识为主要描述对象,对知识进行表示、描述、共享和使用,从而为符号所表达的语义意义提供明确的概念共识。正如 Qin Jian指出,知识组织系统实际上是将 人类对世界理解所形成的知识组织成各种系统或工具,以推动知识的再利用与创造。知识向数据转化过程需要各种知识组织系统的参与,通过对知识进行显性化、表示和存储,以更好 用以解释数据含义。 数据与知识的双向转化形成了一个联动的持续循环过程。依据波普尔“三 个世界”理论,上层表示物理世界,指代一切物质客体;中层表示精神世界;下层表示客观知识世界,凸显认知主体对客观世界中实体对象的感知和反映。物理世界产生了大规模的 实体对象,催生了用于指代实体对象的海量数据。数据作为认知主体给予对象的识别符号,数据的激增促进了认知主体对新的解释项的产生和扩充,进一步提升了对知识本身处理的需 求,推动知识组织系统的不断发展及应用。从海量数据中获取知识,以知识组织系统方式表示,并将知识组织系统应用到数据处理中,这样不仅推动数据与知识转换及增值,而且能够 动态反映外部客观世界变化,实现数据与知识从静态化向动态化管理。
  • 《若干国家推出或更新了国家开放科学战略》

    • 来源专题:科技期刊发展智库
    • 编译者:唐果媛
    • 发布时间:2023-10-08
    • 2023年7月26日,几个欧洲国家最近推出或更新了国家开放科学战略,同时美国也有一系列新的发展,旨在在国内协调开放获取、研究评估改革以及其他开放科学要素的发展与实施。最近推出的国家战略包括西班牙(2023 年 5 月)、斯洛文尼亚(2023 年 5 月)和罗马尼亚(2022 年 12 月)。它们与欧洲其他国家的长期战略(例如法国和荷兰)一道,共同构建了开放科学的发展框架。 在欧洲之外,美国白宫科学与技术政策办公室于 2023 年 1 月启动了开放科学年,全年在联邦政府范围内推出行动,以推进美国的国家开放科学政策。在 2022年10月18-19日举行的 Science Europe 开放科学大会上与会者们探讨了国家战略在开放科学政策的发展与实施中的作用。专家演讲者和与会者讨论了这些战略和行动计划如何为国家体系提供一致性,特别是确保所有相关的参与者和各个职业阶段的研究人员在这一过程中能够有实质性的参与。 西班牙于2023年5月推出了“国家开放科学战略(ENCA)2023-2027”,使命是加强西班牙科学活动的质量、透明度和可重复性,在科学社区之间改进传播,实现向社会传递知识,并设计西班牙如何应对该新的全球范式下西班牙科学社区面临的挑战。 ENCA的目标是确保到2027年,西班牙科研的资金、执行、传播和评估过程都融入开放科学的原则。换句话说,这些过程应更加开放透明,基于科学和社会影响的标准;可传播和可评估的研究产出应扩展到学术出版物之外;应加强用于传播、获取和保存研究结果的公共、分散和非商业基础设施;并且社会参与研究活动的机会应在各个阶段开放,包括公民科学,以及所有用公共资金资助的成果的免费开放获取。ENCA旨在促进西班牙科技创新体系(SECTI)中的重大文化变革。为了实现这一目标,ENCA鼓励与外部利益相关者(主要是大型出版商和科学信息服务提供商)进行深入的讨论,并敦促所有参与者寻找与已建立的学术传播体系紧密相关、与研究人员和机构评估过程密切相关的全球替代方案。ENCA将支持西班牙即将出台的2024-2027年国家科技创新计划,以与国家、欧洲和国际开放科学政策保持一致。 西班牙的ENCA包括4个战略目标:(1)确保存在足够强大且良好协调的互操作数字基础设施,能够承受实施国家开放科学政策所带来的影响,并促进其融入国际生态系统,包括欧洲开放科学云(EOSC);(2)通过FAIR原则,促进国家研发系统所产生的研究数据的适当管理;(3)对于直接或间接由公共资金资助的出版物和科学成果,面向所有人实施默认的开放和免费获取;(4)建立新的研究评估机制和激励认可体系,旨在促进开放科学实践,并为所有人员(研究人员、管理人员、资助机构、评估者)提供培训,使他们的职业表现与开放科学原则保持一致。 斯洛文尼亚于2023年5月发布了“关于按照开放科学原则开展科学研究工作的实施”的法令。该法令共有10章,19条。本法令规定了按照开放科学原则实施科学研究活动,涉及以下方面:在至少50%的公共资源共同资助的研究范围内,对研究成果实行开放获取;将感兴趣的公众纳入科学研究工作;根据开放科学原则评估研究人员、研究组织、研究项目和计划;开放科学基础设施。前述研究成果主要包括:科学出版物(例如在科学期刊和科学出版平台上发表的科学文章)、科学专著和其他类型的同行评审出版物、研究数据、作为研究成果产物的软件以及其他数字形式的研究结果。