《在生态监视世界中保护动物数据的新框架》

  • 来源专题:外来生物入侵
  • 编译者: 刘小燕
  • 发布时间:2020-07-27
  • 使用电子标签(即生物遥测)对动物运动进行监视已经成为基础和应用生态研究与监测的重要工具。动物追踪技术的进步与技术的变化同时发生,全球科学文化在不断演变,越来越促进数据共享和透明度。然而,滥用生物遥测数据有可能增加动物受到人类干扰或利用的脆弱性。在大多数情况下,遥测数据的安全对动物或其生态系统不会构成威胁,但对一些高危情况,如具有高经济价值的物种或处于危险中的种群,可能会促进主动干扰,甚至更糟,可能导致偷猎。我们建议,在设计动物追踪研究时,科学家有责任考虑他们的研究动物在实施计划中面临风险的脆弱性,并采取预防措施。

相关报告
  • 《数据与知识双驱动的知识组织系统构建框架研究》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-07-11
    •        知识组织系统(KOS)反映领域知识的概念及概念关系,是描述、表示特定领域的知识而生成的语义工具,涵盖了从简单的术语表到包含语义关系的规范档、受控词表、本体等。 知识组织系统的构建方式与计算机技术的发展相呼应。早期知识组织系统的构建主要依赖于专家先验知识,具有严格受控、权威性、全局性等优势。但纯粹依赖专家构建的知识组织系 统具有不可忽视的缺陷:一是主观性强,多依赖于专家先验知识,缺乏对终端用户需求的客观反映;二是实时性不强,知识组织系统构建后处于封闭静止状态,其无法通过自主学习进 行知识动态更新,术语经过长期实践积累达到一定规模后,才会由专家进一步更新,因此知识组织系统的概念更新缓慢,具有滞后性;三是成本较高,严格受控的概念选取及层次结构 建设使手工构建知识组织系统耗时耗力。大数据环境下实时更新的数据资源有待挖掘以提供各种智能化决策,其为知识组织系统提供了丰富的语料,自动构建知识组织系统成为可能, 通过对多源海量数据的自动采集、加工、处理、分析、整合和提炼,抽象形成具有一定结构的概念知识体系,但自动构建的方式依然有一定的局限性:一是机器语义理解差,从海量数 据中挖掘其结构,生成达到一定语义规范的概念存在困难;二是知识组织系统具有严格受控的多层次结构,机器学习技术仍难以自动化识别概念之间的丰富语义关系,建立语义关联且 形成符合用户需求的概念层级结构仍需人工干预;三是对数据质量要求高,自动化构建的知识组织系统高度依赖于所采集的涵盖主题领域的数据样本,数据的质量决定了最终形成概念 体系的质量。当前数据与知识相结合的第三代人工智能的出现,旨在将专家知识与海量数据有机结合,提升数据处理效率和质量。 如何借此契机,探索知识组织系统新的构建方式将成为当前知识组织领域的重要问题。         文章在分析国内外研究现状的基础上,从理论层面深度剖析数据和知识的协同机制,应用符 号学理论分析“数据”与“知识”之间的双向转换关系,并从知识组织系统的语法、语义、 语用角度,提出数据与知识双驱动的知识组织系统构建框架,有助于厘清数据与知识的双向转化,突破现有知识组织系统构建方法存在的局限,实现两种构建方法的深度融合及优势互 补,为数智时代自动构建高质量、高效率的知识组织系统提供新的路径。       知识分为隐性和显性两种类型。隐性知识是通过经验、行动、主观的洞察力等嵌入人类头脑中,难以正式表达、沟通或分享的知识;显式知识是可以正式表达、共享、复制、存储 的知识,更具有实用价值。知识管理中这两类知识通过相互转换而实现价值,但转换过程离不开数据支持。海量数据中蕴含着有待被挖掘的一定量的显隐性知识,经过分析、加工、 提炼等形成可表达的显性知识,服务于具体应用场景,进而产生新的数据,如此不断反复。如何从海量“数据”中获取、提炼、转换为有用的“知识”,“知识”又如何物化成可计算 的“数据”是实现数据与知识两者有效转换的关键。数据到知识的转化过程一直都是信息管理、信息系统、计算机领域等多个学科或领域关 注的热点话题。数据本身是观察的产物,存在于人类的思维之外,没有任何意义,定义为 表示对象、事件及环境的属性的符号。美国哲学家皮尔斯(Pierce)的符号学理论指出符 号由三个相互关联的基本要素组成:符号形体(Representamen)、对象(Object)和解释 项(Interpretant),其中符号形体可视为一种指代,对象是由符号所指的客观存在,解释项是人对符号与物体之间联系的理解和反应。由此看出,当认知主体对客观物理世界 进行感知时,从而为客观对象赋予了能够表征它的符号,即形成了多样化数据。而符号的含 义则是由主体所认知的知识来反映,此时知识成为提供符号意义的解释项,体现了对客观世界的理解和反映,使人们能够共享符号及符号语义以实现无障碍交流。知识由认知主体对客 观世界中数据(符号)的理解和反映而形成,通过对数据一系列组织和处理分析,形成对当前问题或活动的解释、理解及经验。数据密集型社会带来了数据量的激增,借助于统计学、 机器学习等技术,对海量数据进行提炼总结形成知识,数据到知识的转换效率提升。 知识向数据的转化是一个反向过程,当知识被语法、语义等结构描述后成为信息,信息被详细定义的数据结构规范后成为数据。数据是可被计算的符号,知识为数据符号提供 了语义解释。知识转化为数据就是将知识描述为可被计算的形式化结构,应用到数据处理环节中,以提升数据处理的效率。不断增加的知识同样面临序化表示的问题,知识组织系统作 为重要的工具,以知识为主要描述对象,对知识进行表示、描述、共享和使用,从而为符号所表达的语义意义提供明确的概念共识。正如 Qin Jian指出,知识组织系统实际上是将 人类对世界理解所形成的知识组织成各种系统或工具,以推动知识的再利用与创造。知识向数据转化过程需要各种知识组织系统的参与,通过对知识进行显性化、表示和存储,以更好 用以解释数据含义。 数据与知识的双向转化形成了一个联动的持续循环过程。依据波普尔“三 个世界”理论,上层表示物理世界,指代一切物质客体;中层表示精神世界;下层表示客观知识世界,凸显认知主体对客观世界中实体对象的感知和反映。物理世界产生了大规模的 实体对象,催生了用于指代实体对象的海量数据。数据作为认知主体给予对象的识别符号,数据的激增促进了认知主体对新的解释项的产生和扩充,进一步提升了对知识本身处理的需 求,推动知识组织系统的不断发展及应用。从海量数据中获取知识,以知识组织系统方式表示,并将知识组织系统应用到数据处理中,这样不仅推动数据与知识转换及增值,而且能够 动态反映外部客观世界变化,实现数据与知识从静态化向动态化管理。
  • 《开放科学框架发布新元数据:支持数据共享政策合规性》

    • 来源专题:科技期刊发展智库
    • 编译者:孟美任
    • 发布时间:2023-06-14
    • 元数据是开放科学框架(Open Science Framework,OSF)最重要的功能之一。所有OSF的项目、登记项目和预印本都带有元数据,用于记录OSF实例的信息,如标题、描述或关键词。元数据通常对于研究来说是不可或缺的,如果没有标题、描述或关键词,研究就很难被发现,甚至更难理解。 研究人员现在能够添加有关他们在OSF上共享的材料类型信息,以及资金或资助来源信息。随着在线资源数量的激增,不仅在OSF上,此类信息对于组织、发现和重用研究成果至关重要。 这种元数据非常重要,事实上,国际上的主要国家和其他资助、研究支持机构的许多新政策都有所涉及。NIH的新数据共享政策于2023年1月25日生效,要求共享一组通用的数据元素,包括我们最近更新的资助者和资源类型信息。除了这些具体指南外,其他机构也在支持创建更成熟的数据共享基础设施。白宫科技政策办公室最近的政策,以及联合国教科文组织关于开放科学的建议,都设想了一个需要增强元数据作用的研究生态系统。 1 元数据遵循FAIR原则 元数据使研究材料能够被发现、被理解和被重用,并确保数据和其他研究成果是可发现、可访问、可互操作和可重用 (Findable, Accessible, Interoperable, and Reusable, FAIR) 的。 (1)可发现 虽然文本材料支持检索,但其他材料却不容易被找到。元数据是理解和发现这些格式资源的关键。即使存在文本,元数据也会增强和简化这些信息。它可以描述不能立即被观察到的内容,如视频的长度、主题或相关研究领域,或者资助者的名字。 (2)可访问 一旦被发现,研究成果就需要元数据来指出资源的访问方式,以及可能的身份验证和授权方式。有关资源许可、资源语言和任何使用限制的元数据对于共享研究至关重要。 (3)可互操作 元数据使研究成果能够与其他资源和系统集成。在许多情况下,OSF公共内容的索引会自动发生,因为OSF有一个公共API,并向Datacite和Crossref注册持久标识符 (Persistent Identifiers,PIDs)。除了OSF项目、预印本和登记项目的DOI外,OSF还能够利用人(ORCID iDs)、地点(OSF机构成员隶属关系的ROR IDs和资助者的Crossref Funder IDs)和事物(将数据、出版物和资源的DOI与OSF登记项目、预印本进行关联)标识符。OSF内容页面还使用元标记,以便被其他服务(如Google学术搜索和数据集发现、Web of Science和其他工具)获取,以提高研究的可发现性和影响力。 (4)可重用 为了最大限度地增加对研究的资助,元数据能够确保它们可发现、可互操作和可理解,以进一步推进知识发现和创新,从而重用研究成果。元数据可以告诉其他人数据或资源的结构、资源中使用的语言或本体、他们是如何收集或生成的,以及应该如何被读取或使用。如果元数据中没有这些重要信息,研究就只能是一次性的。 OSF推出新的FAIR元数据功能,将使用户能够满足资助者的要求,并添加更多关于研究材料性质的信息,使资助者或合作者更容易找到、访问和利用研究成果。这些变化将使 OSF的可检索数据变得更加丰富,同时也符合新的数据政策。 2 OSF 元数据 元数据已经是OSF的一部分。OSF新推出的元数据增强功能能够使研究生产者和消费者能够以多种关键方式存储和共享元数据,如图1所示。为了进一步增强OSF内容的FAIR属性,目前正在为以下内容添加元数据字段: ●资源类型,描述您共享的研究材料类型(数据集、论文、图像等) ●所用语言 ●资助或支持研究的资助者的姓名 ●具体奖项名称 ●奖项的标识符 由我们现有的标题、描述、贡献者、许可协议、发布/修改日期的元数据作为补充。 此外,目前只能在登记项目和预印本上找到的学科或学科领域将在未来几周内添加到项目中。 另一个主要变化是新的元数据在文件级别可用,如图2所示。例如,虽然您可能想要描述项目或登记项目的总主题或资助者,但您现在可以将有关材料类型或语言的信息添加到特定文件中。这意味着如果您想要专门查找或共享数据集,您可以将该资源类型添加到那些特定文件中。 3 社区元数据工具 作为社区驱动的开源工具,OSF一直努力利用其他社区开发的开放标准和工具。OSF上的元数据旨在支持越来越多的社区开发的元数据模式和本体,已经实现了Datacite的元数据模式。这使得OSF与其他通用资源库保持一致,这也是我们在NIH通用资源库生态系统倡议(Generalist Repository Ecosystem Initiative, GREI)中合作开发一套通用元数据的一部分。OSF继续建立在重要的学术社区基础设施之上,如DOIs、ORCID iDs、ROR IDs、资助者IDs 以及内容和数据发现服务,以使OSF内容从研究计划一直到结果报告都尽可能FAIR化。开放科学中心(Center for Open Science, COS)也直接参与全球元数据工作组和委员会的工作,包括Datacite、Crossref和欧洲开放科学云(European Open Science Cloud, EOSC)。随着时间的推移,更多的元数据模式、本体和标准可以很容易地集成到OSF内容的元数据工作流中。计划纳入CEDAR等工具以支持更多特定领域的元数据,并纳入CREDiT等标准以使研究实践与激励措施保持一致,并希望能与期刊和其他平台合作,在各平台间拉动元数据,以提高研究人员的效率。 未来的元数据工作将包括改进OSF中的搜索和发现、创建具有更多字段的自定义元数据模板以及简化元数据创建工作流程。通过将这些新字段添加到OSF项目、登记项目和文件中,可以满足资助者的要求并提高研究的可发现性。