《数智时代的信息分析方法:数据驱动、知识驱动及融合驱动—卢小宾等》

  • 来源专题:数智化图书情报
  • 编译者: 黄雨馨
  • 发布时间:2023-09-07
  • 数智时代的信息分析方法:数据驱动、知识驱动及融合驱动

    卢小宾 霍帆帆 王壮 霍朝光

    摘 要 数智时代面对大数据、大知识所带来的挑战,如何创新发展信息分析方法,关乎新时代信息分析工作的开展,关乎数据资源的开发利用。本文在梳理现有信息分析方法的基础上,提出基于数据驱动、知识驱动,以及数据与知识融合驱动的三种数智型方法思路。首先,刻画了基于文本、网络、音频、图像等数据驱动以及与之相应的文本挖掘、图挖掘、音频挖掘、图像挖掘等信息分析模式:其次,刻画了基于专家知识库、通用知识库、领域知识图谱、通用知识图谱等知识驱动的信息分析模式:最后,刻画了基干特征.模型、决策三种层面的数据与知识融合驱动的信息分析模式,以构建能够系统融合大数据、大知识的信息分析方法,实现数智融合型信息分析,促进 LIS 学科方法论发展,赋能国家决策和社会治理。


  • 原文来源:https://mp.weixin.qq.com/s/ETSY33AU9kHjaLzHScbw5Q
相关报告
  • 《数智化背景下基于本体驱动的工业互联网平台信息融合研究》

    • 来源专题:数智化图书情报
    • 编译者:黄雨馨
    • 发布时间:2023-09-17
    • 数智化背景下基于本体驱动的工业互联网平台信息融合研究 单子丹1,2韩姣1门丽双1韩香钰1 1. 哈尔滨理工大学经济与管理学院2. 哈尔滨理工大学高新技术产业发展研究中心 摘要:[目的/意义]数智化时代,如何实现多源信息的有效融合是工业互联网平台在高效组织并利用信息的过程中亟须重视的问题。[方法/过程]针对工业互联网平台中多源异构的信息,文章提出一种基于本体的信息融合框架。首先构建工业互联网平台信息本体,实现对领域知识统一规范的描述;然后设置融合规则和过程,通过本体映射,利用GA-SA-BP算法计算本体概念综合相似度,获得平台信息本体与基于数据源的局部本体之间的映射结果;最后依据映射结果和融合规则实现工业互联网平台多源信息的融合。[结果/结论]以航天云网INDICS平台中的信息资源为例进行验证,所提的信息融合方法能实现多源异构信息的融合,对工业互联网平台信息资源的集成化管理和应用具有一定的参考价值。 关键词:工业互联网平台;本体;信息融合;本体映射;概念相似度;
  • 《数据与知识双驱动的知识组织系统构建框架研究》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-07-11
    •        知识组织系统(KOS)反映领域知识的概念及概念关系,是描述、表示特定领域的知识而生成的语义工具,涵盖了从简单的术语表到包含语义关系的规范档、受控词表、本体等。 知识组织系统的构建方式与计算机技术的发展相呼应。早期知识组织系统的构建主要依赖于专家先验知识,具有严格受控、权威性、全局性等优势。但纯粹依赖专家构建的知识组织系 统具有不可忽视的缺陷:一是主观性强,多依赖于专家先验知识,缺乏对终端用户需求的客观反映;二是实时性不强,知识组织系统构建后处于封闭静止状态,其无法通过自主学习进 行知识动态更新,术语经过长期实践积累达到一定规模后,才会由专家进一步更新,因此知识组织系统的概念更新缓慢,具有滞后性;三是成本较高,严格受控的概念选取及层次结构 建设使手工构建知识组织系统耗时耗力。大数据环境下实时更新的数据资源有待挖掘以提供各种智能化决策,其为知识组织系统提供了丰富的语料,自动构建知识组织系统成为可能, 通过对多源海量数据的自动采集、加工、处理、分析、整合和提炼,抽象形成具有一定结构的概念知识体系,但自动构建的方式依然有一定的局限性:一是机器语义理解差,从海量数 据中挖掘其结构,生成达到一定语义规范的概念存在困难;二是知识组织系统具有严格受控的多层次结构,机器学习技术仍难以自动化识别概念之间的丰富语义关系,建立语义关联且 形成符合用户需求的概念层级结构仍需人工干预;三是对数据质量要求高,自动化构建的知识组织系统高度依赖于所采集的涵盖主题领域的数据样本,数据的质量决定了最终形成概念 体系的质量。当前数据与知识相结合的第三代人工智能的出现,旨在将专家知识与海量数据有机结合,提升数据处理效率和质量。 如何借此契机,探索知识组织系统新的构建方式将成为当前知识组织领域的重要问题。         文章在分析国内外研究现状的基础上,从理论层面深度剖析数据和知识的协同机制,应用符 号学理论分析“数据”与“知识”之间的双向转换关系,并从知识组织系统的语法、语义、 语用角度,提出数据与知识双驱动的知识组织系统构建框架,有助于厘清数据与知识的双向转化,突破现有知识组织系统构建方法存在的局限,实现两种构建方法的深度融合及优势互 补,为数智时代自动构建高质量、高效率的知识组织系统提供新的路径。       知识分为隐性和显性两种类型。隐性知识是通过经验、行动、主观的洞察力等嵌入人类头脑中,难以正式表达、沟通或分享的知识;显式知识是可以正式表达、共享、复制、存储 的知识,更具有实用价值。知识管理中这两类知识通过相互转换而实现价值,但转换过程离不开数据支持。海量数据中蕴含着有待被挖掘的一定量的显隐性知识,经过分析、加工、 提炼等形成可表达的显性知识,服务于具体应用场景,进而产生新的数据,如此不断反复。如何从海量“数据”中获取、提炼、转换为有用的“知识”,“知识”又如何物化成可计算 的“数据”是实现数据与知识两者有效转换的关键。数据到知识的转化过程一直都是信息管理、信息系统、计算机领域等多个学科或领域关 注的热点话题。数据本身是观察的产物,存在于人类的思维之外,没有任何意义,定义为 表示对象、事件及环境的属性的符号。美国哲学家皮尔斯(Pierce)的符号学理论指出符 号由三个相互关联的基本要素组成:符号形体(Representamen)、对象(Object)和解释 项(Interpretant),其中符号形体可视为一种指代,对象是由符号所指的客观存在,解释项是人对符号与物体之间联系的理解和反应。由此看出,当认知主体对客观物理世界 进行感知时,从而为客观对象赋予了能够表征它的符号,即形成了多样化数据。而符号的含 义则是由主体所认知的知识来反映,此时知识成为提供符号意义的解释项,体现了对客观世界的理解和反映,使人们能够共享符号及符号语义以实现无障碍交流。知识由认知主体对客 观世界中数据(符号)的理解和反映而形成,通过对数据一系列组织和处理分析,形成对当前问题或活动的解释、理解及经验。数据密集型社会带来了数据量的激增,借助于统计学、 机器学习等技术,对海量数据进行提炼总结形成知识,数据到知识的转换效率提升。 知识向数据的转化是一个反向过程,当知识被语法、语义等结构描述后成为信息,信息被详细定义的数据结构规范后成为数据。数据是可被计算的符号,知识为数据符号提供 了语义解释。知识转化为数据就是将知识描述为可被计算的形式化结构,应用到数据处理环节中,以提升数据处理的效率。不断增加的知识同样面临序化表示的问题,知识组织系统作 为重要的工具,以知识为主要描述对象,对知识进行表示、描述、共享和使用,从而为符号所表达的语义意义提供明确的概念共识。正如 Qin Jian指出,知识组织系统实际上是将 人类对世界理解所形成的知识组织成各种系统或工具,以推动知识的再利用与创造。知识向数据转化过程需要各种知识组织系统的参与,通过对知识进行显性化、表示和存储,以更好 用以解释数据含义。 数据与知识的双向转化形成了一个联动的持续循环过程。依据波普尔“三 个世界”理论,上层表示物理世界,指代一切物质客体;中层表示精神世界;下层表示客观知识世界,凸显认知主体对客观世界中实体对象的感知和反映。物理世界产生了大规模的 实体对象,催生了用于指代实体对象的海量数据。数据作为认知主体给予对象的识别符号,数据的激增促进了认知主体对新的解释项的产生和扩充,进一步提升了对知识本身处理的需 求,推动知识组织系统的不断发展及应用。从海量数据中获取知识,以知识组织系统方式表示,并将知识组织系统应用到数据处理中,这样不仅推动数据与知识转换及增值,而且能够 动态反映外部客观世界变化,实现数据与知识从静态化向动态化管理。