《知识的智慧化、智慧的场景化、智能的泛在化——探索智慧知识服务的逻辑框架》

  • 来源专题:数智化图书情报
  • 编译者: 黄雨馨
  • 发布时间:2023-09-17
  • 知识的智慧化、智慧的场景化、智能的泛在化——探索智慧知识服务的逻辑框架

    张晓林,梁娜

    数字化转型+AI环境下,我们正处于知识生态环境和知识技术体系的交汇重塑中,对知识、智慧和智能基础设施的认识很大程度上将决定我们的生存方式和生存几率。知识对象已内在地结构化、语义化、可定制、可关联,已涵盖从内容对象到知识关系网络到知识创造与利用流程,成为可交互、可计算的智能体。在智慧化的各类知识对象支持下,通过场景驱动的创新机制,可在用户解决问题的过程中,通过数据、模型、计算和交互来支持感知智能、认知智能和决策智能。通过泛在智能机制(智联网),利用边缘智能、智能集成感知体、智慧知识内容对象、智慧化业务流程与管理机制等,可积极推动智慧知识对象生态体系的构建与管理、知识与数据双驱动的问题分析与决策推理、多源资源环境下AI赋能的个性化知识服务的动态构建,以有效推动智慧知识服务的普惠可及。为实现上述愿景,重要的是运用第一性原理思维,推动新形势下的服务逻辑和业务机制的范式转变。

  • 原文来源:https://mp.weixin.qq.com/s/7VrWvfyuhyoB6aGo2SeW2A
相关报告
  • 《从档案数据化、知识化到智慧档案服务》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-22
    • 一、智慧档案服务的概念和延伸 智慧档案服务一般是指档案部门基于用户的信息需求,以更加自动化和智能化的服务方式提供档案信息服务。在档案提供智慧服务之前,首先要对档案进行数据化乃至知识化。 档案数据化是将传统纸质档案或数字化副本转化为机器可理解和处理的数据形式的过程。传统的档案手工数据化过程,存在效率低、差错率高、无平台化的工具进行项目组织等困难,为了解决这些问题,需要智能数据化加工平台从人员、工具、成本三个纬度帮助企业实现降本增效、标准输出、管理协同。平台需要借助新一代AI技术贯穿全流程环节,打破传统预处理(人工修图)、手动录入编目、手动质检等传统人工简单重复性工作,将智能数据加工(智能修图、智能编目、智能质控、智能输出;知识图谱模式构建、知识利用方法)等一系列技术与传统数字化流程控制平台相结合。 本文提出的核心技术理念基于国家档案局2021年度科技项目“基于知识图谱的智慧档案服务技术研究”的研究成果,以AI技术为核心,利用自动化工具,将数字化图像进行自动信息提取实现档案数据化、知识化处理;以语义检索、知识推荐、答案自动生成等技术,实现与档案利用人员的信息互动,结合大语言模型,实现更加智能的数据检索和分析利用。 二、智慧档案服务的实现路径 在档案数据加工行业中,存在一些行业痛点,主要围绕人员、工具、成本等问题。本文介绍的智能数据化加工平台需要贯穿全流程数据化、知识化和知识利用环节: ·以一系列智能驱动的数据化加工工具,代替人工修图、著录、质检等低能效重复性工作,自动形成结构化数据; ·还要能完成数据项关系建模,自动形成数据关联模式,即形成知识图谱中的节点和边的关联关系; ·并且可以通过图谱工具非常方便地进行知识库构建和数据导入;·另外为了将知识进行直观展示,还需要有一个图谱可视化工具,提供界面展示和互动查看; ·最后,利用知识检索、问答等技术,结合大语言模型的AIGC能力,在此知识库基础上衍生出更多互动式、深层次、高效率的数据利用方式。图:智慧档案服务实现路径 三、AI赋能的档案数据化 在档案数据化过程中,各种AI技术工具可以被用来实现这一目标,包括图像内容识别和分类、OCR技术、基于深度学习的信息抽取等。 图像内容识别和分类:利用图像识别技术将文本、表格等元素从图像中提取出来,转化成结构化的图像语义信息,甚至需要把图像信息中出现的构件的位置、特征向量等形式也同时加以存储方便后续利用。 OCR技术:可以解决文本检测、文本方向检测、打印和手写文字识别等数据化加工环节中的难题。基于CNN卷积神经网络的OCR算法,较好地解决了传统OCR算法的缺陷,配合大量的数据可以增强特征提取的鲁棒性,面临模糊、扭曲、畸变、复杂背景和光线不清等图像问题均表现良好;得益于PSENet等技术解决了较近的相邻文本行粘连的情况;识别层面通过CRNN模型,以卷积特征作为输入,双向LSTM进行序列处理使得文字识别的效率大幅提升,也提升了模型的泛化能力。不过对于横、竖文混杂在同一图片的情况,目前的OCR算法仍有不足之处,需要持续优化。 基于深度学习的信息抽取:信息抽取过程通过分析和理解文字信息,包括对文本进行分词、语义分析、关键词提取等,其中最重要的技术,是需要让抽取模型可以通过小样本的标注和训练,适应不同的项目信息组织要求和模式,不仅可以提取命名实体,也能提取关系和事件,即从“字里行间”提取信息的能力,并且足够简单。当然,考虑到档案年代、规范性、内容复杂性、著录内容和规则不确定性,会导致自动著录准确率方差较大,对于著录项内容位置和内容相对固定,规则清晰的场景,自动著录准确率可以达到95%以上,比如规范性较好的专业档案(不动产档案,诉讼档案等)的自动图像信息提取和卷内目录生成实际效果就非常好。 通过智能档案数据化,可以实现更高效的档案管理,加速信息检索过程,支持更深入的分析和研究。 四、档案知识化 档案数据知识化是指将档案数据通过加工、分析和整合,转化为有意义的知识的过程。这意味着知识化需要在数据化的基础上从这些数据中提取出有用的信息、模式和关联,以生成更深层次的理解和见解。这个过程通常涉及以下步骤和方法: 1. 数据挖掘和分析 利用数据挖掘技术,从大量的档案数据中提取出隐藏在其中的模式、趋势和关联。这可以通过统计分析、机器学习算法、聚类分析等方法实现。 2. 语义建模在档案数据中,往往蕴含着丰富的语义和上下文信息。语义建模可以将数据中的实体、关系和属性进行抽象化,以建立起更为丰富的知识网络。 3. 知识图谱构建知识图谱是一种以图形方式表示知识的方式,将实体、属性和关系以节点和边的形式连接在一起。通过构建知识图谱,可以更清晰地呈现档案数据之间的关系和信息流动。 4. 自然语言处理(NLP)对于文本型档案数据,NLP技术可以帮助进行文本分类、情感分析、主题词提取等,从而从文本中抽取出有意义的信息。 5. 数据可视化将档案数据以可视化的方式呈现,如图表、图形和地图等,有助于直观地理解数据之间的关系和趋势。 6. 专家知识融合将领域专家的知识和经验与档案数据结合起来,可以生成更深刻的洞察和分析结果,具体体现在对数据化结果进行补充、修订等方式。 通过档案数据知识化,我们可以从海量的数据中获取更有价值的信息,为决策、研究和创新提供支持。 五、智慧档案服务的关键技术 (一)智慧中台 对于档案部门而言智慧服务能力的提升需要一系列的底层AI能力,不仅仅有一系列开箱即用的预训练模型;也需要具备一定的算力管理能力;并且从数据标注、模型小样本训练开始,向上提供数据和知识加工利用的能力。 这就需要自底而上构建整个智慧服务平台,而不是零敲碎打,从应用实现的角度从上到下来开发系统,这样必然导致各个系统之间无法实现协同调度和整合。 (二)知识表示、加工和存储 目前,存在两种档案数据知识化的路径:一种是通过档案结构化知识构建出一定的数据模式,并把这种模式以图的方式勾勒出来;另一种是直接通过强大的语言模型(如GPT3.5、GPT4等),直接抽取知识元素,稍微加以分析清洗后存入图谱。 第一种方式构建方法较为复杂耗时,但数据较为精准,利用起来较为容易且支持更多场景(如传统基于知识图谱的问答KBQA即是一种较为精准的知识检索利用方式);而后者的优势在于,可以节省大量的模式构建和抽取时间,大量的知识三元组可以直接入库,但缺点也在于知识不精准,容易出现含义不清的问题,结果也较难利用,在一些内容准确性要求不高的场景下可以较快落地。 (三)知识利用 存储在知识图谱中的数据,可以方便地通过可视化的方式进行呈现。一种很自然的知识呈现方式,就是语义检索或是知识问答的方式,来实现三元组和各种三元组组成的网状结构。 利用知识建模,可以实现自动问答的方式进行知识检索。这样不仅全文数据可以以知识化的方式进行查找、定位和呈现,还可以直接用精准的方式在头条位置呈现检索结果;在理解语义的基础上,还可以通过知识的关联,进行知识推荐。图:知识利用和呈现方式进一步来说,通过结合语义检索、推荐和大语言模型的结合,更多更复杂的档案利用方式,比如档案自动编研等场景,都可以很好的实现,从而更好地对档案内容和知识进行挖掘利用。 六总结与展望 档案数据化改变了档案的存储和管理方式,不仅极大地提升了检索速度与准确度,还为档案数据的后续应用奠定了基础。 知识化将档案数据利用提升至智能分析与洞察的层次。通过数据挖掘、语义建模和知识图谱构建,档案不再仅是静态信息的堆积,而是知识发现的源泉。这种深度的分析和洞察使得利用者能够更好地理解数据之间的联系,从中挖掘出潜在的价值。 最后,智慧档案服务将智能档案数据化和知识化推向了更高层次的应用。随着更为强大的AI技术(比如大语言模型GPT4等)的持续发展,智慧档案服务有望实现更精准、更智能的数据挖掘和信息资政、为民服务,档案信息化将进入智慧档案时代。
  • 《文章荐读 | 数智驱动背景下产业竞争情报智慧服务的认知框架与实现逻辑》

    • 来源专题:数智化图书情报
    • 编译者:黄雨馨
    • 发布时间:2023-10-10
    • 数智驱动背景下产业竞争情报智慧服务的认知框架与实现逻辑 郑荣1,2, 王晓宇1, 高志豪1, 雷亚欣1 1.吉林大学商学与管理学院,长春 130012 2.吉林大学信息资源研究中心,长春 130012 摘要       探索数智驱动背景下产业竞争情报智慧服务的认知与实现等问题,有助于情报赋能产业健康有序发展。本文采用系统性文献综述与案例分析方法,按照“认识问题-分析问题-解决问题”的论证思维公式,从服务认识、服务分析、服务实现三个视角探讨产业竞争情报智慧服务的研究进展,概括并揭示产业竞争情报服务具有“服务技术智能交互化、服务模式问题导向化、服务环境积极生态化”的新特点。本文提出的“智能技术多维度融入、服务范式深层次转变、服务生态全方位重塑”的认知框架,以及“数据融合-知识挖掘-智慧服务”的实现逻辑,有助于拓展产业竞争情报服务理论,为服务实践提供了新思路。 关键词 产业竞争情报; 智慧服务; 数智驱动; 认知框架; 实现逻辑