《从档案数据化、知识化到智慧档案服务》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-09-22
  • 一、智慧档案服务的概念和延伸

    智慧档案服务一般是指档案部门基于用户的信息需求,以更加自动化和智能化的服务方式提供档案信息服务。在档案提供智慧服务之前,首先要对档案进行数据化乃至知识化。

    档案数据化是将传统纸质档案或数字化副本转化为机器可理解和处理的数据形式的过程。传统的档案手工数据化过程,存在效率低、差错率高、无平台化的工具进行项目组织等困难,为了解决这些问题,需要智能数据化加工平台从人员、工具、成本三个纬度帮助企业实现降本增效、标准输出、管理协同。平台需要借助新一代AI技术贯穿全流程环节,打破传统预处理(人工修图)、手动录入编目、手动质检等传统人工简单重复性工作,将智能数据加工(智能修图、智能编目、智能质控、智能输出;知识图谱模式构建、知识利用方法)等一系列技术与传统数字化流程控制平台相结合。

    本文提出的核心技术理念基于国家档案局2021年度科技项目“基于知识图谱的智慧档案服务技术研究”的研究成果,以AI技术为核心,利用自动化工具,将数字化图像进行自动信息提取实现档案数据化、知识化处理;以语义检索、知识推荐、答案自动生成等技术,实现与档案利用人员的信息互动,结合大语言模型,实现更加智能的数据检索和分析利用。

    二、智慧档案服务的实现路径

    在档案数据加工行业中,存在一些行业痛点,主要围绕人员、工具、成本等问题。本文介绍的智能数据化加工平台需要贯穿全流程数据化、知识化和知识利用环节:

    ·以一系列智能驱动的数据化加工工具,代替人工修图、著录、质检等低能效重复性工作,自动形成结构化数据;

    ·还要能完成数据项关系建模,自动形成数据关联模式,即形成知识图谱中的节点和边的关联关系;

    ·并且可以通过图谱工具非常方便地进行知识库构建和数据导入;·另外为了将知识进行直观展示,还需要有一个图谱可视化工具,提供界面展示和互动查看;

    ·最后,利用知识检索、问答等技术,结合大语言模型的AIGC能力,在此知识库基础上衍生出更多互动式、深层次、高效率的数据利用方式。图:智慧档案服务实现路径

    三、AI赋能的档案数据化

    在档案数据化过程中,各种AI技术工具可以被用来实现这一目标,包括图像内容识别和分类、OCR技术、基于深度学习的信息抽取等。

    图像内容识别和分类:利用图像识别技术将文本、表格等元素从图像中提取出来,转化成结构化的图像语义信息,甚至需要把图像信息中出现的构件的位置、特征向量等形式也同时加以存储方便后续利用。

    OCR技术:可以解决文本检测、文本方向检测、打印和手写文字识别等数据化加工环节中的难题。基于CNN卷积神经网络的OCR算法,较好地解决了传统OCR算法的缺陷,配合大量的数据可以增强特征提取的鲁棒性,面临模糊、扭曲、畸变、复杂背景和光线不清等图像问题均表现良好;得益于PSENet等技术解决了较近的相邻文本行粘连的情况;识别层面通过CRNN模型,以卷积特征作为输入,双向LSTM进行序列处理使得文字识别的效率大幅提升,也提升了模型的泛化能力。不过对于横、竖文混杂在同一图片的情况,目前的OCR算法仍有不足之处,需要持续优化。

    基于深度学习的信息抽取:信息抽取过程通过分析和理解文字信息,包括对文本进行分词、语义分析、关键词提取等,其中最重要的技术,是需要让抽取模型可以通过小样本的标注和训练,适应不同的项目信息组织要求和模式,不仅可以提取命名实体,也能提取关系和事件,即从“字里行间”提取信息的能力,并且足够简单。当然,考虑到档案年代、规范性、内容复杂性、著录内容和规则不确定性,会导致自动著录准确率方差较大,对于著录项内容位置和内容相对固定,规则清晰的场景,自动著录准确率可以达到95%以上,比如规范性较好的专业档案(不动产档案,诉讼档案等)的自动图像信息提取和卷内目录生成实际效果就非常好。

    通过智能档案数据化,可以实现更高效的档案管理,加速信息检索过程,支持更深入的分析和研究。

    四、档案知识化

    档案数据知识化是指将档案数据通过加工、分析和整合,转化为有意义的知识的过程。这意味着知识化需要在数据化的基础上从这些数据中提取出有用的信息、模式和关联,以生成更深层次的理解和见解。这个过程通常涉及以下步骤和方法:

    1. 数据挖掘和分析

    利用数据挖掘技术,从大量的档案数据中提取出隐藏在其中的模式、趋势和关联。这可以通过统计分析、机器学习算法、聚类分析等方法实现。

    2. 语义建模在档案数据中,往往蕴含着丰富的语义和上下文信息。语义建模可以将数据中的实体、关系和属性进行抽象化,以建立起更为丰富的知识网络。

    3. 知识图谱构建知识图谱是一种以图形方式表示知识的方式,将实体、属性和关系以节点和边的形式连接在一起。通过构建知识图谱,可以更清晰地呈现档案数据之间的关系和信息流动。

    4. 自然语言处理(NLP)对于文本型档案数据,NLP技术可以帮助进行文本分类、情感分析、主题词提取等,从而从文本中抽取出有意义的信息。

    5. 数据可视化将档案数据以可视化的方式呈现,如图表、图形和地图等,有助于直观地理解数据之间的关系和趋势。

    6. 专家知识融合将领域专家的知识和经验与档案数据结合起来,可以生成更深刻的洞察和分析结果,具体体现在对数据化结果进行补充、修订等方式。

    通过档案数据知识化,我们可以从海量的数据中获取更有价值的信息,为决策、研究和创新提供支持。

    五、智慧档案服务的关键技术

    (一)智慧中台

    对于档案部门而言智慧服务能力的提升需要一系列的底层AI能力,不仅仅有一系列开箱即用的预训练模型;也需要具备一定的算力管理能力;并且从数据标注、模型小样本训练开始,向上提供数据和知识加工利用的能力。

    这就需要自底而上构建整个智慧服务平台,而不是零敲碎打,从应用实现的角度从上到下来开发系统,这样必然导致各个系统之间无法实现协同调度和整合。

    (二)知识表示、加工和存储

    目前,存在两种档案数据知识化的路径:一种是通过档案结构化知识构建出一定的数据模式,并把这种模式以图的方式勾勒出来;另一种是直接通过强大的语言模型(如GPT3.5、GPT4等),直接抽取知识元素,稍微加以分析清洗后存入图谱。

    第一种方式构建方法较为复杂耗时,但数据较为精准,利用起来较为容易且支持更多场景(如传统基于知识图谱的问答KBQA即是一种较为精准的知识检索利用方式);而后者的优势在于,可以节省大量的模式构建和抽取时间,大量的知识三元组可以直接入库,但缺点也在于知识不精准,容易出现含义不清的问题,结果也较难利用,在一些内容准确性要求不高的场景下可以较快落地。

    (三)知识利用

    存储在知识图谱中的数据,可以方便地通过可视化的方式进行呈现。一种很自然的知识呈现方式,就是语义检索或是知识问答的方式,来实现三元组和各种三元组组成的网状结构。

    利用知识建模,可以实现自动问答的方式进行知识检索。这样不仅全文数据可以以知识化的方式进行查找、定位和呈现,还可以直接用精准的方式在头条位置呈现检索结果;在理解语义的基础上,还可以通过知识的关联,进行知识推荐。图:知识利用和呈现方式进一步来说,通过结合语义检索、推荐和大语言模型的结合,更多更复杂的档案利用方式,比如档案自动编研等场景,都可以很好的实现,从而更好地对档案内容和知识进行挖掘利用。

    六总结与展望

    档案数据化改变了档案的存储和管理方式,不仅极大地提升了检索速度与准确度,还为档案数据的后续应用奠定了基础。

    知识化将档案数据利用提升至智能分析与洞察的层次。通过数据挖掘、语义建模和知识图谱构建,档案不再仅是静态信息的堆积,而是知识发现的源泉。这种深度的分析和洞察使得利用者能够更好地理解数据之间的联系,从中挖掘出潜在的价值。

    最后,智慧档案服务将智能档案数据化和知识化推向了更高层次的应用。随着更为强大的AI技术(比如大语言模型GPT4等)的持续发展,智慧档案服务有望实现更精准、更智能的数据挖掘和信息资政、为民服务,档案信息化将进入智慧档案时代。

  • 原文来源:https://mp.weixin.qq.com/s/MDLhjRYlUjcToluI_Nt8Gg
相关报告
  • 《知识的智慧化、智慧的场景化、智能的泛在化——探索智慧知识服务的逻辑框架》

    • 来源专题:数智化图书情报
    • 编译者:黄雨馨
    • 发布时间:2023-09-17
    • 知识的智慧化、智慧的场景化、智能的泛在化——探索智慧知识服务的逻辑框架 张晓林,梁娜 数字化转型+AI环境下,我们正处于知识生态环境和知识技术体系的交汇重塑中,对知识、智慧和智能基础设施的认识很大程度上将决定我们的生存方式和生存几率。知识对象已内在地结构化、语义化、可定制、可关联,已涵盖从内容对象到知识关系网络到知识创造与利用流程,成为可交互、可计算的智能体。在智慧化的各类知识对象支持下,通过场景驱动的创新机制,可在用户解决问题的过程中,通过数据、模型、计算和交互来支持感知智能、认知智能和决策智能。通过泛在智能机制(智联网),利用边缘智能、智能集成感知体、智慧知识内容对象、智慧化业务流程与管理机制等,可积极推动智慧知识对象生态体系的构建与管理、知识与数据双驱动的问题分析与决策推理、多源资源环境下AI赋能的个性化知识服务的动态构建,以有效推动智慧知识服务的普惠可及。为实现上述愿景,重要的是运用第一性原理思维,推动新形势下的服务逻辑和业务机制的范式转变。
  • 《马双双:国家文化数字化战略下档案文化数据共享研究》

    • 来源专题:数智化图书情报
    • 编译者:杨小芳
    • 发布时间:2024-09-25
    • 马双双,博士,郑州大学信息管理学院教师、硕士生导师,河南省档案专家。主要从事档案机构评估、综合档案馆文化功能研究、档案工作数字化转型等方向的研究工作。在专业核心期刊发表学术论文32篇,其中核心期刊27篇,CSSCI论文7篇(均为独著或一作)。近年来,先后主持或参与项目6项,其中,省部级以上项目2项。获得河南省档案局项目结项成果二等奖、“2022年中国档案学会档案学基础理论学术委员会学术年会暨第三届档案创新论坛”征文评选一等奖、2023年全国青年档案工作者学术论坛征文评选一等奖等。 文化强国、数字中国、国家文化数字化等系列战略的提出,加快推进了文化领域数字化转型的进程。如何打造高质量的数字文化资源、文化服务和文化产品,更好满足数字时代公众对于精神文化生活的需求,成为所有社会文化机构必须思考的问题。档案机构作为重要的公共文化机构,不仅承载着人类社会文化实践,更承担着让档案文化资源持续为社会服务的职能。因此,不论是档案学界还是档案部门都有必要主动作为,结合国家各项重大战略的要求,积极融入到国家数字化建设的大局之中,在为党管档,为国守史,为民服务理念的指引下,共同探索国家文化数字化战略下的档案文化建设问题。此次对谈涉及数字档案文化资源可持续发展、档案文化数据共享、档案文化数字体验、档案文化服务数字化转型、红色档案文化数字创意开发五个方面,以期通过国家文化数字化战略下的档案文化建设具体问题的思考,为档案界深化相关认知提供参考借鉴。 档案文化数据共享是在国家文化数字化战略下档案部门需要加以关注的一个重要问题。针对该问题的研究主要从四个具体方面展开。 第一,档案文化数据共享的概念阐释。结合对档案文化和档案数据的认识,档案文化数据是指经过数据化处理后的可分离、可计算的细粒度档案文化数据形态。这一处理过程能够对档案文化资源进行深入的挖掘和知识化重组,为档案文化资源的共建共享提供可靠的数据储备。档案文化数据开放是档案文化数据共享的基本前提,这就需要档案部门根据相关法律法规及标准,采用一定的方法和手段,将相关文化数据向公众开放,来实现档案数据的共建共享和互联互通。档案文化数据共享包含三个层次:第一个层次是档案文化数据的内部共享,第二个层次是不同档案机构之间档案文化数据的共享和交换,第三个层次是档案文化数据的对外开放,但要强调的是这里所指的对外开放不等同于档案开放。档案开放的对象多为一手的档案数据资源,此处可以是二手或者三手档案文化数据的开放共享。 第二,档案文化数据共享的必要性。从外部环境的视角来看,其一,截至2023年年底,我国的网民规模已达到了10.92亿人,巨大的网民规模实际上为档案文化数据的共享奠定了一个良好的用户基础。其二,通过对《中国文化产业发展报告》中2014年到2020年的文化产业的增加值和其在GDP中的占比进行统计分析,从侧面看出我国的文化产业在国家经济和社会发展中占据着比较重要的地位。其三,北京大学文化产业研究院发布的报告,总结归纳了我国文化产业的十大关键词以及十大特征,同时还对未来发展的十大趋势进行了预测。从这个报告中可以看到,我国的文化产业在数字赋能、文化遗产数字化保护、数字文化的国际化传播等方面大有作为,这也为档案文化数字化建设提供了方向指引。从档案领域的视角来看,档案文化数据共享主要有四大支撑力。其一,国家和行业相关文化政策法规带来的制度支撑力。无论是国家文化数字战略,还是各类发展规划,抑或者是新修订的《中华人民共和国档案法》(以下简称《档案法》)和《中华人民共和国档案法实施条例》(以下简称《档案法实施条例》),都为档案文化数据共享提供了法规和制度层面的保障和指引。例如,《档案法》中第四十一条指出,国家推进档案信息资源共享服务平台建设,推动档案数字资源跨区域、跨部门共享利用。同时,《档案法实施条例》也新增了相关文本,提出应当制定数据共享标准,提升档案应对共享服务水平等。其二,数量丰富的档案文化数据带来的内生驱动力。从国家档案局发布的相关统计数据来看,我国综合档案馆的档案开放数量呈现出逐年增长的趋势,且开放的档案类型和内容也在不断的丰富。其三,公众需求的多样化所带来的需求拉动力。公众对档案文化的需求不仅呈现在需求数量的增长,更体现在对于档案文化质量、档案文化类型、档案文化服务平台等的多样化需求。其四,数字共享技术迭代升级带来的技术驱动力。例如,云计算的环境可以对信息进行加密的管理,生成式人工智能、元宇宙技术可以实现智能化的数字场景化应用,区块链技术可以破解档案信息孤岛、档案信息壁垒难题,AR、VR等互动式、沉浸式的技术手段也能为档案文化数据共享提供技术上的支持。 第三,档案文化数据库的现状和困境调研分析。在学术研究方面,国内和国外在档案文化数据内涵解读、共享的模式与机制、平台建设安全问题以及共享的影响因素等方面具有一定的研究共性。在具体实践方面,档案文化数据共享的差异主要体现在共享内容和共享方式上。例如,第二层次机构间的共享内容更多的是民生档案、农村档案、婚姻档案、电子诉讼档案、音像档案、奥运档案等;而第三层次对外开放共享内容主要是红色档案、历史档案、音像档案等。但这里最大的差异在于共享方式,第三层次的共享,多采用数字化平台、数字人文项目展演以及数字展厅等等多样性的呈现方式,相对来看,第三层次的共享方式更为丰富多元。总的来说,档案馆遗憾地缺席了中华文化大数据体系建设,档案资源的独特价值被低估,档案领域目前面临着共享意识和共享动力不足,属地化利用限制凸显,资源共享平台建设之后的共享安全无法得到有效保障等等基本的问题。 第四,档案文化数据共享实践路径。国家文化数字化战略背景下的档案文化数据共享需要解决四个问题。第一,档案文化数据是否能够融入到国家文化大数据体系之中。第二,档案文化数据库能否与中华文化数据库相关联。中华文化数据库呈现出初级探索、多元发展、高级过渡三种状态。目前,我国档案文化数据库多呈现探索、多元发展态势,未来是否在高级生态中能有更大的发展空间?第三,档案文化数据平台和这些档案文化智慧数据是否能够接入到国家总体文化数据服务平台之中。针对这个问题,国家层面已发布了国家文化大数据体系的建设标准,档案文化数据共享是否也能依据这一标准,使档案文化数据平台与国家相接轨。第四,档案文化数据共享是否能应用于数字档案文化创新产品之中。当前,已经出现了很多出圈的数字档案文化服务模式和创新创意产品,未来在第三层次的档案文化数据共享方面如何进行更加深入的探索,档案文化数据共享未来还能往哪个方向去走,可能是需要档案学界、业界共同去思考和努力的一个新方向。