《王涛:文化大模型为融合出版赋能》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-09-30
  • 9月21日,由中国公共关系协会文化大数据产业委员会(以下简称“专委会”)主办的文化大模型开发应用大会在南京举行。国家图书馆出版社数字出版部主任王涛发表题为《文化大模型为融合出版赋能》的案例分享,以下是演讲全文。

    一、我们目前开展的工作

    首先介绍一下国家图书馆出版社,与雅昌、中数这些名企不同,我们是一家古籍专业出版社,主要面向的是高校和科研院所的专业研究人员,因此在大众领域我们的知名度并不高。国家图书馆出版社隶属于国家图书馆,以整理各种稀见历史文献为主要特色。我们出版的内容以中国国家图书馆馆藏为基础。中国国家图书馆是世界第三,亚洲第一大图书馆,建馆一百多年来,收藏的古籍超过15万部,尤其珍善本无出其右者。为了挖掘这些馆藏资源,国家出版社以“继绝存真,传本扬学”为己任,通过与国内外著名图书馆密切合作,致力于影印古代典籍和各类稀见文献,形成了以整理与传承文化典籍为鲜明特色的专业性出版社。出版影印了《永乐大典》《敦煌遗书》《赵城金藏》等珍贵古籍。

    随着社会的发展,国家图书馆出版社除了纸质出版,也开始探索数字出版。2021年,我们通过承担《中国传统文化图典深度标引与素材库建设》,参与到国家文化大数据体系建设当中,也是通过该项目的建设,获得了难得的发展机遇。首先我介绍一下这个项目的建设背景。

    作为造纸术和印刷术的发明地,中国古代的出版很长一段时间都走在世界的前列。在中国古籍中,除了文字以外,还存有大量的插图,这些古籍“图像具精,字纸兼美”,具有很强的艺术性,在长期的流传中形成了具有中国特色的美学特征。除了插图,还有建筑图档,例如样式雷图档,它保留了清代大量的建筑史料,是研究中国清代历史和建筑的重要资料。

    图上的文渊阁是最大的藏书的地方,将它放大,可以看到采取了非常精美的文饰,窗棂看着也非常清楚。中国古籍中的图档,既具有很高的艺术价值,同时兼具了重要的学术价值,正好符合中国传统文化素材库的要求,因此我们通过对这些图档进行了收集、标引、加工,将藏在古籍中的图像独立出来,形成一个图典,从而让读者更加方便的接触和利用到这些优秀传统素材,实现让中华优秀传统文化“活起来”这一目标。

    “古籍图典资源库”是这一项目的部分成果,是对我们深度标引加工的文化素材进行发现、展示的平台。资源库刚刚获得中宣部2023年数字出版遴选推荐计划。

    结合本次的主题,我简要介绍一下我们在项目实际执行过程中遇到的一些问题,然后结合文化大模型介绍一下我们今后在这些方面的改进。

    我们的工作流程非常简单,大概分为三部分,将插图从古籍中挑出、对插图标注提取素材、对插图进行矢量化。看起来比较简单的事情,在实施过程中却遇到了很多问题。

    首先是获取插图,因为古籍中的插图没有标准,很多情况下难以判断有还是没有插图,以及插图在哪一页,只有采用人工的方法,一张张的浏览将插图挑选出来。我们收集了大约14万多张古代插图,完成这个工作大概花了几年的时间,完成这个工作的前提是我们对于古籍来源进行了限制,这些图书集中在《三才图汇》等收录大量插图的古籍,涉及的古籍约2000种,中国古籍据统计大约有20-30万个品种,要按照人工收集的方法以我们自己的力量是很难完成的。

    第二项工作是对插图标注提取素材,这个流程主要是将需要的元素框选出来,然后人工进行标注。以《庆赏升平》中诸葛亮为例,他穿的衣服在戏服中有专业术语,被称为“法衣”,我们需要先把他的衣服勾选出来,人工在给它注明是“法衣”。但是这样也会存在问题,要求人员的素质比较高,即使工作人员知识比较渊博,他知道“法衣”这个词,还会有其它的问题存在,一个是同物异名的问题,例如这个“法衣”也叫“八卦衣”,如果只打“法衣”不打“八卦衣”标签,我去搜索“八卦衣”,一样搜不出来。同时还存在“异物同名”的问题,宗教领域也存在“法衣”的概念,和戏曲里的“法衣”完全不同,很难做到概念上的区分,所以我们需要完善的知识图谱,才能对这些做进一步的区分。

    加工的第三步也会存在问题,一个是古籍插图由于印刷技术等原因,很多情况下并不是很清晰,如果直接让设计人员使用,会遇到很多问题,他还要做很多工作。因此我们增加了一项工作,将插图由位图转为矢量图,这里也有一个问题,前期我们做了测试,测试了不同的软件,包括找科研院所做矢量化测试,他们识别的效果是自动化比较差,达不到实用性要求。这些图片是我们自己聘请美术专业的人员,手工一张张描绘出来的,虽然达到了要求,但是增加了很多的成本。

    我们进行的另外一项工作是古籍印章识别,在古籍中,古人对藏书非常珍惜,他们往往会在书上盖上自己的藏书印,这些印章也是具有文化和研究双重价值的,但是由于印章对于大部分读者而言都难以识别,普通用户不清楚这上面究竟写的是什么内容,针对此种情况我们做了一个印章识别及印章知识库,希望能够实现让用户直接拍照就能识别出印章的释文和印主等相关背景知识。

    这个项目的流程也分为三步:

    一个是将印章从古籍中挑出,最大的难点是重复问题,藏书家藏有很多书,他在每一本书上都盖有印章,搜集的时候经常会出现重复的情况。

    二是对印章进行识别注释,这些印章采取了篆书、隶书比较特殊的字体,大部分没办法辨识,只有少量的专业人员才能够识别出文字,这部分的,我们只能请古籍馆的老师进行图章印文识别。

    三是对印章图像进行训练。

    这三步也都是有各自的困难。挑选印章的难题是印章位置不固定,需要人工才能搜索出来,同时印章由于收藏者藏书众多,会存在大量的重复,如何避免重复是一个大难题,我们采用了自动去重,但由于我们第三步印章训练有问题,精度不够,目前这个自动去重的问题比较大。对印章进行识别注释目前只能由专家才能进行印文的识别,成本高,时间久,第三步也是问题最大的,由于我们要实现以图搜图,检索的精度是关键,由于目前算法的限制,经常出现有的检索不出来,检索出的又与印章没关系的局面。我们当时请教了计算机识别方面的专家,他给我们的建议是要想达到99%以上的准确率,需要重新开发,开发费用估计在百万以上,同时这个结果只能用于这个数据库,用到别的数据库上也是不可以的。现在受限于识别率的问题,一直没有对外公布。

    二、融合出版给我们带来的挑战

    通过上面对我们近期工作的介绍,不难发现出版社在数字出版方面是有困难的。出版社以前的工作是文字编辑,和文字打交道,一旦做文字出版,就不可避免地要和技术打交道,而出版社在这方面极度缺乏相关人员储备。

    另一方面,出版融合是大势所趋,出版业必须转型,以我们为例,越来越多的人不再使用纸质书了,逼迫着我们转型。由于趋势的变化,出版业必须转型,因此就出现了矛盾。如果从古登堡发明现代印刷术算起,出版业态有几百年没有重大的变革,即使是数字照排技术出现,让出版“告别铅与火,迎来光与电”,也没有对出版业的商业模式产生动摇。但网络特别是移动网络的发展,人人皆是媒体的时代带给出版业的是商业模式的变化。以我们自身为例,新一代的学者更加习惯使用数据库来查找和阅读资料,使得我们的影印出版受到了影响。但是,要实现纸媒与数媒的融合协同,难度还是很大的。

    目前,出版业普遍面临的困境是没有能有效利用技术的人才,技术只是工具,必须由掌握技术的人,才能发挥作用。但受制于产业规模和体制,绝大部分的出版社难以承担信息技术人才的成本。特别是对于我们这样的中小型出版社,当技术越来先进,距离领先者的差距不是缩小反而是越来越大,出现信息利用能力的鸿沟。“强者更强”有优势的领先者会利用这种技术上的积累效应获得更多的资源、机会或成功,从而进一步增强其优势地位。我们这种出版社,规模小,有特色,又缺乏资金,在竞争中就处于非常不利的状况。

    chatGPT的出现,使得人工智能成为了整个时代的转机。对于人工智能的研究很早就存在,以往的人工智能有一个很大的问题,没有很高的复用性。以前有一个作诗的人工智能软件,它可以作古诗,但不能作现代诗,如果想让它作现代诗,又要重新开发,成本非常高。

    ChatGPT不同,它属于通用型人工智能技术,但是它不是针对某一领域,而是各行各业皆能,这样就大大降低了技术成本,以往是A领域的模型无法应用到B领域,要应用就必须重新开始,无疑成本非常高。而通用人工智能让人工智能走入了实用化阶段。

    对于出版业而言,通用人工智能的出现,意味着原有的技术壁垒将要被打破。技术不再是困扰这些中小出版社的难题,因为技术应用的难度将大大降低,与行业领先者之间的差距将会缩小,竞争重新归于思想与创新的竞争,重新回归文化的本质。

    人工智能带给出版业的不仅仅是技术难度的降低,这是我们利用《千里江山图》自动生成的一张图,以往出版社并不进行文化的生产,但是随着生成式人工智能的出现,使出版社也具有某种程度上的生产能力,无疑将大大增强出版社的竞争能力。

    三、文化大模型对出版业的影响

    文化大模型带来的影响不仅仅局限于出版,而是影响到整个文化数字化领域。

    文化数字化是一个大的概念,融合出版仅仅属于文化数字化的一部分,见微知著,从出版看文化大模型将对整个的文化数字化都将产生重大影响。

    目前,chatGPT等国外的人工智能工具,还有很多不完善的地方,抛开中文语料库不足等问题,更重要的是对于中国文化内容的缺失,更是存在很大的问题。而由中国公共关系协会文化大数据产业委员会和华为云联创的文化大模型,为中国文化产业的发展带来了属于中国自己的文化通用大模型。

    文化大模型的底层是采用了华为的盘古大模型,盘古大模型3.0版达到了千亿参数的级别,吸收海量文本数据,技术上领先的同时,聚焦行业需求,实现产业赋能。文化大模型以盘古为底层,在技术领先的同时结合了国家文化海量大数据,使得文化大模型具有“内容+技术”优势,就像人既有聪明的头脑,又有渊博的知识,那么它的发展一定是非常有希望的。

    作为国家文化大数据体系建设的参与者,我们也非常有幸能从早期就参与到文化大模型的测试当中,借助文化大模型去解决前面提到的一些问题

    我们目前正在尝试:

    利用文化大模型实现古籍插图的自动识别,

    利用文化模型实现对于文化素材的辅助标引,

    利用文化模型对图典知识图谱的建立。

    最后是使用人工智能进行矢量化。

  • 原文来源:https://mp.weixin.qq.com/s/e2fYgXPkdqCj8kail1WN5g
相关报告
  • 《创新发展数字出版,赋能活化文化遗产 王晓光》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-30
    • 当下我们在建设数字文明,出版业有什么贡献,回顾历史,我们可以发现,出版业在生产文化制品,是人类文明进步的非常重要的一个推手。那么从农业文明到工业文明再到数字文明,从社会学的角度来看,出版传播业,是人类在文化制品生产上的巨大作用,是文明非常重要的推手,是一个加速器。 今天我们看数字技术给了我们一种历史上从未有过的强大技术,可以把文化元素的获取、生成、处理、表现传播等各种文化要素在数字的技术加持之下,我们可以把它做成数字。这种数字带来的一种什么好处,可以把信息和内容进行统一化的建模,这样可以在多模态数据之间进行自的转换和活化。也就是我们今天做的各种各样的多模态的大模型,会带来一个更加高级的生产能力为人类,就是在不同模态信息之间相互转换,图像到文字,文字到图像,图像到视频,文字到视频等。这会巨大的释放内容的活力,加快内容的流动。
  • 《再看大模型与知识图谱的融合策略:KnowledGPT–面向知识图谱检索进行大模型增强的框架工作》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-10-10
    • 大型语言模型(LLMs)在自然语言处理领域产生了令人印象深刻的影响,但它们在完整性、及时性、忠实性和适应能力等方面仍存在一些问题。 例如: 首先,LLM在及时更新和特定领域的专业性方面存在局限性。 其次,这些模型可能会产生不真实或"幻觉"的知识,从而带来可靠性和伦理方面的问题。 第三,由于成本和可及性等限制,大模型很难通过持续培训吸收新知识,这阻碍了这些模型适应特定知识需求的能力。 虽然最近的工作重点是将LLM与外部知识源连接起来,但对知识库(KB)的整合研究仍然不足,并面临着一些挑战。 例如, Toolformer通过查询维基百科对相互关联实体的描述来回答相关问题。 Graph-Toolformer和ToolkenGPT使LLM能够对知识图谱(如Freebase)进行推理。 RET-LLM与LangChain和LlamaIndex中KG索引的实际工作并行,利用从过去对话中提取的相关三元组构建个性化KG记忆,以供未来使用。互联网增强语言模型以及NewBing和ChatGPT 用BrowsewithBing插件,使语言学习者能够通过搜索引擎或网络浏览器获取最新信息。REALM、RAG等检索增强方法利用文档语料库增强了LLM,最近的大模型也越来越多地采用这些语料库作为记忆单元。 最近的工作文章《KnowledGPT: Enhancing Large Language Models with Retrieval and Storage Access on Knowledge Bases》提出了一个将LLM与各种知识库连接起来的综合框架,可同时促进知识的检索和存储。其检索过程采用思维提示方法,以代码形式生成知识库搜索语言,并为知识库操作预设函数。与普通LLM相比,该方案既能利用知识库中已有的知识,也能利用提取到个性化知识库中的知识,从而正确回答更广泛问题。 文章主要介绍了KnowledGPT,该工作将LLM与外部知识库整合在一起的综合框架,可方便LLM在知识库中进行检索和存储。 在检索方面,KnowledGPT采用"思维程序"提示,通过代码生成和执行来检索知识。 在存储方面,KnowledGPT从用户提供的文本中提取各种形式的知识,并将提取的知识填充到个性化知识库中。 KnowledGPT解决了将LLM与知识库集成过程中固有的几个难题,包括复杂的问题解答、实体链接中的歧义以及有限的知识表示形式。 不过,尽管KnowledGPT使LLM能够有效地对外部知识库执行知识库操作,但其目前的形式仍存在一些局限性。 首先,出于效率考虑,检索过程需要单轮代码生成和执行。然而,多轮机制可以更好地让LLM自主探索知识库。由于LLM不了解知识库中的内容,它们可能会生成看似合乎逻辑却没有结果的搜索。例如,像"谁是......中女主角的配音演员"这样的查询,在某些知识库中可能需要对女主角和配音演员这两个关系进行两跳搜索,而在其他知识库中则只需要对主要配音演员这一个关系进行搜索。在这些情况下,多轮机制赋予了LLM自主探查和重新访问知识库的能力,这可能会产生更好的结果,但也会增加成本。 其次,受限于通过API访问GPT-4的费用,在具有代表性但规模较小的数据集上进行了KnowledGPT实验。虽然实验结果验证了KnowledGPT的有效性,但我们希望在完整基准上进行更全面的评估,以便更好地将KnowledGPT与相关方法进行比较。