任飞亮——大模型与知识图谱研究中的若干问题思考

《任飞亮——大模型与知识图谱研究中的若干问题思考》

来源专题：数智化图书情报
编译者： 闫亚飞
发布时间：2023-10-25
导读知识图谱和大型语言模型都是用来表示和处理知识的手段。大模型补足了理解语言的能力，知识图谱则丰富了表示知识的方式，两者的深度结合必将为人工智能提供更为全面、可靠、可控的知识处理方法。在这一背景下，OpenKG组织新KG视点系列文章——“大模型专辑”，不定期邀请业内专家对知识图谱与大模型的融合之道展开深入探讨。本期特别邀请到东北大学副教授任飞亮、博士生王嘉岐、硕士生罗海波、常宇莹、胡晶晶等分享的：“大模型与知识图谱研究中的若干问题思考”。

以ChatGPT为代表的大语言模型具有出色的任务泛化能力，可以胜任多项自然语言处理任务、并在各项任务中均展现出强大的性能。在此大语言模型浪潮下，知识图谱研究应该如何进一步发展是近期研究者不断讨论的一个问题。本文将基于研究小组近期使用大模型技术增强知识图谱构建方面所进行的一些初步实践，对研究过程中发现的一些值得关注的问题进行探讨，以供大家参考。

大模型研究中值得关注的一些研究点1、大模型的评价问题尽管目前存在众多评价数据集和排行榜，如图1，用于从不同角度对各类大模型进行评估，但我们认为现有评价机制还有一些潜在的改进空间，为了让大模型评价更加全面、多元化，我们有以下几点思考。

大模型是一项面向应用而生的产品，必须考虑对用户的真实体验。而现在对大模型的各项评价指标基本都是沿用学术界的方法，旨在对大模型某个局部性能进行评价，但这些评价指标（包括使用的评测数据）是否可以体现用户的真实体验是一个值得进一步深入探讨的问题。现有的评价数据集大多将问题转化为选择题的形式，重点考验知识面、思维能力等。但在实际使用中，用户通常期望直接获得问题的答案，而不是从选项中选择答案。并且即使大模型能够选择出正确答案，就能证明其具有文本理解能力了吗？因此，如何有效评估这样的答案可能是一个值得深思熟虑的问题。在研究中，一些学者已经发现传统的评价指标，如Open-QA、RTE等任务中的精准匹配和部分匹配，并不适用于对大模型生成的答案进行直接评价，如图2，这些指标可能会严重低估大模型的性能。因此，我们需要更全面、多维度地考虑大模型的评价方法，思考什么评价指标、评价方式才能更准确地捕捉用户的实际需求。

与主流研究一致，我们同样认为，对于目前大模型的评估应采用人工评估与自动评估双管齐下的做法，即对通用领域LLM输出采用自动评估的方式以降低人力成本；对特定领域中难以评估的LLM输出进行人工评估。同时，我们更应该去思考并构建一些复杂且简约的问题来评估大模型，复杂指的是问题所考察的大模型的能力是复杂且多样的；简约指的是LLM的输出是简约且易于评估的。这一点，目前的评估方式中的选择题能够完美符合，但我们认为这可能还是不够的。我们有以下几个设想：1.引入选择题中间过程的一些值作为LLM在做选择题时的额外加分项。2.构造一些图相关的问题，诱导LLM输出图结构，进而方便评估。

当前的大模型都是在封闭环境中进行训练的。在这个过程中，模型使用的训练数据存在巨大的差异。如何确保这些模型在训练期间未见过用于评价的数据集？如果无法保证这一点，那么评价结果的客观性和真实性就存在一定的疑问。目前大多数的评测基准都在尽力避免这一问题，比如寻找并整理一些偏远地区的日常练习试题。当然这也是不保险的，这就要求评测基准要随时间变化而进行不断地更新。有的研究人员也给我们提供了一种新的思路，让LLM基座模型直接续写评测题，通过观察其输出与评测题的相似性，进而判断该模型是否使用过评测数据进行训练，相应地，从评测该模型是否注入知识的角度也需要加分，因为这同样也说明LLM能够利用所学习到的知识。

除此之外，是否应该设置更细粒度的评价方法对模型从更多角度进行评价？比如，通过限定模型使用的训练数据集来评价模型的架构、以及模型对数据使用的效率；还可以评价具有某项特定功能的模型在相应功能上的性能。又或者是构造如上文提到的复杂且简约的问题，使用一种问题来从多个角度综合评估LLM。

总之，在对当前大模型评价中，不能抛开训练数据来评价模型性能，更不能抛开用户体验来评价大模型。

2、大模型的运行机制问题当前大模型的研究存在着大量未解的黑盒问题，值得研究者关注。首先，多项研究显示大模型具有很强的泛化能力，该能力意味着对于一些任务，并不需要很多训练数据就可以完成知识迁移。但大模型体现出来的这种泛化能力的决定因素是什么？这种泛化能力是否存在一定的上限？如果存在的话，如何确定这些上限？如何对大模型的泛化能力进行评估等。这些问题对于深入理解大模型的运行机制、以及大模型的实际应用具有重要意义，值得研究者对其进行深入的研究。

其次，当前使用的大模型架构是否真的可以适用于当前各类任务？实际上，现在的各类研究已经显示，当前各类大模型至少在处理数学类问题时存在着一定的困难。有研究显示，大模型的参数量至少需要达到一定的规模（比如千亿以上）才可以在一定程度上在数学类问题上具有类似文本生成任务那样的“能力涌现”性能。这即使在模型参数达到足够规模，模型在数学类问题上出现的模型涌现能力也无法与文本生成类任务中出现的能力涌现能力相比。此外，对于人类来讲非常简单的纯数值类计算问题，大模型表现的也不尽如人意。这就需要我们深入思考，当前各类大模型使用的Transformer架构是否适合这些差异性非常大的任务？我们人类本身也分左、右脑，并分别擅长处理不同类型的问题。那么，从大模型研究角度，是否也应该采取不同的模型架构分别处理类似文本生成类、数学类等不同类型的任务？因此，如何有效地改进当前大模型使用的架构，使之对于差异性较大的任务均有较好的适应能力，也值得研发者进行深入研究。
如图4为使用我们组的开源大模型-TechGPT来回答数学问题的一个样例。

第三，大模型背后体现的学习机制到底是什么？大模型是不是可以真正学习到类似人类那样的推理能力？尽管在很多涉及到逻辑推理的问题上，大模型均表现出了很好的推理结果，但实际上，对于人类而言，如果知道了“A是B”这一事实，就可以正确回答“B是谁？”这个问题。这是一种基本的泛化形式，然而研究表明，当前各类大模型均无法对此类“逆转”问题进行回答，研究者把这种现象称之为“逆转诅咒”，如图5。这一现象的出现，促使研究者重新审视当前大模型的学习机制。

第四，大模型“能力涌现”的背后机制是什么？当前研究者基本把这一问题归结为一种黑盒子，缺乏有效机制对其进行准确分析。但实际上，了解能力涌现背后的运行机制，对于缓减大模型的“幻觉”现象具有重要意义。同时，还有助于在大模型实际落地应用时在模型参数规模、模型训练数据方面设计更具性价比的大模型。

02 知识图谱和大模型关系部分

1、知识图谱和大模型的关系本质上来讲，知识图谱和大模型都可以视为对知识的一种表达方式：大模型以参数形式表达知识，是对知识的一种隐式、非确定性表达；而知识图谱以文字形式表达知识，是对知识的一种显式、确定性表达。因此，大模型和知识图谱在知识表达方面具有天然的互补性。二者的知识表达方式决定了二者的有效期：参数表达的知识是不断变化的，未来如果有比现在大模型技术更强的技术出现，那么，对应的知识参数表达就会变化，这种变化往往是颠覆性的，即可以完全抛弃之前的参数表达，重新学习新的参数表达；而文字表达的知识图谱则更具有长期稳定性，不会随着新技术的出现而发生颠覆性的变化。

2、大模型是否会替代知识图谱这个问题是大模型兴起后知识图谱研究者不断探讨的一个问题。实际上，虽然二者都是对知识的一种表达，但以文字形式存储的知识图谱更具有“原材料”属性，可以作为一种高质量的知识数据供不同类型任务的模型进行直接使用、或是做进一步知识加工。而大模型表达的参数化知识则更具有“制成品”属性，其它模型无法在其上进行全新的知识加工，只能对其进行参数微调。因此，二者的本质属性决定了不存在一方替代另一方的关系。

但不可否认的是，大模型超强的泛化能力使其拥有在个别应用场景中从海量数据中学习部分知识图谱知识的能力，相应地，在这些应用场景中，从短期来看，存在着一定的大模型替代知识图谱的可能性。但大模型的知识学习能力受技术、数据的影响大，因而学习到的相应知识图谱知识具有不稳定性，也无法进行传承。所以从长期来看，知识图谱所表达的知识因其所具有的稳定性与确定性，可以长期存在并被不断完善，而大模型所表达的知识则不具备这一属性。此外，在一些对知识正确性敏感的应用场景中，知识图谱相比大模型更具有天然优势。因而，长期来看，随着新技术的出现，当前大模型所表达的知识一定会被替换、重构，而知识图谱所表达的知识则可长期、稳定地存在。

03 大模型增强知识图谱构建研究中的问题

1、数据规模与数据质量问题对于当前很多大模型而言，使用的数据量往往是一个重要的宣传点。对此，我们应思考，在大模型训练过程中，是否使用的数据规模越大越好？答案显然是否定的。实际上，包括我们自己在内的很多研究者发现，在训练数据的规模达到一定程度后，模型的性能并不总是随着训练数据量的增加而增加，很多时候，较小规模的高质量训练数据可以取得和更大规模但质量一般的训练数据同等的模型性能。这一现象促使我们思考：如何在数据规模和数据质量之间取得一个平衡点？这对于提升模型训练效率、降低模型开发成本而言具有重要意义。

2、幻觉与保守输出问题当前对大模型缺陷的主要探讨均集中在大模型的“幻觉”现象上，即大模型“自信”地说出胡编乱造的答案。而我们在利用大模型增强知识图谱构建研发中，发现一种与“幻觉”相反的“保守输出”现象：在一些知识图谱构建任务中，在默认输出长度设置下，大模型输出的结果偏保守。即很多正确的结果在强制大模型输出更长结果的条件下可以得到，但在默认输出长度设置条件下，这些正确的结果并没有被大模型输出。造成这一现象的主要问题可能在于对有一些稀有的长尾知识，模型在预测时并不是十分自信。因此，如何让大模型有效地召回长尾知识是一个值得关注的问题。

针对大模型的幻觉问题，我们使用TechGPT在NER、RTE和EE三个任务上进行了一个实验。其中，NER任务我们分成了常规NER和嵌套NER两个子任务。我们挑选了100个未出现在训练数据中的样本，并由三位研究生进行人工评测。

在嵌套NER任务中，样本真实实体总数为163个，TechGPT共预测出100个，其中预测正确的实体数量为78个，预测正确但答案未标记的实体数量为4。预测实体出现幻觉的实体数量为10个。且出现了上文中提到的“保守输出”的问题。该任务样例如图7所示，其中“text”为原始文本，“gold_entity”为参考实体，“predict_entity”为预测实体。从中可以很明显的看出，LLM由于“幻觉”问题抽出了“西南财经政法大学”这个不在给定文本中的实体。

在常规NER任务中，样本真实实体总数为127个，TechGPT共预测出100个，其中预测正确的实体数量为71个，29个为样本中不存在的实体，即出现幻觉的数量。经过计算准确率为0.59，召回率为0.46，f1值为0.52。图8为该任务出现幻觉的样例。LLM抽出了“东北”这一不存在于文本中的实体。

在RTE任务中，样本真实三元组数量为185个，TechGPT共预测出218个，其中预测正确的三元组数量为89个，预测错误的三元组数量为129个。这里我们没有简单的挑选出来出现“幻觉”的三元组，而是对其进行了一个深入的分析。其中，头实体和尾实体均为“text”的子串的三元组数量为187个，头实体和尾实体至少有一个不是“text”的子串的三元组数量为31个。在预测错误的129个三元组中，预测三元组与真值列表中的三元组有且只有2个相同的键值对的数量为32个，预测三元组与真值列表中的三元组有且只有1个相同的键值对的数量为72个，有25个三元组不存在于真值列表中。图9为该任务的一个出现幻觉的样例。

在EE任务中，我们没有对事件相关的进行数量统计。原因在于，TechGPT对所有样例进行事件抽取后，均不能完全抽出事件所包含的所有要素，更多的是简单的描述该事件或者包含少数几个要素。这可能与我们并没有在TechGPT上进行专门的事件抽取的微调有关，但TechGPT依然展现出了一定的对事件抽取任务的泛化能力。图10为该任务的一个样例。

从TechGPT在上述三个任务中的表现来看，LLM的效果是可圈可点的。但是尽管我们用专门经过知识图谱相关任务微调过后的大模型来回答问题，其输出结果总是会伴随着“幻觉”或“保守输出”的问题。而直接使用这样的回答作为Golden Truth显然是有害的。因此我们需要考虑的一个问题是，除了RLHF以外，是否有一种知识图谱相关的方法，能够直接作用于LLM上，并规范LLM的输出，无论这种规范是在LLM输入之前还是输出之后。

04大模型与知识图谱的相互增强问题

1、大模型浪潮下知识图谱的研究应该如何有效进行在大模型浪潮下，我们认为知识图谱的后续研究应该秉承“内外兼修”的原则。对“内”，知识图谱应继续不断扩展自身的研究范畴。比如，传统的以二元关系集构成的知识图谱由于二元关系在表达知识时存在表达能力不足、容易出现歧义现象等问题，因而，知识表达能力更强的多元关系知识图谱在可预见的未来一定会成为新一代的知识图谱形式。其它类型的知识图谱，比如时序知识图谱、多模态知识图谱、事理图谱等，也将不断丰富知识图谱研究。对“外”，知识图谱应探索与大模型有效结合的新途径，借助大模型的力量提升构建知识图谱的质量与效率。在此过程中，以下两个研究方向值得关注。

首先，大模型研究过程中的技术外溢现象值得关注。比如，大模型研究中的一些核心技术，如提示学习、强化学习、在线学习等技术，均可应用于知识图谱的研究任务中。其次，大模型体现出来的较强泛化能力值得关注。在研发TechGPT的过程中我们发现，大模型可以通过对特定任务的微调训练而学习到适应新任务的能力。比如，在对知识图谱构建过程中各种基础任务的微调训练，TechGPT在给定输入文本的条件下，可以很好的回答诸如“把对应文本中涉及到的时间、地点、人物、事情的经过提取出来”等问题。即：通过微调简单基础任务，大模型可以学习到更复杂的任务。这对于提升知识图谱的构建而言显然是有很大帮助的。

2、大模型增强知识图谱构建和知识图谱增强大模型这两个方向，哪个方向更值得关注从短期来看，利用知识图谱增强大模型会有更多的人去研究，尤其是在大模型幻觉问题已严重影响大模型在很多应用场景落地的情况下。研究者希望利用知识图谱中的确定性知识提升大模型回答问题的可靠性，增强对答案的可解释性，并帮助大模型确定自身的能力边界。在这一过程中，研究者需要不断探索知识图谱增强大模型的有效方式，并需对结果进行客观、准确的评估。利用知识图谱增强大模型的相关研究中，目前比较主流的方式为使用外挂知识库的方式增强大模型输出的效果。其主要流程如图14所示，具体为将用户输入的问题转换为向量后，将该问题向量放入知识库中进行检索，并将相关的文档片段取出后与原始输入问题进行合并等操作后，将其作为新的输入送入大模型中。这样在输入端就对LLM的输出进行了一些限制，能够减轻LLM输出的“幻觉”问题。另外的，这种文本知识库也可以替换为图数据库，即将文本信息转换为图数据后进行检索。但从长远的角度来看，这种外挂知识库的方法仍然存在一些问题：1.随着检索样本数量的增多，LLM输入的长度也随之扩大。而已经有相关研究表明，随着LLM输入长度的增加，LLM对输入文本两端的文本敏感，而对输入文本靠近中间的文本越来越不敏感。如何平衡检索与文本长度值得研究。2.外挂知识库在非对称检索上的效果并不是很好，简单来说就是向量化模型很难将问题和答案映射到统一向量空间。举例来说，当需要检索一个定义问题时如“Python是什么？”，答案是“Python由荷兰国家数学与计算机科学研究中心的吉多·范罗苏姆于1990年代初设计……”，从中我们可以看出问题和答案的相似性很小，如何有效处理这种非对称检索问题也值得研究。3.从外挂知识库的路线结构来看，这一做法从大模型的输入端对“幻觉”问题进行一定的限制，这样可能还会使得大模型的输出存在一些“幻觉”问题。那么从输出端对“幻觉”问题的限制是否会更有效？我们小组未来可能会在这一问题上进行一定的验证。

因此从长期来看，利用大模型增强知识图谱构建则更值得关注，原因列举如下。

首先，不仅大模型的外溢技术对于提升知识图谱构建任务的性能和效率有帮助，研究者还可以充分利用大模型出色的泛化能力、以及在一些基础任务上的出色性能来自动构建一些高质量的知识图谱资源。这些资源从长远来看，对于文本处理的各项任务而言更有意义。

其次，当前大模型在一些对答案正确性敏感的应用场景存在一定困难，但在这些应用场景中用大模型进行有效的文本信息分析则是可行的。比如，当前各个行业均存在着大量行业数据需进行精细化分析与加工，但这些数据往往存在着质量差异性大、标注数据少、数据隐私性强等特点，在这种场景下，大模型的出色泛化能力可以帮助快速形成一定规模、一定质量的行业知识图谱，为后续可行的“大模型+行业”模式提供重要基础支撑。而在这一过程中，也会衍生出类似低资源场景下行业知识图谱构建等有价值的研究课题。

05总结与展望

在本文中，我们探讨了一些与大模型、知识图谱相关的问题。通过我们自身的观察，我们认为，尽管当前大模型在很多任务上表现出了很好的性能，但随着研究的深入，大模型中存在的一些深层次问题也随之出现，值得研究者对其进行深入研究。同时，知识图谱作为一种知识表达方式，拥有自身的独特价值，远不会被大模型取代。相反，随着知识图谱自身内涵的不断扩展，以及与大模型存在的天然互补性，知识图谱的研究一定会更加活跃。

展开更多
原文来源：https://mp.weixin.qq.com/s/SfG-d-VBdI7hkgRikNtm9Q