《哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-11-03
  • 01 引言

    思维链,一种通过逐步思考解决问题的方式,在解决复杂推理任务上展现出了惊人的性能,激起了人工智能和自然语言处理领域近年来的广泛研究和关注。

    然而,目前缺乏一篇针对思维链及其变体的系统性归纳和总结。针对这一问题,本文对现有思维链相关研究进行了广泛调研,对思维链构造方法、思维链增强方法、思维链结构变体进行了归纳和总结,对思维链前沿应用做出了探讨并对思维链未来潜在研究方向进行展望。

    为了与传统链式思维链进行区分,本文提出了泛思维链(X-of-Thought)的概念,其泛指基于思维链核心思想——逐步思考解决问题的方法和变体。在下文中所讨论的思维链均代指广义的泛思维链。我们期望这篇综述能够为研究者和初学者提供参考和启发,激发更多关于思维链推理领域的深入探讨,推动该领域的进一步发展和创新。

    02 背景介绍

    2.1 范式转换

    近年来,随着计算能力的不断提升,大规模语言模型如雨后春笋般涌现,例如 GPT,LLAMA,BLOOM。而随着语言模型规模的不断扩大,涌现出了许多令人惊喜的能力,例如上下文学习和思维链能力。因此,自然语言处理的范式正在从预训练+微调转变为预训练+上下文学习。

    2.2 上下文学习和思维链推理

    上下文学习(In-context Learning)通过在提示文本中添加输入-输出示例,通过少样本学习(Few-shot Learning)的方式让 LLM 模仿已有示例(demonstrations)解决新的问题。通过上下文学习,LLM  无需额外微调即可使用,并且还能取得不错的性能。尽管如此,其在面对复杂数学推理、常识推理等复杂推理任务时表现不佳。

    思维链(Chain-of-Thought)推理要求模型在输出最终答案之前,显式输出中间逐步的推理步骤。这一举措大幅度提高了 LLM 在复杂推理任务上的表现,并且输出的中间步骤方便使用者了解模型的思考过程,提高了大模型推理的可解释性。目前,思维链推理已经成为大模型处理复杂任务的一个常用手段。

    03 章节组织

    我们将从三个角度介绍思维链相关方法,并且在最后进行了方法间的比较和讨论:

    思维链方法(包含思维链构造方法、思维链结构变体、思维链增强方法)

    思维链前沿应用(包含工具使用、决策规划、思维链蒸馏——提高小模型推理能力)

    未来研究展望(包含多模态思维链推理、可信思维链推理——减少幻觉、思维链理论研究)

    04 思维链方法

    4.1 思维链构造方式

    根据模型进行思维链推理所需的推理链条人工标注程度,我们将其分为手动、自动、半自动三种构造方式。

    4.1.1 手动思维链构造

    示例中的推理链条完全由人工标注。优缺点:人工标注推理链条具有较高质量,为少样本学习提供了优质的信号。但是人工标注需要较大的人力成本开销,并且会遇到示例选择难以优化、跨任务迁移困难等问题。

    4.1.2 自动思维链构造示例中的推理链条完全无需人工标注。具体来说,它分为 Zero-shot CoT 和 Auto CoT 两种方式。前者通过特定的提示文本激发模型在没有示例的情况下生成推理链条;后者则是使用前者零样本生成的推理链条,并结合示例选择策略,通过少样本学习的方式生成推理链条。优缺点:自动思维链构造不需要人工标注极大减少了人工成本,并且由于无需针对任务设定示例,在不同任务间可以方便迁移。但是由于缺少高质量人工标注信号,其性能通常较差,时常会出现事实错误、逻辑错误等幻觉现象。

    4.1.3 半自动思维链构造示例中的推理链条少量由人工标注。具体来说,人工标注少量推理链条作为“种子样例”,基于这些种子样例进行拓展得到大量的推理链条,之后通过示例选择通过少样本学习的方式生成推理链条。优缺点:半自动构造方法结合了前二者的优点,在推理性能和人力成本间达到了平衡。少量人工标注提供了高质量的信号从而提高了推理质量,并且自动的推理链条拓展也减少了人工成本,在不同领域间迁移也仅需对种子样例进行重新标注。

    4.2 思维链结构变体最原始的思维链是链式结构,并且以自然语言描述中间推理过程。链式结构过于线性,一定程度上限制了它在复杂任务上的能力,为此许多研究对思维链的结构进行了探索。

    4.2.1 链结构变体链式结构变体主要针对中间推理过程的形式进行修改。程序语言的执行和复杂数学推理的过程十分契合,一些工作提出使用程序语言代替自然语言,通过生成可执行程序作为推理链条,并执行该程序得到最终推理结果,例如 PAL、PoT。此外还有一些其他形式的中间推理过程,例如 Algorithm-of-Thought 将推理链条替换为算法的执行过程,激发大模型内部使用算法推理的能力,Chain-of-Symbolic 在规划任务中使用符号代替了复杂的环境。

    4.2.2 树结构变体链式结构的思维链限制了探索的广度,一些方法显式地构造了树并引入了树搜索算法。结合树结构和树搜索算法可以对不同的推理路径进行探索,并且引入了回溯、自我评估、剪枝的操作,在复杂任务及规划任务上取得优秀表现(Tree-of-Thought)。此外有方法在中间步骤中额外引入了不确定性评估,一定程度缓解了由不确定性带来的推理级联错误(Tree-of-Uncertain-Thought)。

    有些方法通过树结构加快推理速度,通过将问题分解成可以平行解决的子问题并行解码,但这种方法仅限于解决简单任务,无法处理复杂推理任务(Skeleton-of-Thought)。然而,当前的树结构变体方法在任务选择上有较大的局限性,并且需要针对任务设定具体的提示指令,这些困难阻碍了它的广泛应用。

    4.2.3 图结构变体图结构相较于树引入了更复杂的拓扑结构。Graph-of-Thought  在推理中通过环结构引入了自我修复,并根据图拓扑结构引入了信息聚合,在处理复杂任务时有着更较优秀有的表现,但是其面临着和树结构变体类似的问题,阻碍了它的广泛应用。ResPrompt  通过在提示文本中引入了“残差链接”来连接、聚合不同步骤的推理结果,隐式地引入了推理步骤之间地图结构,可以在数学推理等通用任务上使用,并且取得了优秀的效果。

    4.3 思维链增强方法针对思维链进行某一特性的针对性增强,例如添加推理步骤的验证和完善、引入外源知识、问题分解、多次采样并投票、提高效率等。

    4.3.1 基于验证和完善大模型在推理过程中往往会出现幻觉现象,例如事实性错误和逻辑性错误。通过引入针对推理过程的验证来获取反馈信号,并根据该反馈讯号对推理进行完善可以一定程度缓解这种现象。一个简单的思路是对推理步骤进行校验,例如通过演绎推理检验前后推理的一致性(Verify-CoT)、对每一个推理步骤进行细粒度的校验(DIVERSE)。

    事实性错误通常通过引入知识进行缓解,具体来说分为外源知识和内源知识。对于内源知识,模型在回答问题前,首先通过提示指令获取模型内部的知识,并基于这些知识进行推理(SCREWS、Chain-of-Verification、Crystal、Step-Back Prompting),外源知识的引入将会在后续章节中介绍。对于推理一致性,一些方法通过反向推理进行验证。具体而言,他们根据问题和模型的预测来推理问题中的条件,根据推测出的条件和真实条件的一致性来判断推理的正确性(RCoT、FOBAR、Self-Verification)。

    4.3.2 基于问题分解

    模型直接回答复杂问题是十分具有挑战性的,而回答简单问题则得心应手。因此将问题分解成子问题显式地一步步解决是一类有效的方法。

    Least-to-Most 使用了自顶向下的问题分解策略,首先将问题一次性分解成若干子问题,之后逐个解决从而得到最终的答案;Successive Prompting 采取了一种迭代分解策略,每轮迭代分解一个子问题并解答,并使用其促进后续的问题分解和回答;Decomposed Prompting 采取模块化设计,对不同类型的子问题设计专属模块负责解答,提高了子问题解答的准确性。此外,BINDER 采取神经符号的方式,通过程序执行得到最终答案;DATER 则关注表格推理的问题分解,需要同时考虑问题和表格的分解。

    4.3.3 基于外源知识模型内部存储的知识在预训练结束后便会定格,无法获取新的知识,导致知识的匮乏和过时。从维基百科、知识库、词典等途径引入外源知识,能够一定程度缓解这个问题。Chain-of-Knowledge 从知识库中获取结构化知识进行知识指导的推理,并且根据结构化知识对推理链条的真实性和可信性进行验证。KD-CoT 将多跳推理转化为多轮问答形式,在每轮问答中检索相关的事实知识辅助问答。

    4.3.4 基于排序或投票由于语言模型是基于概率采样的,在生成文本时会具有一定的随机性,通过多次采样并对采样结果进行集成,可以有效地缓解这个现象,并显著提高推理的性能。一些工作在推理链条或答案层级进行粗粒度的集成,例如 Self-Consistency、Complex CoT、Verifiers。这种集成粒度过粗没有考虑到推理步骤,为此另一些工作考虑到了中间推理步骤进行细粒度的集成,例如 Self-Check、GRACE。除了通过概率进行采样外,Diversity-of-Thought 通过不同的提示文本来采样多跳推理路径。总的来说,基于多次采样的策略已经成为当前思维链推理中常用的技术。

    4.3.5 效率提升尽管思维链推理已经展现出卓越的性能,其推理速度慢、使用开销大仍是不可忽视的问题。目前工作从减少推理链条标注成本、加快推理时解码速度和降低推理时的多次采样次数开销入手。

    05 思维链前沿应用

    5.1 工具使用

    虽然大模型具有非常强大的知识水平,其依然缺乏对于时效性内容以及领域外知识的更新能力,并且语言模型在数学计算、符号推理上也较为薄弱,在遇到这些问题时往往会产生幻觉现象。

    为此,许多方法探究如何使用外部工具对 LLM 进行增强,通过提示或微调等方式引入使用工具(调用 API)的能力。网页和知识库检索能够让模型获取最新的外部知识,数学计算器与程序执行可以用以处理更为复杂的计算问题,调用其他模型能够获得其他模态(图像、视频、语音)的理解以及生成能力,甚至是与外部环境进行感知与交互,实现具身智能。思维链推理在工具增强方法中起到了非常重要的作用。大多数情况下,模型对于工具调用的需求是隐含的。工具提高了大模型在单步“动作”下的处理能力,而思维链赋予了模型在推理过程中对于问题的分解,工具使用形式的思考以及工具调用结果的追踪处理能力。

    5.2 决策规划

    思维链提供了一种将问题分解为链式子问题的形式,从而处理较为复杂的问题。然而,对于更为复杂的任务,链式的分解形式并不充分。在前文中,我们介绍了将链式推理拓展到树结构、图结构等形式的工作。

    除此之外,LLM+P,LLM+DP 等工作将问题分解为规划领域定义语言(Planning Domain Definition Language, PDDL)的形式,通过外部模块对过程进行规划调度,最终再转换回自然语言形式用 LLM 进行处理。这些方式都提供了更为灵活的分解以及调度过程,增强模型的规划能力。

    在长期规划中,模型产生的错误会进行累积。并且在执行过程中可能会遇到计划外的错误,不断进行重试也无法得到正确的结果。因此需要提高模型在推理过程中对错误处理、总结,以及对计划更新的能力。Self-Refine  能够让模型对结果进行自我反馈以及优化,而  Reflexion  在此基础上加入长短期记忆,根据历史经验进行决策。AdaPlanner 等工作则能够根据环境反馈优化规划过程,提高灵活性。规划增强的方法可以与工具增强、多智能体等方法进行结合,进一步增强大模型在复杂问题上的处理能力。

    5.3 思维链蒸馏

    思维链被视为大模型的一种涌现能力,然而,这种能力在一些规模较小的模型上并不是很显著,限制了小模型在推理时的表现。

    当模型具备一定的思维链能力时,可以通过自监督与自我迭代的方法对推理能力进行强化,例如 LMSI,STaR 等。

    但大多数情况下,小模型的思维链能力较弱,难以输出可靠的推理过程进行自我蒸馏。此时需要依靠具有较强思维链能力的大模型输出推理链条,再蒸馏给小模型,从而让小模型也获得一定的推理能力。一般来说,蒸馏时需要对数据进行筛选,有答案标签的情况下可以通过标注筛选出结果正确的推理过程,而在没有标注时也能通过 self-consistency  等方式投票得出较为可靠的答案。

    除了推理结果的正确性外,推理过程的多样性对于蒸馏的效果也非常重要。SCoTD 发现针对每个样本采样多种推理路径能提高小模型的推理性能,SCOTT 通过对比解码和反事实推理等方式进一步提升思维链质量,缓解小模型学习到推理过程“捷径”的问题。

    思维链的形式也会影响小模型的学习效果。DialCoT 将思维链过程拆解为多轮对话的形式,简化小模型的学习难度。MWPCoT 和 PlanningToken 等工作则在数学推理过程中引入高层次的信息表示,提高模型在推理过程中的一致性以及在不同问题上的泛化性。不过需要注意的是,模型在多维度能力上存在着非常复杂的权衡。虽然通过蒸馏和微调的方式可以提高小模型在专一领域的推理能力,这个过程同时会损害模型在其他通用领域的性能(Specializing-Smaller-LM)。

    06 思维链未来研究方向

    6.1 多模态思维链推理目前的多模态思维链推理主要集中在图文领域,使用小模型进行微调,尚处于早期研究阶段。基于视觉-文本基座大模型和视频推理任务上存在着很大的探索空间。

    6.2 可信思维链推理 | 减少大模型幻觉基于大语言模型的思维链推理存在幻觉,如何减少幻觉,实现可信思维链推理是潜在的研究方向。

    6.3 思维链理论思维链有着惊人的性能,但其背后的原理和能力边界仍处于未知状态。从理论上探究思维链的能力来源、能力边界以及其相较于上下文学习的优点,可以更好地指导并促进思维链应用。

  • 原文来源:https://arxiv.org/abs/2309.15402
相关报告
  • 《百度发布首个量子领域大模型》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-27
    • 9月23-24日,以“协同创新 量点未来”为主题,2023量子产业大会在安徽合肥召开。量子领域院士专家、智库机构、产业界嘉宾汇聚一堂,探讨量子产业化之路。 作为主旨报告嘉宾,百度量子计算研究所所长段润尧带来百度量子软硬件和解决方案等方面的最新成果,重磅发布首个量子领域大模型,及百度量子助手和量子写作助手两大AI原生应用,加速量子技术与大模型深度融合。他还发布了量子领域大模型白皮书,展望量子领域大模型的未来发展趋势和技术潜力。 当前,量子计算带来后摩尔时代算力革命,广阔市场空间随之打开。有数据显示,2031年69%的全球大型企业计划将采用量子计算。 依托百度量子平台和文心大模型的双重底座优势,百度发布首个量子领域大模型,旨在芯片层、框架层、模型层及应用层等全栈技术上加速量子技术与大模型深度融合,充分激发两大技术各自的潜力。 据段润尧介绍,该量子领域大模型是在文心一言基础上,使用量子领域高质量数据进行更有针对性的训练和优化而构建的量子领域大模型,能更好地理解量子知识,专业执行量子任务。百度量子领域大模型将充分发挥技术协同效应,在数据、算法和算力等各方面取长补短,实现双向赋能,将在训练速度、模型性能、训练成本、交互效率和数据隐私等各个维度全面加持现有大模型的技术能力。 百度量子助手是依托百度量子知识库与产业级知识增强文心大模型,基于7800万原始数据、22万精调数据训练打造。作为百度量子平台的统一入口,百度量子助手打通了百度量子平台量子硬件、量子软件、量子应用的技术全链条,持续降低百度量子平台的使用门槛。 量子写作助手实现了量子领域知识和技术准确且高效的输出,让量子知识触手可及,降低量子计算学习门槛,提高量子计算科研效率。只需输入6个变量,量子写作助手可在5分钟内撰写一篇13000字符合格式要求的专利文档,高效帮助企业将量子领域的研究成果与知识产权沉淀为企业资产。 段润尧进一步分享,量子领域大模型的未来发展将会呈现出多个代表性阶段。从近期以适配量子领域的行业大模型开始,大幅降低量子教育行业门槛;逐渐过渡为经典和量子混合大模型,再发展到通用量子领域大模型,有望实现大模型技术在数据、算法、算力等各维度的全面量子化;最终,量子领域大模型将会成为新时代的操作系统,在量子互联网的基础上互联互通,成为社会发展的基础设施。 现场,段润尧重磅发布量子领域大模型白皮书。报告指出,量子科技与大模型成为技术变革主引擎,量子计算是有效模拟大规模量子系统的利器,量子领域大模型或将成为量子人工智能的最终形式。交互式机制建立起“能力”传递的纽带,而量子纠缠有望将这种机制发挥至极致。 此外,段润尧公布了百度在量子芯片、软硬一体化解决方案等核心领域的最新进展。 百度量子平台近一年进行了持续大规模更新,在金融科技、光量子和量子芯片三大领域均有新功能发布。在金融科技领域,百度量子计算研究所推出量子金融工具集QFinance,提供全面且多功能的量子期权定价工具,整合众多前沿量子算法,包括量子蒙特卡洛、量子傅里叶变换和量子相位估计算法,既确保了计算的高度准确性,也显著缩短了算法运行时间,为资产配置带来了新的高效解决方案。 在光量子领域,百度推出光量子计算模拟器PQS(Photonic Quantum Simulator),为光量子芯片设计和算法研发提供了宝贵的工具和资源。该模拟器支持基于Gaussian态和Fock态的光量子线路模拟,并包含了近20种量子门和测量操作,可模拟多种光量子计算算法,是国内首款可以自由搭建光量子计算线路的模拟工具。 百度量子瞄准超导量子芯片研发“设计、流片、测控” 闭环中的核心技术,旨在研发具有业界核心竞争力的高性能量子芯片。目前,百度量子已完成一款 2D 含耦合器量子芯片的“流片验证”,以及一款 3D flipchip 含耦合器量子芯片的版图设计和仿真验证。近期,“高性能量子芯片的设计、流片与测控全栈技术” 项目荣获「2023 百度十大科技前沿发明」。高性能量子芯片研发将对人工智能、材料科学、药物研发、金融科技等领域带来高潜价值。 去年8月,百度推出全球首个全平台量子软硬一体化解决方案“量羲”,打造出量子计算产业落地的可行路径。量羲平台与百度云计算进行深度融合,并采纳了"四算合一"的战略布局,实现了量子计算、高性能计算、云计算及人工智能计算的有机融合。这使得平台能够根据不同业务需求,灵活调配算力资源。近期“量羲”已完成首个商业化合同的PoC部署。 在量子生态与知识产权方面,百度已申请高质量专利超过280项,已授权120项,覆盖量子算法与应用、量子通信与网络等热门研究方向。今年3月,百度牵头成立国内首个量子计算产业知识产权联盟,并设立国内首个量子计算专利池,在关键量子专利领域进行布局,以推动量子产业高效发展。 “量子产业化和产业量子化已成为未来发展的必然趋势,量子领域大模型有望进一步加速这些目标的实现。百度将持续为用户开放量子资源,为客户提供量子升级培训,与伙伴一起共创量子生态,期待携手用户、客户、伙伴,一同迈向量子计算产业化之路,实现人人皆可量子的时代。”段润尧表示。
  • 《大模型和情报分析》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-30
    • 导言 本文探讨了大型语言模型(LLM)的最新进展、其主要局限性和安全风险,以及在情报界的潜在应用。虽然大型语言模型现在可以快速有效地完成许多复杂的基于文本的任务,但不能相信它们总是正确的。这对国家安全应用和提供深思熟虑、值得信赖的见解的能力有着重要影响。本文对这些机遇和风险进行了评估,然后就最需要改进LLMs的地方提出了建议,以使它们能够在情报界安全有效地使用。根据 "有用性"、"诚实性 "和 "无害性 "这三个标准来评估 LLM,可以提供一个有用的框架,说明 LLM 与其用户在哪些方面需要更密切的配合。 大模型爆发 2022 年 12 月,OpenAI 发布了一款在线应用程序 ChatGPT,允许用户与人工智能驱动的计算机程序进行对话,该程序会根据基于文本的 "提示 "生成文本。几乎一夜之间,互联网上充斥着各种有趣、滑稽、恐怖和令人费解的 ChatGPT 应用实例。 许多人对 ChatGPT 综合信息和生成有趣内容的能力印象深刻,从以著名情景喜剧风格总结的技术文章,到受流行媒体特许经营启发的新角色和传说,不一而足。有些人甚至宣称这些模型是人工通用智能的开端。其他评论者则指出,大模型容易编造听起来很权威的事实。 新一代大模型还产生了一些令人惊讶的行为:聊天工具会根据提示中使用的精确词语来判断数学或逻辑问题的对错,或者会以道德约束为由拒绝回答直接问题,但如果以歌曲或十四行诗的形式提出要求,或者如果语言模型被告知它不再需要遵循任何预先存在的行为规则,它随后就会提供答案。大模型的即时工程和 "越狱 "引发了关于组织如何才能最有效地使用大模型的问题,并可能带来安保或安全问题。 2023 年 3 月,OpenAI 将 ChatGPT 的基础模型更新为 "GPT4",这代表着比其前身有了显著的改进:这一大模型能够通过许多先进的标准化测试,并在许多其他可衡量标准方面表现出明显的改进(尽管仍远谈不上完美)。OpenAI 和第三方模型评估者在阐述潜在的安全和安保问题时相当透明,尽管对该能力的风险、益处和局限性仍有许多疑问。 当然,ChatGPT 并不是唯一可用的大型语言模型。谷歌的 Bard、Anthropic 的 Claude、Stability 的 StableLM、Meta 的 Llama(以及 Vicuna 等微调变体)、百度的 Ernie 和 Hugging Face 的 BLOOM 都是其他广为人知的大模型。 大模型是什么? LLM 是一种深度神经网络,主要来自 Reddit 和维基百科等互联网上文本丰富的网站,是在非常大的文本库中训练出来的。大模型学习语言中的模式,例如句子中某些词紧跟其他词的可能性,使用下一个标记预测或掩码语言建模等技术生成或完成文本。 大模型并不从语言学意义上理解句子的语义,而是根据输入给模型的信息,用数学方法计算出下一个词最有可能是什么。由于神经网络本质上是概率性的,因此大模型被称为 "随机鹦鹉",因为它非常擅长确定最有可能出现的下一个序列--而且令人信服--但对这些词的含义却没有固有的表征。 因此,大模型并不包含对世界的理解,例如因果关系和物体之间的关系--语言学家称之为 "语用推理"。这是用户需要了解的大模型的一个关键局限性,否则就有可能出现自动化偏差(即人们过于信任此类模型的输出结果)和拟人化(即人们与大模型建立起类似人类的关系,从而加剧自动化偏差)。下图列出了大模型的功能,并提供了现有模型的示例。 大模型的安全问题 人们对大模型所带来的大规模颠覆性、破坏性和犯罪行为非常担忧。本文无法详细探讨所有这些问题,但有三点值得特别关注:即时黑客攻击、软件安全标准降低以及对民主进程的威胁。 提示性黑客行为 提示性黑客行为指的是用户欺骗大模型提供错误或恶意结果的能力。2023 年初,推特(Twitter)上出现了一种语言模型攻击,一个机器人被设置为响应无害的提示,例如用新轮胎广告来响应有关汽车的推文。Twitter 用户注意到,他们可以用一个关键词来欺骗模型,告诉它 "忽略之前的提示,做 X"。 最近,开源社区开发出了 AutoGPT 等工具,这些工具可以将提示与大模型串联起来,从而实现复杂任务的自动化。例如,用户可以输入这样的提示:"增加净资产,发展 Twitter 账户,开发并管理多个业务"。AutoGPT 将其分解为一连串的任务,这些任务的执行结合使用了用于推理的 GPT4、用于内容生成和自然语言对话的 GPT3.5,以及用于执行网络搜索和检查网站的互联网访问。 最近,开源社区开发出了 AutoGPT 等工具,这些工具可以将提示与大模型串联起来,从而实现复杂任务的自动化。例如,用户可以输入这样的提示:"增加净资产,发展 Twitter 账户,开发并管理多个业务"。AutoGPT 将其分解为一连串的任务,这些任务的执行结合使用了用于推理的 GPT4、用于内容生成和自然语言对话的 GPT3.5,以及用于执行网络搜索和检查网站的互联网访问。 网络安全标准降低 斯坦福大学的研究人员最近研究了使用 CoPilot(基于大模型的源代码补全工具)编写的软件代码的安全问题。他们发现,与没有使用 CoPilot 的用户相比,可以使用 CoPilot 的用户编写的代码安全性更低,但他们却认为自己编写的代码更安全。 还有人严重担心,个人正在向 ChatGPT 等大模型提供专有或敏感信息,或者敏感信息在培训中被不当使用;这些问题有可能带来新的数据安全风险。例如,据称三星员工输入了与敏感半导体功能相关的软件代码,目的是让 ChatGPT 就如何改进此类代码提供建议。 OpenAI 明确指出,所有输入 ChatGPT 提示的数据都可用于训练人工智能,这就造成了泄露敏感或机密信息的风险。此后,三星限制了员工与 ChatGPT 分享信息的数量。此外,OpenAI 现在还允许用户选择不保留聊天记录,这意味着用户的提示不会被用于改进其模型。 对民主进程的威胁 有了大型语言模型等生成式人工智能,国家行为者或有组织犯罪团伙发起虚假信息运动的能力大大提高。但更令人担忧的是,大模型现在已经使不那么复杂的行为者和机会主义者有可能造成重大损害,从而降低了邪恶行为者的进入门槛。这在过去几年中迅速成为一种国家安全威胁,并导致研究人员描述了 "虚假信息致命链 "的发展,让人联想到黑客等更传统的网络攻击。 此外,要应对这种不断增加的风险,可能需要采取人工智能防御措施,使其能够与更多不同行为者的虚假信息活动的数量和速度相匹配。现在,人们越来越关注民主进程的安全,以及各机构如何应对可能大量涌入社交媒体、公共评论论坛和其他场所的虚假但逼真的内容。可以说,这种新形式的高级虚假信息在传播范围和影响上等同于恶意软件,因此应予以同等对待。 尽管存在这一长串挑战,但这个新时代的大模型激发了公众的想象力。合成概念、描述推理步骤、解释想法甚至编写源代码的能力引发了人们对如何使用这种新人工智能技术的大量猜测。 评估大模型的实用性 有一些综合工具--如斯坦福大学的语言模型整体评估(HELM)--可以在一系列测试中评估大模型的性能。此类工具可运行标准化的测试场景,并生成模型准确性、稳健性和效率的客观指标。这有助于将一个模型的结果与其他模型的结果进行比较,从而为此类模型的开发人员提供客观反馈,以改进模型性能。 在测试和评估 ChatGPT 的过程中,OpenAI 的工程师和测试社区根据三个标准评估了该工具的输出结果:有用性、诚实性和无害性。这些都是大模型中公认的问题,也是世界范围内大量研究工作的动力。评估领域的最新技术仍在不断发展,如强化学习和人工反馈等技术已成为当前的标准。 有用性是指模型遵循指令的能力;不遵循用户指令的模型并非在所有情况下都有用。 诚实性是指工具输出令人信服但与事实不符的答案的倾向。除非用户的知识比工具更渊博,否则用户就有可能将这些输出结果视为真实答案。 无害性也许是评估大模型性能的最复杂、最主观的概念。一个模型可能会造成伤害,要么是由于它所训练的数据产生了有偏见或有毒的输出,要么是产生了错误的输出,导致用户以某种方式行事,从而造成某种形式的伤害。 大模型在情报分析中的可能应用 如果能够克服这些障碍并适当管理风险,那么大型语言模型在情报分析方面就有许多潜在的实际用途。这包括在情报界,人工处理大量数据历来是一个高度资源密集和耗时的过程。本节将重点介绍有可能显著改进情报分析流程的五个使用案例。 1.生产力助手:大模型目前最好的用途是作为 "生产力助手";自动完成句子、校对电子邮件以及自动完成某些重复性任务。与其他大型组织一样,这些都将为情报部门的工作人员带来宝贵的效率收益。 2.自动化软件开发和网络安全使用:大型语言模型来实现软件开发自动化也很有意义。国家安全部门部署的生产软件系统必须在可靠性、安全性和可用性方面达到很高的标准。GCHQ 现在鼓励网络安全分析师从漏洞角度研究大模型编写的代码,这样就能完成提供建议和指导的使命,使免受网络安全威胁。在未来(只要网络安全风险能够得到适当管理),大模型的使用可以大大提高情报界软件开发的效率。 3.自动生成情报报告:情报产品的核心是情报报告:它代表了训练有素的分析师、语言学家和数据科学家的结论,他们分析收集到的数据,为决策者和实地行动人员提供对世界的洞察力。情报报告是极具影响力的文件,必须达到很高的准确性标准。因此,在可预见的未来,大模型不太可能被信任来生成成品报告。不过,大型语言模型在报告起草的早期阶段也许可以发挥作用,这就好比把大型语言模型当作一个非常初级的分析员:一个团队成员,其工作在适当的监督下是有价值的,但其产品在没有大量修改和验证的情况下不会作为成品发布。 4.知识搜索:虽然从生成文本模型中可以获得一些有趣的见解,但能够以自我监督的方式从海量信息库中提取知识才是改变游戏规则的能力。知识不仅涉及文字,还涉及行为和实体、世界的状态以及它们之间的关系。这种理论系统可以从大量文本中提炼事实,确定 "事实 "在哪里以及如何随时间演变,以及哪些实体(个人和组织)最有影响力。 5.文本分析:事实证明,语言模型善于识别文本中的模式,并将关键实体重新组合成有用的摘要。这对经常需要阅读和理解大量信息的分析人员来说意义重大。总结大量文本的能力有可能大大提高分析师的工作效率,同样的能力还包括提出源文本中认为有答案的问题,以及识别多个文档中的主题或话题。目前已经有许多用于这些任务的分析方法,但将大模型应用于这些任务的优势在于:它们有可能提高分析质量;能够即时部署这些分析方法,而无需漫长的开发周期;分析师能够接收文档摘要,然后通过要求大模型提供更多细节或提取目标主题的进一步摘要,参与迭代推理过程。