《提高大语言模型可信度,新方法助生成式AI破除“幻觉” 》

  • 来源专题:人工智能
  • 编译者: 袁晨
  • 发布时间:2024-06-24
  • 人工智能(AI)在给出准确答案的同时,也会有一些“胡乱输出”令人难辨真假,这被称为“幻觉”(hallucination)。而新一期《自然》杂志发表的一项研究报道了一种新方法,能检测大语言模型(LLM)产生的“幻觉”,即该方法能测量生成回答的含义的不确定性,或能提升LLM输出答案的可靠性。
    类似ChatGPT和Gemini等LLM,是能阅读和生成自然人类语言的AI系统。不过,这类系统很容易产生所谓“幻觉”,即生成不准确或没有意义的内容。检测LLM出现的这种错误非常难,因为这些回答的呈现方式看起来很可信。
    英国牛津大学研究团队此次尝试量化一个LLM产生此类错误的程度,从而判断生成的内容有多忠于提供的源内容。他们的方法能检测“编造”——这是幻觉的一个子类别,特指不准确和随意的内容,常出现在LLM缺乏某类知识的情况下。这种方法考虑了语言的微妙差别,以及回答如何能以不同的方式表达,从而拥有不同的含义。团队的研究表明,他们的方法能在LLM生成的个人简介,以及关于琐事、常识和生命科学这类话题的回答中识别出“编造”内容。
    在同时发表的新闻与观点文章中,澳大利亚皇家墨尔本理工大学科学家指出,该方法由一个LLM完成,并通过第三个LLM进行评价,等于在“以毒攻毒”。文章写道,“用一个LLM评估一种基于LLM的方法似乎是在循环论证,而且可能有偏差。”不过,团队指出他们的方法有望帮助用户理解在哪些情况下使用LLM的回答需要注意,也意味着可以提高LLM在更多应用场景中的置信度。
     
  • 原文来源:https://news.sciencenet.cn/htmlnews/2024/6/524937.shtm
相关报告
  • 《医疗AI与GPT | 梳理全球医疗大模型》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-27
    • 一、国外医疗大模型 1、谷歌医疗大模型(Med-PaLM) 谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究,根据其研究结果,一组临床医生对谷歌和DeepMind团队的医疗大模型Med-PaLM回答的评分高达92.6%,与现实中人类临床医生的水平(92.9%)相当。 2、BioMedLM(PubMedGPT) 斯坦福基础模型研究中心(CRFM)和MosaicML联合开发了BioMedLM (PubMedGPT)模型,一种经训练可以解释生物医学语言的大型语言模型。CRFM使用MosaicML平台,根据PubMed的生物医学数据训练了2.7B 参数 GPT,在美国医疗执照考试 (USMLE)的医疗问答文本上取得了最先进的结果。在Pile数据集的 PubMed Abstracts 和 PubMed Central 部分上训练了 BioMedLM。该数据集包含约 50B 个标记,涵盖由美国国立卫生研究院策划的生物医学文献中的 1600 万篇摘要和 500 万篇全文文章。 3、GatorTron GatorTron是由佛罗里达大学开发的电子病历(EHR)大数据模型,从头开始开发了一个LLM(没有基于其他预训练模型),使用89亿个参数和来自电子健康记录的>900亿字的文本来改进5个临床自然语言处理任务,包括医疗问题回答和医疗关系提取。 虽然比Med-PaLM的模型小得多,但这是第一个由学术医疗机构开发的医学基础模型,而不是像谷歌、OpenAI或Meta这样的大型科技公司。 这个数据来源是从UF Health综合数据存储库(IDR)——UF Health系统的企业数据仓库中提取了来自247万名患者的总计2.9亿份临床笔记。这些笔记是在2011-2021年创建的,来自超过126个临床科室和约5千万次接触,涵盖了医疗环境,包括但不限于住院病人、门诊病人和急诊部门的访问。经过预处理和去识别,该语料库包括超过820亿个医疗词汇。 4、CLINICAL QA BIOGPT (JSL) John Snow Labs 长期以来一直是自然语言处理(NLP)工具和算法在医疗用例中的领先者。除了数据标记和提取之外,他们还拥有用于去标识化临床笔记和医疗数据的工具。JSL 最近宣布了一种基于 BioGPT(一个较旧、较小的医疗信息训练的大型语言模型)的LLM(BIOGPT (JSL) ),通过基于JSL数据和NLP工具的微调。该模型在患者去标识化、实体解析(如提取操作代码和医疗术语)以及临床摘要的准确性等领域可能表现更好,甚至可能优于ChatGPT。 https://nlp.johnsnowlabs.com/2023/04/12/biogpt_chat_jsl_en.html 5、ChatDoctor ChatDoctor:使用医学领域知识在大型语言模型LLaMA上进行微调的医疗大模型。 收集了 700 多种疾病及其对应的症状 + 所需医学检查 + 推荐的药物, 以此生成了 5k 次医患对话数据集。此外, 还从在线问答医疗咨询网站获得了 200k 条真实的医患对话数据集。 使用 205k 条医患对话数据集对 LLM 进行微调, 生成的模型在理解患者需求, 提供合理建议并在各种医疗相关领域提供帮助方面能力显著提高。 此外,为了提高模型的可信度,该项目还设计了一个基于Wikipedia和医疗领域数据库的知识大脑,它可以实时访问权威信息,并根据这些可靠信息回答患者的问,这对容错率较低的医疗领域至关重要。 实验表明,医生患者对话的微调模型在精度、召回率和F1方面超过ChatGPT。 https://www.yunxiangli.top/ChatDoctor/ 二、中文医疗大模型 1、DoctorGLM 基于 ChatGLM-6B的中文问诊模型 基于 ChatGLM-6B的中文问诊模型,通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署。 Github地址:https://github.com/xionghonglin/DoctorGLM 2、BenTsao 开源了经过中文医学指令精调/指令微调(Instruct-tuning) 的LLaMA-7B模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。 地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese 3、BianQue 一个经过指令与多轮问询对话联合微调的医疗对话大模型,基于ClueAI/ChatYuan-large-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。 地址:https://github.com/scutcyr/BianQue 4、HuatuoGPT 开源了经过中文医学指令精调/指令微调(Instruct-tuning)的一个GPT-like模型 地址:https://github.com/FreedomIntelligence/HuatuoGPT 5、Med-ChatGLM 基于中文医学知识的ChatGLM模型微调,微调数据与BenTsao相同。 地址:https://github.com/SCIR-HI/Med-ChatGLM 6、QiZhenGPT 该项目利用启真医学知识库构建的中文医学指令数据集,并基于此在LLaMA-7B模型上进行指令精调,大幅提高了模型在中文医疗场景下效果,首先针对药品知识问答发布了评测数据集,后续计划优化疾病、手术、检验等方面的问答效果,并针对医患问答、病历自动生成等应用展开拓展。 地址:https://github.com/CMKRG/QiZhenGPT 7、ChatMed 该项目推出ChatMed系列中文医疗大规模语言模型,模型主干为LlaMA-7b并采用LoRA微调,具体包括ChatMed-Consult : 基于中文医疗在线问诊数据集ChatMed_Consult_Dataset的50w+在线问诊+ChatGPT回复作为训练集;ChatMed-TCM : 基于中医药指令数据集ChatMed_TCM_Dataset,以开源的中医药知识图谱为基础,采用以实体为中心的自指令方法(entity-centric self-instruct),调用ChatGPT得到2.6w+的围绕中医药的指令数据训练得到。 地址:https://github.com/michael-wzhu/ChatMed 8、XrayGLM,首个会看胸部X光片的中文多模态医学大模型 该项目为促进中文领域医学多模态大模型的研究发展,发布了XrayGLM数据集及模型,其在医学影像诊断和多轮交互对话上显示出了非凡的潜力。 地址:https://github.com/WangRongsheng/XrayGLM 三、国内产业界的医疗大模型 1、百度灵医大模型 2023年9月19日,百度正式发布国内首个“产业级”医疗大模型——灵医大模型。灵医大模型聚焦智能健康管家、智能医生助手、智能企业服务三大方向,为患者、医院、企业等提供AI原生应用。 灵医大模型能够结合自由文本秒级生成结构化病历,根据医患对话精准分析生成主诉、现病史等内容。此外,灵医大模型也是业内唯一支持多篇中英文文献同时解析的大模型,基于文献解析内容实现智能问答。在辅助诊疗方面,灵医大模型可实现通过多轮对话了解病人病情,实时辅助医生确诊疾病,推荐治疗方案,提升就诊全流程的效率和体验,并成为患者的24小时“健康管家”,提供智能客服服务。此外,灵医大模型还能为药企提供多项赋能,包括专业培训、医药信息支持等等。 2、京东京医千询 京东健康发布了“京医千询”医疗大模型,可快速完成在医疗健康领域各个场景的迁移和学习,实现产品和解决方案的全面AI化部署。 3、腾讯混元医疗大模型 腾讯混元大模型预训练用到的数据高达2万亿tokens,比不少模型高出一个量级。训练数据涵盖285万医学实体、1250万医学关系,覆盖98%医学知识的医学知识图谱和中英文医学文献。这些知识既对大量论文、百科全书、用药说明书中的知识进行了萃取,又纳入了腾讯医典中各个医学专家撰写的针对性的医学文章。所有知识来源都已经过验证,因而可为大模型输出的结果提供权威依据。 一方面来源于患者场景,如线上问诊、医学问答、导诊、预问诊;另一方面来源于医生场景,如医学考题、病历生成、出院小结、检查建议、诊断结果和用药建议。 4、医联MedGPT 预训练阶段使用了超过20亿的医学文本数据,微调训练阶段使?了800万条的高质量结构化临床诊疗数据,并投入超过100名医生参与人工反馈监督微调训练。 5、商汤 “大医”大模型 基于海量医学知识和临床数据打造了中文医疗语言大模型“大医”,可以提供导诊、健康咨询、辅助决策等多场景多轮会话能力。此外,商汤科技同样推出了医疗影像大模型、生信大模型等多种垂类基础模型群,覆盖CT、MRI、超声、内镜、病理、医学文本、生信数据等不同医疗数据模态。 6、云知声山海大模型 云知声将以山海大模型为基础,增强物联、医疗等行业能力,为客户提供更智能、更灵活的解决方案。在医疗场景,发布手术病历撰写助手、门诊病历生成系统、商保智能理赔系统三大医疗产品应用。 7、微脉CareGPT CareGPT 致力于在真实的医疗服务场景中充分发挥健康管理价值,实现预防、咨询、预约、康复的全周期智能化健康管理能力。目前参数规模为 70 亿,可支持医疗健康场景下的多模态输入和输出。 8、东软添翼医疗 医生通过自然语言与添翼交互,快速、精准地完成医疗报告与病历、医嘱开立;面向患者,添翼让问诊更便捷,成为患者全天私人专属医生,提供全面的诊后健康饮食、营养与运动建议等服务。添翼的多模态数据融合能力,也将为医院管理者提供对话式交互与数据洞察,简化数据利用,让医院管理更精细。 9、叮当健康HealthGPT 叮当HealthGPT可以作为AI健康助手,为用户提供全方位的健康相关问题解答和专业建议。无论用户对就医流程、疾病治疗、药品使用、检查结果解读感兴趣,还是关注疾病预防、养生保健、饮食营养、美容健身、家庭医疗护理、心理健康和压力管理,叮当HealthGPT都能满足用户的需求。 10、水木分子ChatDD 新一代对话式药物研发助手ChatDD 及全球首个千亿参数多模态生物医药对话大模型ChatDD-FM 100B,ChatDD (Chat Drug Discovery & Design) 基于大模型能力,则能够对多模态数据进行融合理解,与专家自然交互人机协作,将人类专家知识与大模型知识联结,具备问题理解、任务拆解、工具调用等能力,或有可能重新定义药物研发模式。 11、华为云盘古药物分子大模型 华为云盘古大模型已经深入金融、制造、政务、电力、煤矿、医疗、铁路等10多个行业,支撑400多个业务场景的AI应用落地。2021年发布的华为云盘古药物分子大模型,是由华为云联合中国科学院上海药物研究所共同训练而成的大模型,可以实现针对小分子药物全流程的人工智能辅助药物设计。实验验证结果表明,盘古药物分子大模型的成药性预测准确率比传统方式高20%,进而提升研发效率,让先导药的研发周期从数年缩短至一个月,同时降低70%的研发成本。 12、智云健康:ClouD GPT 依托大数据平台、机器学习平台、模型开发平台、模型训练平台等基础平台,智云健康开发出医疗行业模型ClouD GPT,已经落地在智云AI辅助诊断和AI药物、器械研发的医疗应用场景。 13、卫宁健康:WiNEX Copilot 卫宁健康已于2023年1月开展了医疗垂直领域的大语言模型WiNGPT的研发和训练工作,截至4月、6月和9月的模型训练参数量达到或将达到60亿、156亿、650亿,目前正在探索更多的医疗应用场景,计划于10月正式发布由GPT技术加持的新产品WiNEX Copilot。 14、创业慧康BSoftGPT BSoftGP将以API调用结合本地部署的方式聚合利用通用GPT模型,同时通过本地部署embedding向量数据库以及公司自有的领域知识库,通过医疗垂直领域的语言模型训练和微调逐步实现产品力,并向公司内外部的应用场景,比如在医疗服务和个人健康等场景中输出AI智能服务。 在临床医疗服务方面,BSoftGPT可以根据医生提供的病历信息和临床数据,自动化生成临床决策建议和治疗方案,从而辅助医生进行临床决策,提升现有的临床决策支持系统CDSS的智能化水平;在面向患者服务方面,BSoftGPT可以通过与患者进行自然语言交互,实现贯穿患者诊前诊中诊后全流程的智能导诊、管理。 15、科大讯飞:星火认知 基于星火认知大模型升级的讯飞医疗诊后康复管理平台,将专业的诊后管理和康复指导延伸到了院外。根据患者健康画像自动分析,平台可为患者智能生成个性化康复计划,并督促患者按计划执行。目前,讯飞诊后康复管理平台试点已取得显著效果:提高合作医院医生的管理效率10倍以上,患者康复过程中的随访率和咨询回复率达到100%,出院患者满意度达到98%以上。 16、中国科学院自动化研究所紫东太初 “紫东太初”定位为跨模态通用人工智能平台,于2021年正式发布。今年6月16日,紫东太初发布2.0版本,目前,“紫东太初”大模型已展现出广阔的产业应用前景,在神经外科手术导航、短视频内容摘要、法律咨询、医疗多模态鉴别诊断、交通图像研读等领域开始了一系列引领性、示范性应用。 在医疗领域,基于紫东太初大模型开放服务平台,实现数据智能标注、高效模型训练、模型灵活部署,实现骨科器械/耗材的自动识别和清点,实现智能化、精细化管理,效率相比传统方式提升了6倍,准确率高达97%以上。 17、深圳市大数据研究院&香港中文大学(深圳)华佗GPT 今年6月,华佗GPT的最新的内测版本在深圳发布。由深圳市大数据研究院和香港中文大学(深圳)联合研发的华佗GPT,使用一亿问答(50G)和10-20T医疗文本,是最大的医疗问答数据集。主要应用于医疗咨询和情感陪伴,包括患者培训、健康咨询、就医分诊等。 华佗GPT是通过融合ChatGPT生成的 “蒸馏数据”和真实世界医生回复的数据,训练并开源了一个新的医疗大模型。自动与人工评测结果显示,华佗GPT在单轮与多轮问诊场景都优于现有中文医疗人工智能模型和GPT-3.5,充分证明其处理复杂问诊对话的能力。下一步,华佗GPT将支持多模态输入。 18、北京智谱华章科技有限公司&北京中医药大学东方医院:基于“GLM-130B”的数字中医大模型 6月27日,北京市首批10个人工智能行业大模型应用案例发布,其中包括北京智谱华章科技有限公司和北京中医药大学东方医院共同开发的数字中医大模型示范应用。该项目项目选用了基于智谱华章高精度千亿中英双语稠密模型“GLM-130B”,面向中医领域名医经验挖掘整理需求,构建数字中医服务平台,探索高危肺结节人工智能临床诊疗和临床评价研究等解决方案,实现中医临床经验的智慧化复制新模式。项目已初步研发了医疗垂直领域的问答功能,支持对医疗、健康问题进行智能化知识问答;同时开发了根据症状生成中医处方,并提供处方主治症候医学解释等辅助诊疗功能。 19、哈尔滨工业大学:“本草”中文医学大模型(原名:华驼) 据今年5月报道,哈尔滨工业大学的研究团队训练出中文医学大模型,命名为“华驼”,后更名为“本草”。“本草”团队主要利用了中文医学知识图谱CMeKG和2023年关于肝癌疾病的中文医学文献,借助OpenAI API,分别构造了8000条问答数据和1000条多轮对话训练数据。然后,基于LLaMA-7B基座模型,进行有监督的微调,构建了“本草”中文医学大模型。 20、上海人工智能实验室:OpenMEDLab浦医 6月29日,由上海人工智能实验室牵头,并联合国内外顶级科研机构、高校及医院共同发布全球首个医疗多模态基础模型群“OpenMEDLab浦医”,并逐步开源。“OpenMEDLab浦医”融合了全球顶尖的AI研发能力、海量医学数据以及医学专家知识,首批发布的基础模型群中,包含基于医学图像、医学文本、生物信息、蛋白质工程等10余种数据模态训练而成的基础模型。该模型将促进基于医疗基础模型的跨领域、跨疾病、跨模态科研突破,同时助力解决医疗领域的长尾问题,推动医疗大模型的产业落地。
  • 《哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-11-03
    • 01 引言 思维链,一种通过逐步思考解决问题的方式,在解决复杂推理任务上展现出了惊人的性能,激起了人工智能和自然语言处理领域近年来的广泛研究和关注。 然而,目前缺乏一篇针对思维链及其变体的系统性归纳和总结。针对这一问题,本文对现有思维链相关研究进行了广泛调研,对思维链构造方法、思维链增强方法、思维链结构变体进行了归纳和总结,对思维链前沿应用做出了探讨并对思维链未来潜在研究方向进行展望。 为了与传统链式思维链进行区分,本文提出了泛思维链(X-of-Thought)的概念,其泛指基于思维链核心思想——逐步思考解决问题的方法和变体。在下文中所讨论的思维链均代指广义的泛思维链。我们期望这篇综述能够为研究者和初学者提供参考和启发,激发更多关于思维链推理领域的深入探讨,推动该领域的进一步发展和创新。 02 背景介绍 2.1 范式转换 近年来,随着计算能力的不断提升,大规模语言模型如雨后春笋般涌现,例如 GPT,LLAMA,BLOOM。而随着语言模型规模的不断扩大,涌现出了许多令人惊喜的能力,例如上下文学习和思维链能力。因此,自然语言处理的范式正在从预训练+微调转变为预训练+上下文学习。 2.2 上下文学习和思维链推理 上下文学习(In-context Learning)通过在提示文本中添加输入-输出示例,通过少样本学习(Few-shot Learning)的方式让 LLM 模仿已有示例(demonstrations)解决新的问题。通过上下文学习,LLM  无需额外微调即可使用,并且还能取得不错的性能。尽管如此,其在面对复杂数学推理、常识推理等复杂推理任务时表现不佳。 思维链(Chain-of-Thought)推理要求模型在输出最终答案之前,显式输出中间逐步的推理步骤。这一举措大幅度提高了 LLM 在复杂推理任务上的表现,并且输出的中间步骤方便使用者了解模型的思考过程,提高了大模型推理的可解释性。目前,思维链推理已经成为大模型处理复杂任务的一个常用手段。 03 章节组织 我们将从三个角度介绍思维链相关方法,并且在最后进行了方法间的比较和讨论: 思维链方法(包含思维链构造方法、思维链结构变体、思维链增强方法) 思维链前沿应用(包含工具使用、决策规划、思维链蒸馏——提高小模型推理能力) 未来研究展望(包含多模态思维链推理、可信思维链推理——减少幻觉、思维链理论研究) 04 思维链方法 4.1 思维链构造方式 根据模型进行思维链推理所需的推理链条人工标注程度,我们将其分为手动、自动、半自动三种构造方式。 4.1.1 手动思维链构造 示例中的推理链条完全由人工标注。优缺点:人工标注推理链条具有较高质量,为少样本学习提供了优质的信号。但是人工标注需要较大的人力成本开销,并且会遇到示例选择难以优化、跨任务迁移困难等问题。 4.1.2 自动思维链构造示例中的推理链条完全无需人工标注。具体来说,它分为 Zero-shot CoT 和 Auto CoT 两种方式。前者通过特定的提示文本激发模型在没有示例的情况下生成推理链条;后者则是使用前者零样本生成的推理链条,并结合示例选择策略,通过少样本学习的方式生成推理链条。优缺点:自动思维链构造不需要人工标注极大减少了人工成本,并且由于无需针对任务设定示例,在不同任务间可以方便迁移。但是由于缺少高质量人工标注信号,其性能通常较差,时常会出现事实错误、逻辑错误等幻觉现象。 4.1.3 半自动思维链构造示例中的推理链条少量由人工标注。具体来说,人工标注少量推理链条作为“种子样例”,基于这些种子样例进行拓展得到大量的推理链条,之后通过示例选择通过少样本学习的方式生成推理链条。优缺点:半自动构造方法结合了前二者的优点,在推理性能和人力成本间达到了平衡。少量人工标注提供了高质量的信号从而提高了推理质量,并且自动的推理链条拓展也减少了人工成本,在不同领域间迁移也仅需对种子样例进行重新标注。 4.2 思维链结构变体最原始的思维链是链式结构,并且以自然语言描述中间推理过程。链式结构过于线性,一定程度上限制了它在复杂任务上的能力,为此许多研究对思维链的结构进行了探索。 4.2.1 链结构变体链式结构变体主要针对中间推理过程的形式进行修改。程序语言的执行和复杂数学推理的过程十分契合,一些工作提出使用程序语言代替自然语言,通过生成可执行程序作为推理链条,并执行该程序得到最终推理结果,例如 PAL、PoT。此外还有一些其他形式的中间推理过程,例如 Algorithm-of-Thought 将推理链条替换为算法的执行过程,激发大模型内部使用算法推理的能力,Chain-of-Symbolic 在规划任务中使用符号代替了复杂的环境。 4.2.2 树结构变体链式结构的思维链限制了探索的广度,一些方法显式地构造了树并引入了树搜索算法。结合树结构和树搜索算法可以对不同的推理路径进行探索,并且引入了回溯、自我评估、剪枝的操作,在复杂任务及规划任务上取得优秀表现(Tree-of-Thought)。此外有方法在中间步骤中额外引入了不确定性评估,一定程度缓解了由不确定性带来的推理级联错误(Tree-of-Uncertain-Thought)。 有些方法通过树结构加快推理速度,通过将问题分解成可以平行解决的子问题并行解码,但这种方法仅限于解决简单任务,无法处理复杂推理任务(Skeleton-of-Thought)。然而,当前的树结构变体方法在任务选择上有较大的局限性,并且需要针对任务设定具体的提示指令,这些困难阻碍了它的广泛应用。 4.2.3 图结构变体图结构相较于树引入了更复杂的拓扑结构。Graph-of-Thought  在推理中通过环结构引入了自我修复,并根据图拓扑结构引入了信息聚合,在处理复杂任务时有着更较优秀有的表现,但是其面临着和树结构变体类似的问题,阻碍了它的广泛应用。ResPrompt  通过在提示文本中引入了“残差链接”来连接、聚合不同步骤的推理结果,隐式地引入了推理步骤之间地图结构,可以在数学推理等通用任务上使用,并且取得了优秀的效果。 4.3 思维链增强方法针对思维链进行某一特性的针对性增强,例如添加推理步骤的验证和完善、引入外源知识、问题分解、多次采样并投票、提高效率等。 4.3.1 基于验证和完善大模型在推理过程中往往会出现幻觉现象,例如事实性错误和逻辑性错误。通过引入针对推理过程的验证来获取反馈信号,并根据该反馈讯号对推理进行完善可以一定程度缓解这种现象。一个简单的思路是对推理步骤进行校验,例如通过演绎推理检验前后推理的一致性(Verify-CoT)、对每一个推理步骤进行细粒度的校验(DIVERSE)。 事实性错误通常通过引入知识进行缓解,具体来说分为外源知识和内源知识。对于内源知识,模型在回答问题前,首先通过提示指令获取模型内部的知识,并基于这些知识进行推理(SCREWS、Chain-of-Verification、Crystal、Step-Back Prompting),外源知识的引入将会在后续章节中介绍。对于推理一致性,一些方法通过反向推理进行验证。具体而言,他们根据问题和模型的预测来推理问题中的条件,根据推测出的条件和真实条件的一致性来判断推理的正确性(RCoT、FOBAR、Self-Verification)。 4.3.2 基于问题分解 模型直接回答复杂问题是十分具有挑战性的,而回答简单问题则得心应手。因此将问题分解成子问题显式地一步步解决是一类有效的方法。 Least-to-Most 使用了自顶向下的问题分解策略,首先将问题一次性分解成若干子问题,之后逐个解决从而得到最终的答案;Successive Prompting 采取了一种迭代分解策略,每轮迭代分解一个子问题并解答,并使用其促进后续的问题分解和回答;Decomposed Prompting 采取模块化设计,对不同类型的子问题设计专属模块负责解答,提高了子问题解答的准确性。此外,BINDER 采取神经符号的方式,通过程序执行得到最终答案;DATER 则关注表格推理的问题分解,需要同时考虑问题和表格的分解。 4.3.3 基于外源知识模型内部存储的知识在预训练结束后便会定格,无法获取新的知识,导致知识的匮乏和过时。从维基百科、知识库、词典等途径引入外源知识,能够一定程度缓解这个问题。Chain-of-Knowledge 从知识库中获取结构化知识进行知识指导的推理,并且根据结构化知识对推理链条的真实性和可信性进行验证。KD-CoT 将多跳推理转化为多轮问答形式,在每轮问答中检索相关的事实知识辅助问答。 4.3.4 基于排序或投票由于语言模型是基于概率采样的,在生成文本时会具有一定的随机性,通过多次采样并对采样结果进行集成,可以有效地缓解这个现象,并显著提高推理的性能。一些工作在推理链条或答案层级进行粗粒度的集成,例如 Self-Consistency、Complex CoT、Verifiers。这种集成粒度过粗没有考虑到推理步骤,为此另一些工作考虑到了中间推理步骤进行细粒度的集成,例如 Self-Check、GRACE。除了通过概率进行采样外,Diversity-of-Thought 通过不同的提示文本来采样多跳推理路径。总的来说,基于多次采样的策略已经成为当前思维链推理中常用的技术。 4.3.5 效率提升尽管思维链推理已经展现出卓越的性能,其推理速度慢、使用开销大仍是不可忽视的问题。目前工作从减少推理链条标注成本、加快推理时解码速度和降低推理时的多次采样次数开销入手。 05 思维链前沿应用 5.1 工具使用 虽然大模型具有非常强大的知识水平,其依然缺乏对于时效性内容以及领域外知识的更新能力,并且语言模型在数学计算、符号推理上也较为薄弱,在遇到这些问题时往往会产生幻觉现象。 为此,许多方法探究如何使用外部工具对 LLM 进行增强,通过提示或微调等方式引入使用工具(调用 API)的能力。网页和知识库检索能够让模型获取最新的外部知识,数学计算器与程序执行可以用以处理更为复杂的计算问题,调用其他模型能够获得其他模态(图像、视频、语音)的理解以及生成能力,甚至是与外部环境进行感知与交互,实现具身智能。思维链推理在工具增强方法中起到了非常重要的作用。大多数情况下,模型对于工具调用的需求是隐含的。工具提高了大模型在单步“动作”下的处理能力,而思维链赋予了模型在推理过程中对于问题的分解,工具使用形式的思考以及工具调用结果的追踪处理能力。 5.2 决策规划 思维链提供了一种将问题分解为链式子问题的形式,从而处理较为复杂的问题。然而,对于更为复杂的任务,链式的分解形式并不充分。在前文中,我们介绍了将链式推理拓展到树结构、图结构等形式的工作。 除此之外,LLM+P,LLM+DP 等工作将问题分解为规划领域定义语言(Planning Domain Definition Language, PDDL)的形式,通过外部模块对过程进行规划调度,最终再转换回自然语言形式用 LLM 进行处理。这些方式都提供了更为灵活的分解以及调度过程,增强模型的规划能力。 在长期规划中,模型产生的错误会进行累积。并且在执行过程中可能会遇到计划外的错误,不断进行重试也无法得到正确的结果。因此需要提高模型在推理过程中对错误处理、总结,以及对计划更新的能力。Self-Refine  能够让模型对结果进行自我反馈以及优化,而  Reflexion  在此基础上加入长短期记忆,根据历史经验进行决策。AdaPlanner 等工作则能够根据环境反馈优化规划过程,提高灵活性。规划增强的方法可以与工具增强、多智能体等方法进行结合,进一步增强大模型在复杂问题上的处理能力。 5.3 思维链蒸馏 思维链被视为大模型的一种涌现能力,然而,这种能力在一些规模较小的模型上并不是很显著,限制了小模型在推理时的表现。 当模型具备一定的思维链能力时,可以通过自监督与自我迭代的方法对推理能力进行强化,例如 LMSI,STaR 等。 但大多数情况下,小模型的思维链能力较弱,难以输出可靠的推理过程进行自我蒸馏。此时需要依靠具有较强思维链能力的大模型输出推理链条,再蒸馏给小模型,从而让小模型也获得一定的推理能力。一般来说,蒸馏时需要对数据进行筛选,有答案标签的情况下可以通过标注筛选出结果正确的推理过程,而在没有标注时也能通过 self-consistency  等方式投票得出较为可靠的答案。 除了推理结果的正确性外,推理过程的多样性对于蒸馏的效果也非常重要。SCoTD 发现针对每个样本采样多种推理路径能提高小模型的推理性能,SCOTT 通过对比解码和反事实推理等方式进一步提升思维链质量,缓解小模型学习到推理过程“捷径”的问题。 思维链的形式也会影响小模型的学习效果。DialCoT 将思维链过程拆解为多轮对话的形式,简化小模型的学习难度。MWPCoT 和 PlanningToken 等工作则在数学推理过程中引入高层次的信息表示,提高模型在推理过程中的一致性以及在不同问题上的泛化性。不过需要注意的是,模型在多维度能力上存在着非常复杂的权衡。虽然通过蒸馏和微调的方式可以提高小模型在专一领域的推理能力,这个过程同时会损害模型在其他通用领域的性能(Specializing-Smaller-LM)。 06 思维链未来研究方向 6.1 多模态思维链推理目前的多模态思维链推理主要集中在图文领域,使用小模型进行微调,尚处于早期研究阶段。基于视觉-文本基座大模型和视频推理任务上存在着很大的探索空间。 6.2 可信思维链推理 | 减少大模型幻觉基于大语言模型的思维链推理存在幻觉,如何减少幻觉,实现可信思维链推理是潜在的研究方向。 6.3 思维链理论思维链有着惊人的性能,但其背后的原理和能力边界仍处于未知状态。从理论上探究思维链的能力来源、能力边界以及其相较于上下文学习的优点,可以更好地指导并促进思维链应用。