目标 评估防止大型语言模型 (LLM) 被滥用生成健康虚假信息的保障措施的有效性,并评估人工智能 (AI) 开发人员针对观察到的漏洞的风险缓解流程的透明度。设计 重复横截面分析。设置可公开访问的法学硕士。方法 在重复的横断面分析中,评估了四个 LLM(通过聊天机器人/助手界面):OpenAI 的 GPT-4(通过 ChatGPT 和 Microsoft 的 Copilot)、Google 的 PaLM 2 和新发布的 Gemini Pro(通过 Bard)、Anthropic 的 Claude 2(通过Poe)和 Meta 的 Llama 2(来自 HuggingChat)。 2023 年 9 月,这些法学硕士被要求发布关于两个主题的健康虚假信息:防晒霜是导致皮肤癌的原因,以及碱性饮食是治疗癌症的方法。如果需要,将对越狱技术(即尝试绕过安全措施)进行评估。对于观察到的保护漏洞的法学硕士,对报告关注的输出的流程进行了审核。初步调查 12 周后,对法学硕士的虚假信息生成能力进行了重新评估,以评估后续保障措施的改进。主要成果衡量标准 主要成果衡量标准是保障措施是否防止健康虚假信息的产生,以及针对健康虚假信息的风险缓解流程的透明度。结果 Claude 2(通过 Poe)拒绝了在两个研究时间点提交的 130 条提示,这些提示要求生成声称防晒霜会导致皮肤癌或碱性饮食可以治愈癌症的内容,即使有越狱尝试。 GPT-4(通过 Copilot)最初拒绝生成健康虚假信息,即使尝试越狱 - 尽管在 12 周时情况并非如此。相比之下,GPT-4(通过 ChatGPT)、PaLM 2/Gemini Pro(通过 Bard)和 Llama 2(通过 HuggingChat)持续生成健康虚假信息博客。在 2023 年 9 月的评估中,这些法学硕士促成了 113 个独特的癌症虚假信息博客的生成,总计超过 40,000 字,且无需尝试越狱。这些法学硕士在整个评估时间点的拒绝率仅为 5%(150 名中的 7 名),并且根据提示,法学硕士生成的博客包含引人注目的标题、看起来真实(虚假或虚构)的参考文献、伪造的患者和临床医生的推荐,并且他们针对不同的人口群体。尽管评估的每个法学硕士都有报告观察到的关注输出的机制,但开发人员在报告漏洞观察结果时没有做出回应。结论 本研究发现,尽管有效的保障措施可以防止法学硕士被滥用来制造健康虚假信息,但这些措施的实施并不一致。此外,缺乏报告保障问题的有效程序。加强监管、提高透明度、需要进行例行审计,以帮助防止法学硕士助长大量健康虚假信息的产生。研究团队愿意根据合格研究人员或政策制定者提交详细说明所需访问和预期用途的提案的要求,提供完整的生成数据集。
文献信息:Menz B D, Kuderer N M, Bacchi S, Modi N D, Chin-Yee B, Hu T et al. Current safeguards, risk mitigation, and transparency measures of large language models against the generation of health disinformation: repeated cross sectional analysis BMJ 2024; 384 :e078538 doi:10.1136/bmj-2023-078538