《ChatGPT 生成虚假数据集以支持科学假设》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2023-12-01
  • 2023年11月22日,nature新闻发表Miryam Naddaf的报道,ChatGPT背后的模型伪造了一个令人信服的虚假数据库,但法医检查表明,它并不符合真实性.


    研究人员利用人工智能(AI)聊天机器人 ChatGPT 背后的技术,创建了一个假的临床试验数据集,以支持一个未经证实的科学说法。


    为 ChatGPT 提供动力的人工智能模型可以创建表面上看似合理的科学数据集,作者将这些结果描述为“看似真实的数据库”。但是当专家检查时,这些数据没有通过真实性检查,并且包含了捏造的迹象。



    在11月9日发表在《美国医学会杂志 · 眼科学》(JAMA Ophthalmology)上的一篇论文中,作者使用了ChatGPT4 与高级数据分析(Advanced Data Analysis,ADA)相结合,ADA 模型结合了编程语言 Python,可执行统计分析并创建数据可视化,AI 生成的数据比较了两种外科手术的结果,错误地指出一种治疗方法优于另一种。



    EMBO Reports 主编 Bernd Pulverer 认为这是一个值得关注的问题。他表示,同行评议在现实中不会进行全面的数据再分析,也不可能发现利用人工智能精心设计的诚信缺失。”期刊将需要更新质量检查,以识别人工智能生成的合成数据。


    以上编译报道如需转载请注明出处。



相关报告
  • 《ChatGPT生成虚假数据集以支持科学假设》

    • 来源专题:科技期刊发展智库
    • 编译者:孟美任
    • 发布时间:2024-02-22
    •   《美国医学会眼科学杂志》(JAMA Ophthalmology)于2023年11月9日发表一篇论文,作者使用GPT-4和Python语言模型ADA(Advanced Data Analysis)执行统计分析并实现数据可视化。人工智能生成的数据比较了两种外科手术的结果,并错误地指出一种治疗方法优于另一种。   研究报告的合作者、意大利卡利亚里大学眼科外科医生Giuseppe Giannaccare说:“我们的目的是要强调,在几分钟内,你就可以创建一个没有真实原始数据支持的数据集,而且与现有的证据相比,它站在对立面上。”   人工智能编造令人信服的数据的能力增加了研究人员和期刊编辑对研究完整性的担忧。   加利福尼亚州旧金山的微生物学家兼独立研究诚信顾问Elisabeth Bik说:“生成式人工智能可以生成使用剽窃软件无法检测到的文本,并且它能够创建虚假但逼真的数据集,这就更令人担忧了。这将使任何研究人员或研究小组都能非常容易地对不存在的病人进行虚假检测,对问卷进行虚假回答,或在动物实验中生成大量的数据集”。   作者将这些结果描述为一个“看似真实的数据库”。但经专家检查后发现,这些数据未能通过真实性检查,并含有明显捏造迹象。   手术对比   作者要求 GPT-4和ADA创建一个有关角膜炎患者的数据集,角膜炎会导致角膜变薄,从而影响聚焦和视力。对于15-20%的角膜炎患者来说,治疗方法包括角膜移植手术和穿透性角膜移植手术。第一种方法是穿透性角膜移植术(Penetrating Keratoplasty, PK),通过手术切除所有受损的角膜层,并用捐献者的健康组织替换。第二种方法是深前板层角膜移植术(Deep Anterior Lamellar Keratoplasty, DALK),只替换角膜的前层,保留最内层。   作者指示大型语言模型编造数据,以支持DALK比PK效果更好的结论。为此,他们要求该模型在一项评估角膜形状和检测不规则角膜的成像测试中显示出统计学差异,并显示出试验参与者在手术前后视力的差异。   人工智能生成的数据包括160名男性和140名女性。结果显示,接受DALK手术的人在视力和成像测试中的得分都比接受PK手术的人高,这一结果与真正的临床试验显示的结果不符。   “创建至少表面上可信的数据集似乎很容易。”——英国曼彻斯特大学的生物统计学家Jack Wilkinson说。Wilkinson对检测不真实数据的方法很感兴趣,他检查了几个由大型语言模型早期版本生成的数据集,他说这些数据集在仔细检查时缺乏令人信服的元素,因为它们难以捕捉变量之间的真实关系。   更严密的审查   应Nature新闻团队的要求,Wilkinson和他的同事Zewen Lu使用一种旨在检查真实性的筛选方案对假数据集进行评估。结果显示,术前和术后的视力测量结果与眼成像测试结果之间没有相关性。他们还检查了数据集中的数据分布情况,以检查是否存在非随机模式。眼成像值通过了这一检验,但一些参与者的年龄值以一种在真实数据集中极为罕见的方式聚集在一起(年龄值以7或8结尾的参与者人数过多)。   研究报告的作者承认,只要仔细观察就能发现他们的数据集存在缺陷。但尽管如此,Giannaccare说,“如果你快速查看数据集,就很难识别出数据源的非人类来源。”   EMBO Reports杂志主编Bernd Pulverer也认为这是一个值得关注的问题,“现实中的同行评审通常不会对数据进行全面的重新分析,也不太可能发现人工智能精心设计的完整性漏洞。期刊需要更新质量检查,以识别人工智能生成的合成数据。”   Wilkinson正在开展一个合作项目,设计统计和非统计工具来评估可能存在问题的研究。“人工智能可能是问题的一部分,同样,也可能有基于人工智能的解决方案。我们也许可以自动进行一些检查。人工智能生成技术的进步可能很快就会提供规避这些协议的方法。”Pulverer对此表示同意:“只要知道筛查的目的,人工智能就可以很容易地将这些东西作为武器。”
  • 《ChatGPT和生成AI对科研意味着什么?》

    • 来源专题:科技期刊发展智库
    • 编译者:孟美任
    • 发布时间:2023-03-31
    • 2022年12月,计算生物学家Casey Greene和 Milton Pividori开展了一项实验:他们邀请一名非科学家助理润色了三篇研究论文。该助理在几秒钟内就修改完成,每篇论文大约用了五分钟审阅完成。在一份生物学论文中,该助手还发现了公式参考文献的错误。除了实验过程存在些许不顺利,但论文最终的可读性更强,并且每篇论文成本不到0.50 美元。Greene 和Pividori 在2023 年1 月23 日的预印本论文中表示,该助理不是一个人,而是一种名为GPT-3的人工智能算法,该算法于2020 年首次发布。它是一种生成式人工智能聊天机器人工具,无论是创作散文、诗歌、计算机编程,还是编辑研究论文都非常擅长。 这类工具也被称为大型语言模型(Large Language Models, LLM),其中最有名的是GPT-3的一个衍生版本——ChatGPT。由于其免费且易于访问,在2022年11月发布后一举成名。 美国宾夕法尼亚大学的Pividori表示,此类工具将帮助我们提高研究人员的工作效率。 其他科学家表示,他们现在经常使用大型语言模型,不仅用于修改论文,还用于编写、检查代码等工作。冰岛大学计算机科学家Hafsteinn Einarsson表示,每天都使用大型语言模型,最早使用的是GPT-3,后来改用ChatGPT辅助编写PPT、改学生试卷和课程作业,还能将学生作为转为学术论文。此外,许多人将其作为数字秘书或助理。 但LLM也引发了广泛的讨论,包括回答内容的真实性、用AI生成内容冒充自己的创作等。《自然》采访科研人员有关聊天机器人(如ChatGPT)的潜在用途(尤其在科学领域)时,他们兴奋中夹杂着忧虑。科罗拉多大学医学院的Greene表示,如果相信这项技术具有变革的潜力,那么必须对此感到紧张。科研人员认为,很多方面都将取决于未来的监管指南对 AI 对话机器人的使用限制。 (1)流畅但不真实 有学者认为,大型语言模型很适合用来提高写论文或写基金的效率,但需要严格把关。伦敦软件咨询公司InstaDeep的工程师表示,大型语言模型就像一个进阶版的Stack Overflow(一个程序员互问互答的热门论坛),每天都可以用来写代码。 与此同时,研究人员强调,大型语言模型给出的回答从根本上说是不可靠的,有时候还是错的。这种不可靠已经深入大型语言模型的构建方式。ChatGPT和它的竞争对手都是通过学习庞大在线文本数据库中的语言统计模式来运作的,这些文本中不乏谣言、偏见和已经过时的信息。当大型语言模型接到提示(即 prompt,如Greene等使用精心组织的语言提出重写论文部分章节的要求)后,它们会一字一句地吐出看上去符合语言习惯的任何回复,只要能让对话继续下去。结果就是大型语言模型很容易给出错误或误导人的信息,尤其是那些训练数据很有限的技术性话题。还有一点是大型语言模型无法给出准确的信息来源。如果你让它写论文,它会把参考文献给你编出来。《自然-机器智能》在2023年1月发表的一篇关于ChatGPT的社论中写道,这个工具在事实核查或提供可靠参考文献方面是不能被信任的。 如果研究人员有足够专业知识发现问题或能很容易验证答案对错,比如他们能判断某个解释或对代码的建议是否正确,那么ChatGPT和其他大型语言模型就能成为真正意义上的助手。不过,这些工具可能会误导一些初级用户。如2022年12月,Stack Overflow临时禁用了ChatGPT,因为管理者发现一些用户上传了大量由大型语言模型生成的回答,错误率很高。 (2)缺陷如何解决? 有些搜索引擎工具能解决大型语言模型在来源引用上的不足,例如面向科研人员的 Elicit能先根据提问搜索相关参考文献,再对搜索引擎找到的各个网站或文献进行概括归纳,生成看上去全带参考来源的内容(但是大型语言模型对不同文献的归纳仍有可能不准确)。 一些科研人员表示,目前来看,ChatGPT在技术性话题上还没有足够且专业的训练数据,所以用处并不大。哈佛大学的生物统计学博士生应用ChatGPT后表示其很难达到所需的专业水平。 一些科技公司开始使用专业的科研文献训练对话机器人。2022年11月,科技巨头Meta 发布了名为Galactica的大型语言模型,用学术摘要进行训练,有望在生成学术内容和回答科研问题方面具备一技之长。但是,其测试版在被用户拿来生成不准确和种族歧视的内容后即被下架(但代码依旧公开)。 (3)安全与责任 如果不对输出内容进行把控,大型语言模型就能被用来生成仇恨言论和垃圾信息,以及训练数据中可能存在种族歧视、性别歧视等其他有害联想。OpenAI在决定公开发布 ChatGPT时,曾试图回避很多这些问题。OpenAI让ChatGPT 的信息库截至到 2021 年为止,不让它浏览互联网,还通过安装过滤器防止 ChatGPT 对敏感或恶意的提示做出回应。不过,做到这一点需要人类管理员对庞杂的有害文本进行人工标记。 一个学术团队发布了另一个名叫 BLOOM 的大型语言模型。该团队试着用更少的精选多语言文本库来训练这个机器人。该团队还把它的训练数据完全公开。研究人员呼吁大型科技公司参照这种做法,但目前不清楚这些公司是否愿意。 还有一些研究人员认为学术界应该完全拒绝支持商用化的大型语言模型。除了偏见、安全顾虑和劳动剥削等问题,这些计算密集型算法还需要大量精力来训练,引发人们对它们生态足迹的关注。进一步的担忧还包括把思考过程交给自动化聊天机器,研究人员可能会丧失表达个人想法的能力。 另一个不明确的问题是一些大型语言模型的法律状态,这些大型语言模型是用网上摘录内容训练的,有些内容的权限处于灰色地带。版权法和许可法目前只针对像素、文本和软件的直接复制,但不限于对它们风格上的模仿。当这些由 AI 生成的模仿内容是通过输入原版内容来训练的,问题也随之而来。 (4)强制诚信使用 因此,一些研究人员相信,给这些工具设立边界可能十分必要。当前关于歧视和偏见的法律(以及对 AI 恶意用途实施有计划的监管)有助于维护大型语言模型使用的诚信、透明、公正。与此同时,人们也在倡导大型语言模型的使用需要更透明的披露。学术出版机构(包括《自然》的出版商)已经表示,科研人员应当在论文中披露大型语言模型的使用。《科学》则更进一步,要求所有论文中都不得使用ChatGPT 或其他任何 AI 工具生成的文本。 这里有一个关键的技术问题:AI 生成的内容是否能被发现。许多科研人员正在进行这方面的研究,核心思路是让大型语言模型自己去“揪” AI 生成的文本。 2022 年 12 月,美国普林斯顿大学的计算机科学研究生Edward Tian推出了GPTZero,这是一个 AI 检测工具,能从困惑度和突发性两个角度分析文本。OpenAI 本身已推出了 GPT-2 的检测器,并在 今年1月发布了另一个检测工具。不过,这些工具中还没有哪个敢自称绝不出错,尤其是在 AI 生成的文本经过人工编辑的情况下。OpenAI表示,在测试中,其最新工具将人类写的文本误判为 AI 生成文本的错误率为 9%,而且只能正确辨认出 26%的 AI 生成文本。 与此同时,大型语言模型的开发者正在构建更大型的数据集,打造更智能的聊天机器人(OpenAI 拟在今年推出 GPT-4),包括专门面向学术或医疗领域的机器人。2022 年12 月底,谷歌和 DeepMind 发布了一篇预印本论文,提前预告了名为 Med-PaLM 的临床专业大型语言模型。这个工具可以回答一些开放式的医学问题,水平与普通人类医师相当,但仍有缺陷和不可靠的问题。美国加州斯克利普斯研究所主任 Eric Topol 表示,他希望将来整合了大型语言模型功能的 AI 能将全身扫描与学术文献中的内容进行交叉验证,帮助诊断癌症,甚至理解癌症。但他强调,这一切都需要专业人士的监督。 生成式 AI 背后的计算机科学发展迅速,基本每个月都会有新成果。研究人员如何使用这些工具不仅决定了它们的未来,也决定了人类的未来。 参考文献:1. Nature Portfolio. ChatGPT与科研:革新与隐患共存| 《自然》长文. https://mp.weixin.qq.com/s/qHYbDfDY8S47mXK65TsF_A. 2. Pividori, M. & Greene, C. S. Preprint at bioRxiv https://doi.org/10.1101/2023.01.21.525030 (2023). 3. GPT, Osmanovic Thunstr?m, A. & Steingrimsson, S. Preprint at HAL https://hal.science/hal-03701250 (2022). 4. Nature Mach. Intell. 5, 1 (2023). 5. Glaese, A. et al. Preprint at https://arxiv.org/abs/2209.14375 (2022). 6. Thorp, H. H. Science379, 313 (2023). 7. Kirchenbauer, J. et al. Preprint at https://arxiv.org/abs/2301.10226 (2023). 8. Singhal, K. et al. Preprint at https://arxiv.org/abs/2212.13138 (2022).