《ChatGPT生成虚假数据集以支持科学假设》

  • 来源专题:科技期刊发展智库
  • 编译者: 孟美任
  • 发布时间:2024-02-22
  •   《美国医学会眼科学杂志》(JAMA Ophthalmology)于2023年11月9日发表一篇论文,作者使用GPT-4和Python语言模型ADA(Advanced Data Analysis)执行统计分析并实现数据可视化。人工智能生成的数据比较了两种外科手术的结果,并错误地指出一种治疗方法优于另一种。

      研究报告的合作者、意大利卡利亚里大学眼科外科医生Giuseppe Giannaccare说:“我们的目的是要强调,在几分钟内,你就可以创建一个没有真实原始数据支持的数据集,而且与现有的证据相比,它站在对立面上。”

      人工智能编造令人信服的数据的能力增加了研究人员和期刊编辑对研究完整性的担忧。

      加利福尼亚州旧金山的微生物学家兼独立研究诚信顾问Elisabeth Bik说:“生成式人工智能可以生成使用剽窃软件无法检测到的文本,并且它能够创建虚假但逼真的数据集,这就更令人担忧了。这将使任何研究人员或研究小组都能非常容易地对不存在的病人进行虚假检测,对问卷进行虚假回答,或在动物实验中生成大量的数据集”。

      作者将这些结果描述为一个“看似真实的数据库”。但经专家检查后发现,这些数据未能通过真实性检查,并含有明显捏造迹象。

      手术对比

      作者要求 GPT-4和ADA创建一个有关角膜炎患者的数据集,角膜炎会导致角膜变薄,从而影响聚焦和视力。对于15-20%的角膜炎患者来说,治疗方法包括角膜移植手术和穿透性角膜移植手术。第一种方法是穿透性角膜移植术(Penetrating Keratoplasty, PK),通过手术切除所有受损的角膜层,并用捐献者的健康组织替换。第二种方法是深前板层角膜移植术(Deep Anterior Lamellar Keratoplasty, DALK),只替换角膜的前层,保留最内层。

      作者指示大型语言模型编造数据,以支持DALK比PK效果更好的结论。为此,他们要求该模型在一项评估角膜形状和检测不规则角膜的成像测试中显示出统计学差异,并显示出试验参与者在手术前后视力的差异。

      人工智能生成的数据包括160名男性和140名女性。结果显示,接受DALK手术的人在视力和成像测试中的得分都比接受PK手术的人高,这一结果与真正的临床试验显示的结果不符。

      “创建至少表面上可信的数据集似乎很容易。”——英国曼彻斯特大学的生物统计学家Jack Wilkinson说。Wilkinson对检测不真实数据的方法很感兴趣,他检查了几个由大型语言模型早期版本生成的数据集,他说这些数据集在仔细检查时缺乏令人信服的元素,因为它们难以捕捉变量之间的真实关系。

      更严密的审查

      应Nature新闻团队的要求,Wilkinson和他的同事Zewen Lu使用一种旨在检查真实性的筛选方案对假数据集进行评估。结果显示,术前和术后的视力测量结果与眼成像测试结果之间没有相关性。他们还检查了数据集中的数据分布情况,以检查是否存在非随机模式。眼成像值通过了这一检验,但一些参与者的年龄值以一种在真实数据集中极为罕见的方式聚集在一起(年龄值以7或8结尾的参与者人数过多)。

      研究报告的作者承认,只要仔细观察就能发现他们的数据集存在缺陷。但尽管如此,Giannaccare说,“如果你快速查看数据集,就很难识别出数据源的非人类来源。”

      EMBO Reports杂志主编Bernd Pulverer也认为这是一个值得关注的问题,“现实中的同行评审通常不会对数据进行全面的重新分析,也不太可能发现人工智能精心设计的完整性漏洞。期刊需要更新质量检查,以识别人工智能生成的合成数据。”

      Wilkinson正在开展一个合作项目,设计统计和非统计工具来评估可能存在问题的研究。“人工智能可能是问题的一部分,同样,也可能有基于人工智能的解决方案。我们也许可以自动进行一些检查。人工智能生成技术的进步可能很快就会提供规避这些协议的方法。”Pulverer对此表示同意:“只要知道筛查的目的,人工智能就可以很容易地将这些东西作为武器。”

相关报告
  • 《ChatGPT 生成虚假数据集以支持科学假设》

    • 来源专题:数智化图书情报
    • 编译者:程冰
    • 发布时间:2023-12-01
    • 2023年11月22日,nature新闻发表Miryam Naddaf的报道,ChatGPT背后的模型伪造了一个令人信服的虚假数据库,但法医检查表明,它并不符合真实性. 研究人员利用人工智能(AI)聊天机器人 ChatGPT 背后的技术,创建了一个假的临床试验数据集,以支持一个未经证实的科学说法。 为 ChatGPT 提供动力的人工智能模型可以创建表面上看似合理的科学数据集,作者将这些结果描述为“看似真实的数据库”。但是当专家检查时,这些数据没有通过真实性检查,并且包含了捏造的迹象。 在11月9日发表在《美国医学会杂志 · 眼科学》(JAMA Ophthalmology)上的一篇论文中,作者使用了ChatGPT4 与高级数据分析(Advanced Data Analysis,ADA)相结合,ADA 模型结合了编程语言 Python,可执行统计分析并创建数据可视化,AI 生成的数据比较了两种外科手术的结果,错误地指出一种治疗方法优于另一种。 EMBO Reports 主编 Bernd Pulverer 认为这是一个值得关注的问题。他表示,同行评议在现实中不会进行全面的数据再分析,也不可能发现利用人工智能精心设计的诚信缺失。”期刊将需要更新质量检查,以识别人工智能生成的合成数据。 以上编译报道如需转载请注明出处。
  • 《COPE发起“人工智能(AI)和虚假论文”的讨论》

    • 来源专题:科技期刊发展智库
    • 编译者:王传清
    • 发布时间:2023-05-17
    • 2022年以来,人工智能(AI)在研究论文的撰写、创作和出版全流程中发挥重要作用。这对研究的完整性产生了重大影响,需要人们改进手段和工具来检测虚假的研究。虚假论文的出现以及个人和组织操纵同行评审系统,促使编辑和出版商制定措施来识别和处理其中的一些欺诈行为。然而,由于双方的策略和工具都在不断发展,对虚假论文的检测仍然很困难。 随着论文工厂(以盈利为目的、非官方的、也可能是非法组织,他们生产和销售看起来像真正研究的虚假手稿)的激增,以及最近高级写作和图像创作工具的发布,COPE在2023年3月23日举办的论坛上提出了围绕使用人工智能创建虚假论文和基于有效研究的论文制作的各种伦理问题,目标是讨论作者身份、偏见、原创性以及使用人工智能工具来对抗人工智能欺诈等。 在本次COPE论坛讨论的问题包括: (1)作者使用人工智能撰写学术文章是可以接受的、符合道德的做法吗? (2)我们能检测出一篇文章是否由人工智能生成的吗?这样做重要吗?为什么? (3)由人工智能在现有文章上训练出来的文章能被认为是原创吗? (4)人工智能生成的文本对文字、图像和思想(用现有文章训练的算法)的抄袭有什么影响? (5)同行评审是否可以完全由专门的人工智能工具进行(旨在检测欺诈和验证数据和数字)? (6)如果由人工智能写文章或进行同行评议,它能带来什么样的偏见? (7)在公平性和包容性方面需要考虑哪些因素(例如,对于可能使用人工智能工具作为辅助或适应性技术的残疾学者)? 讨论会主持人: Sarah Elaine Eaton博士,卡尔加里大学副教授。COPE理事会成员。 Marie Souliére博士,Frontiers高级出版经理。COPE理事会成员。 部分评论: Susan Garfinkel:随着越来越多的人工智能和虚假论文的问题被发现,我想听听期刊在发现这类问题时是怎么做的,还有就是当问题可能被提交给机构时,他们的期望是什么。我之所以这么问,是因为各机构都在纠结什么是处理这些问题的最佳方式。 Bridget Sheppard:我对ChatGPT如何回答第一个问题很感兴趣,它说:“我可以被作者用来协助撰写学术论文。然而,重要的是要注意,我只是一个工具,而不是批判性思维和领域专业知识的替代品,而批判性思维和专业知识是撰写高质量学术论文所必需的。我可以帮助完成一些任务,比如总结研究,产生想法,建议参考文献,甚至是初稿,但最终还是要由作者来验证所提供的信息。作者应确保内容准确、相关并被恰当引用。在写作过程中说明使用了语言模型是很重要的。” Gary Balian:关于人工智能和出版伦理的讨论非常有用,内容丰富。(1)如果能读到COPE与编辑分享的任何准则,会有助于我们对使用人工智能软件生成论文的作者的处理方式。(2)如果有更多关于可以检测在准备稿件时使用人工智能的程序的信息,与出版商和编辑分享这些信息将非常有用。(3)开发能够识别以表格、图像和图表形式呈现的数据的上下文相似性的软件可能更具挑战性,但可能成为同行评审时做出决定的关键。(4)同时,在开始同行评审过程之前,使用iThenticate进行交叉参考相似性检查已经成为一个重要的步骤。