《美国医学会眼科学杂志》(JAMA Ophthalmology)于2023年11月9日发表一篇论文,作者使用GPT-4和Python语言模型ADA(Advanced Data Analysis)执行统计分析并实现数据可视化。人工智能生成的数据比较了两种外科手术的结果,并错误地指出一种治疗方法优于另一种。
研究报告的合作者、意大利卡利亚里大学眼科外科医生Giuseppe Giannaccare说:“我们的目的是要强调,在几分钟内,你就可以创建一个没有真实原始数据支持的数据集,而且与现有的证据相比,它站在对立面上。”
人工智能编造令人信服的数据的能力增加了研究人员和期刊编辑对研究完整性的担忧。
加利福尼亚州旧金山的微生物学家兼独立研究诚信顾问Elisabeth Bik说:“生成式人工智能可以生成使用剽窃软件无法检测到的文本,并且它能够创建虚假但逼真的数据集,这就更令人担忧了。这将使任何研究人员或研究小组都能非常容易地对不存在的病人进行虚假检测,对问卷进行虚假回答,或在动物实验中生成大量的数据集”。
作者将这些结果描述为一个“看似真实的数据库”。但经专家检查后发现,这些数据未能通过真实性检查,并含有明显捏造迹象。
手术对比
作者要求 GPT-4和ADA创建一个有关角膜炎患者的数据集,角膜炎会导致角膜变薄,从而影响聚焦和视力。对于15-20%的角膜炎患者来说,治疗方法包括角膜移植手术和穿透性角膜移植手术。第一种方法是穿透性角膜移植术(Penetrating Keratoplasty, PK),通过手术切除所有受损的角膜层,并用捐献者的健康组织替换。第二种方法是深前板层角膜移植术(Deep Anterior Lamellar Keratoplasty, DALK),只替换角膜的前层,保留最内层。
作者指示大型语言模型编造数据,以支持DALK比PK效果更好的结论。为此,他们要求该模型在一项评估角膜形状和检测不规则角膜的成像测试中显示出统计学差异,并显示出试验参与者在手术前后视力的差异。
人工智能生成的数据包括160名男性和140名女性。结果显示,接受DALK手术的人在视力和成像测试中的得分都比接受PK手术的人高,这一结果与真正的临床试验显示的结果不符。
“创建至少表面上可信的数据集似乎很容易。”——英国曼彻斯特大学的生物统计学家Jack Wilkinson说。Wilkinson对检测不真实数据的方法很感兴趣,他检查了几个由大型语言模型早期版本生成的数据集,他说这些数据集在仔细检查时缺乏令人信服的元素,因为它们难以捕捉变量之间的真实关系。
更严密的审查
应Nature新闻团队的要求,Wilkinson和他的同事Zewen Lu使用一种旨在检查真实性的筛选方案对假数据集进行评估。结果显示,术前和术后的视力测量结果与眼成像测试结果之间没有相关性。他们还检查了数据集中的数据分布情况,以检查是否存在非随机模式。眼成像值通过了这一检验,但一些参与者的年龄值以一种在真实数据集中极为罕见的方式聚集在一起(年龄值以7或8结尾的参与者人数过多)。
研究报告的作者承认,只要仔细观察就能发现他们的数据集存在缺陷。但尽管如此,Giannaccare说,“如果你快速查看数据集,就很难识别出数据源的非人类来源。”
EMBO Reports杂志主编Bernd Pulverer也认为这是一个值得关注的问题,“现实中的同行评审通常不会对数据进行全面的重新分析,也不太可能发现人工智能精心设计的完整性漏洞。期刊需要更新质量检查,以识别人工智能生成的合成数据。”
Wilkinson正在开展一个合作项目,设计统计和非统计工具来评估可能存在问题的研究。“人工智能可能是问题的一部分,同样,也可能有基于人工智能的解决方案。我们也许可以自动进行一些检查。人工智能生成技术的进步可能很快就会提供规避这些协议的方法。”Pulverer对此表示同意:“只要知道筛查的目的,人工智能就可以很容易地将这些东西作为武器。”