一款扫描手稿标题和摘要的人工智能(AI)工具,已标记出超过 25 万篇癌症研究论文,这些论文在文本上与已知由论文工厂生产的文章存在相似之处。这些公司生产虚假或低质量的研究论文并出售作者身份。
论文工厂生产的文章通常包含伪造数据、重复图片和奇怪的短语,这些奇怪的措辞选择是为了规避抄袭检测器。诚信专家和侦探可以发现这些缺陷,但这个过程耗时,而且在许多情况下,论文工厂的参与无法被证实,因此量化问题的规模很困难。
但澳大利亚布里斯班昆士兰科技大学的统计学家阿德里安·巴内特(Adrian Barnett)表示,论文工厂可能依赖样板模板来批量生产论文,这可以通过分析文本模式的 LLMs 来检测。巴内特和他的同事开发了一个模型,并于上个月在预印本服务器 bioRxiv 上发布了他们的分析 1 。该分析尚未经过同行评审。他们强调,他们的发现应由人类专家进行核查,并非已确认的研究欺诈案例。
伦敦研究诚信公司 Clear Skies 的创始人亚当·戴(Adam Day)表示,该分析的估算结果与他公司开发的名为“造纸厂警报”(Papermill Alarm)的研究诚信筛选软件所识别的结果相似。但他提醒说,预印本作者使用的方法可能会标记合法的论文,需要进一步验证。
疑似论文工厂
巴内特和他的同事训练了一个名为 BERT 的语言模型,以区分“真实”的癌症研究和被研究诚信博客 Retraction Watch 维护的公共数据库列为涉及“疑似论文工厂活动”的撤回论文。BERT 模型扫描标题和摘要中与论文工厂活动相关的特定词语和短语,其过程类似于过滤垃圾邮件。
学术出版专家、Retraction Watch 的联合创始人伊万·奥兰斯基(Ivan Oransky)表示,撤稿通知很少说明某项研究是由论文工厂公司按订单创建的,但 Retraction Watch 根据其报道和对数千份通知的审查,制定了自己的标准,将撤回论文指定为疑似论文工厂文章。
在筛选摘要和标题后,该人工智能工具为每篇文章打分,评估其与疑似撤稿论文工厂产品的相似度。在一项针对 276 篇已撤稿论文和 275 篇未包含在训练数据中的真实论文的测试中,BERT 的准确率达到 91%。假阴性率——即该工具未能识别出的论文工厂文章所占比例——约为 13%(276 篇中的 37 篇)。假阳性率——即被错误标记为论文工厂产品的真实论文数量——约为 4%(275 篇中的 12 篇)。
然后,该人工智能工具被用于筛选 260 万篇癌症研究论文——这些论文是从 PubMed 生物医学文献数据库中识别出来的,发表于 1999 年至 2024 年间的 11,632 种期刊。该工具识别出其中 261,245 篇论文疑似为论文工厂文章,其中大部分是基础研究。
该分析还表明,论文工厂的活动在过去二十年中急剧增加。在 21 世纪初,只有 1%的癌症论文被人工智能工具标记为可能由论文工厂生产,但这一比例在 21 世纪 20 年代初增长到 15%以上,在 2022 年达到 16.6%的峰值,随后在 2023 年和 2024 年有所下降。
但戴伊表示,这些结果可能包括许多合法的论文。训练数据中真实论文和问题论文数量相等,并不能准确代表研究文献,因为欺诈性论文在研究文献中要罕见得多。他认为,这种不匹配可能会在应用于真实世界数据时夸大误报率。
法国雷恩食品、农业和环境高等教育与研究学院的数据科学家、该研究的合著者巴蒂斯特·斯坎卡(Baptiste Scancar)表示,研究团队发现“没有证据”表明其分析中预测的论文工厂文章比例被夸大。他补充说:“癌症研究中论文工厂文章的真实比例尚不清楚,可能非常高。”“我们认为手稿中报告的数字被低估了。”
下一步
伦敦科技公司 Digital Science 负责研究诚信的副总裁莱斯利·麦金托什(Leslie McIntosh)表示,必须从多个方面着手解决论文工厂的祸害。“出版商在这方面绝对有责任。作者也有责任。资助者也有责任。这些作者所在的机构也有责任,”麦金托什说。(Digital Science 是霍尔茨布林克出版集团的一部分,该集团是《自然》杂志出版商施普林格·自然的主要股东。《自然》杂志的新闻团队在编辑上是独立的。)
威利(Wiley)是其部分研究被标记为论文工厂生产的出版商之一,其发言人告诉《自然》杂志:“我们欢迎所有旨在识别和打击系统性操纵所带来的日益增长的威胁的努力,这项研究和其他近期研究都强调了这一点。”该发言人说:“作者们开发了一个创新的框架,利用人工智能来识别潜在问题论文,我们威利也正在采用这种技术主导但经人工验证的方法。”
西蒙娜·库尔吉奥尼(Simone Culurgioni)是施普林格·自然(Springer Nature)的研究诚信团队负责人,该出版商也是此次分析中涉及的出版商之一。她表示,公司一直在开发此类技术来识别有问题的内容。“这些模型很复杂,微小的研究方法和数据变化都可能产生截然不同的结果,因此对研究结果应始终谨慎解读。”
Barnett 表示,目前有三家期刊正在使用 BERT 人工智能系统筛选收到的癌症投稿。他补充说,该工具可以在稿件送审前标记出可疑稿件,但由于它无法证明研究不端行为,因此对稿件进行人工审查仍然至关重要。作者表示,他们计划进一步改进他们的模型。