《低质量论文充斥癌症文献——这款人工智能工具能帮助识别它们吗?》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2025-10-19
  • 一款扫描手稿标题和摘要的人工智能(AI)工具,已标记出超过 25 万篇癌症研究论文,这些论文在文本上与已知由论文工厂生产的文章存在相似之处。这些公司生产虚假或低质量的研究论文并出售作者身份。

    论文工厂生产的文章通常包含伪造数据、重复图片和奇怪的短语,这些奇怪的措辞选择是为了规避抄袭检测器。诚信专家和侦探可以发现这些缺陷,但这个过程耗时,而且在许多情况下,论文工厂的参与无法被证实,因此量化问题的规模很困难。

    但澳大利亚布里斯班昆士兰科技大学的统计学家阿德里安·巴内特(Adrian Barnett)表示,论文工厂可能依赖样板模板来批量生产论文,这可以通过分析文本模式的 LLMs 来检测。巴内特和他的同事开发了一个模型,并于上个月在预印本服务器 bioRxiv 上发布了他们的分析 1 。该分析尚未经过同行评审。他们强调,他们的发现应由人类专家进行核查,并非已确认的研究欺诈案例。

    伦敦研究诚信公司 Clear Skies 的创始人亚当·戴(Adam Day)表示,该分析的估算结果与他公司开发的名为“造纸厂警报”(Papermill Alarm)的研究诚信筛选软件所识别的结果相似。但他提醒说,预印本作者使用的方法可能会标记合法的论文,需要进一步验证。

    疑似论文工厂

    巴内特和他的同事训练了一个名为 BERT 的语言模型,以区分“真实”的癌症研究和被研究诚信博客 Retraction Watch 维护的公共数据库列为涉及“疑似论文工厂活动”的撤回论文。BERT 模型扫描标题和摘要中与论文工厂活动相关的特定词语和短语,其过程类似于过滤垃圾邮件。

    学术出版专家、Retraction Watch 的联合创始人伊万·奥兰斯基(Ivan Oransky)表示,撤稿通知很少说明某项研究是由论文工厂公司按订单创建的,但 Retraction Watch 根据其报道和对数千份通知的审查,制定了自己的标准,将撤回论文指定为疑似论文工厂文章。

    在筛选摘要和标题后,该人工智能工具为每篇文章打分,评估其与疑似撤稿论文工厂产品的相似度。在一项针对 276 篇已撤稿论文和 275 篇未包含在训练数据中的真实论文的测试中,BERT 的准确率达到 91%。假阴性率——即该工具未能识别出的论文工厂文章所占比例——约为 13%(276 篇中的 37 篇)。假阳性率——即被错误标记为论文工厂产品的真实论文数量——约为 4%(275 篇中的 12 篇)。

    然后,该人工智能工具被用于筛选 260 万篇癌症研究论文——这些论文是从 PubMed 生物医学文献数据库中识别出来的,发表于 1999 年至 2024 年间的 11,632 种期刊。该工具识别出其中 261,245 篇论文疑似为论文工厂文章,其中大部分是基础研究。

    该分析还表明,论文工厂的活动在过去二十年中急剧增加。在 21 世纪初,只有 1%的癌症论文被人工智能工具标记为可能由论文工厂生产,但这一比例在 21 世纪 20 年代初增长到 15%以上,在 2022 年达到 16.6%的峰值,随后在 2023 年和 2024 年有所下降。

    但戴伊表示,这些结果可能包括许多合法的论文。训练数据中真实论文和问题论文数量相等,并不能准确代表研究文献,因为欺诈性论文在研究文献中要罕见得多。他认为,这种不匹配可能会在应用于真实世界数据时夸大误报率。

    法国雷恩食品、农业和环境高等教育与研究学院的数据科学家、该研究的合著者巴蒂斯特·斯坎卡(Baptiste Scancar)表示,研究团队发现“没有证据”表明其分析中预测的论文工厂文章比例被夸大。他补充说:“癌症研究中论文工厂文章的真实比例尚不清楚,可能非常高。”“我们认为手稿中报告的数字被低估了。”

    下一步

    伦敦科技公司 Digital Science 负责研究诚信的副总裁莱斯利·麦金托什(Leslie McIntosh)表示,必须从多个方面着手解决论文工厂的祸害。“出版商在这方面绝对有责任。作者也有责任。资助者也有责任。这些作者所在的机构也有责任,”麦金托什说。(Digital Science 是霍尔茨布林克出版集团的一部分,该集团是《自然》杂志出版商施普林格·自然的主要股东。《自然》杂志的新闻团队在编辑上是独立的。)

    威利(Wiley)是其部分研究被标记为论文工厂生产的出版商之一,其发言人告诉《自然》杂志:“我们欢迎所有旨在识别和打击系统性操纵所带来的日益增长的威胁的努力,这项研究和其他近期研究都强调了这一点。”该发言人说:“作者们开发了一个创新的框架,利用人工智能来识别潜在问题论文,我们威利也正在采用这种技术主导但经人工验证的方法。”

    西蒙娜·库尔吉奥尼(Simone Culurgioni)是施普林格·自然(Springer Nature)的研究诚信团队负责人,该出版商也是此次分析中涉及的出版商之一。她表示,公司一直在开发此类技术来识别有问题的内容。“这些模型很复杂,微小的研究方法和数据变化都可能产生截然不同的结果,因此对研究结果应始终谨慎解读。”

    Barnett 表示,目前有三家期刊正在使用 BERT 人工智能系统筛选收到的癌症投稿。他补充说,该工具可以在稿件送审前标记出可疑稿件,但由于它无法证明研究不端行为,因此对稿件进行人工审查仍然至关重要。作者表示,他们计划进一步改进他们的模型。


  • 原文来源:https://doi.org/10.1038/d41586-025-02906-y
相关报告
  • 《美国开发出能预测人类肺癌风险的人工智能工具》

    • 来源专题:生物安全
    • 编译者:闫亚飞
    • 发布时间:2023-02-19
    • 据生物谷网1月30日消息,美国麻省理工学院科研团队开发出可预测人群患肺癌风险的人工智能工具“Sybil”。研究人员基于全美肺部筛查试验数据开发出的深度学习模型,能够不依赖临床数据或放射科的结果注释,仅通过一份低剂量胸部计算机断层扫描(LDCT)结果的扫描分析,预测出个体未来1-6年患肺癌的风险。该模型将在标准放射科读片站后台实时运行,为临床决策提供支持。Sybil工具实现了利用图像观察集体生物学并对癌症风险进行预测,降低人工评估个体的环境和遗传风险影响,可进一步提升肺癌个体化筛查和诊断效率。相关研究成果发表于Journal of Clinical Oncology期刊。
  • 《前沿 | 人工智能工具可根据活检图像预测癌症基因活动》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:胡思思
    • 发布时间:2024-11-15
    • 一项名为SEQUOIA的新型AI程序可以分析肿瘤活检的显微镜图像(左图,紫色),并快速确定其中所含细胞中可能开启和关闭的基因(右侧以红色和蓝色阴影显示基因表达) 为了确定癌症的类型和严重程度,病理学家通常在显微镜下分析肿瘤活检薄片。但要弄清楚哪些基因组变化驱动了肿瘤的生长(这些信息可以指导如何治疗),科学家必须对从肿瘤中分离出的 RNA 进行基因测序,这个过程可能需要数周时间,花费数千美元。 现在,斯坦福医学院的研究人员开发了一种人工智能计算程序,该程序可以仅基于活检的标准显微镜图像来预测肿瘤细胞内数千个基因的活动。 该工具于 11 月 14 日在《自然通讯》杂志上发表,使用来自 7,000 多个不同肿瘤样本的数据创建。该团队表明,它可以使用常规收集的活检图像来预测乳腺癌的基因变异并预测患者的治疗结果。 “这种软件可以用来快速识别患者肿瘤中的基因特征,加快临床决策并为医疗保健系统节省数千美元,”生物医学数据科学教授兼论文资深作者 Olivier Gevaert 博士说。 这项工作还由斯坦福大学研究生 Marija Pizuria 和博士后研究员 Yuanning Zheng 博士和 Francisco Perez 博士领导。 基因组学驱动 临床医生越来越多地指导选择癌症治疗方法(包括化疗、免疫疗法和激素疗法),推荐给患者,不仅基于患者的癌症影响哪个器官,还基于肿瘤利用哪些基因来促进其生长和扩散。开启或关闭某些基因可能会使肿瘤更具侵袭性、更容易转移,或对某些药物产生反应的可能性增加或减少。 然而,获取这些信息通常需要昂贵且耗时的基因组测序。 Gevaert 和他的同事知道,单个细胞内的基因活动可以改变这些细胞的外观,而这种改变往往是人眼无法察觉的。他们求助于人工智能来寻找这些模式。 研究人员首先从 16 种不同癌症类型的 7,584 例癌症活检样本开始。每例活检样本都被切成薄片,并使用一种称为苏木精和伊红染色的方法进行准备,这种方法是观察癌细胞整体外观的标准方法。研究人员还提供了有关癌症转录组(即细胞正在积极使用的基因)的信息。 工作模型 研究人员整合了新的癌症活检样本以及其他数据集(包括来自数千个健康细胞的转录组数据和图像),该人工智能程序(他们将其命名为 SEQUOIA(使用线性注意的基于幻灯片的表达量化))能够从染色图像中预测超过 15,000 种不同基因的表达模式。 对于某些癌症类型,AI 预测的基因活动与真实基因活动数据的相关性超过 80%。一般而言,初始数据中包含的某种癌症类型的样本越多,模型对该癌症类型的预测效果就越好。 Gevaert 表示:“我们经过多次迭代才让该模型达到我们满意的水平。但最终对于某些类型的肿瘤来说,它已经达到了可以在临床上使用的水平。” Gevaert 指出,医生在做出临床决策时,通常不会一次查看一个基因,而是查看包含数百个不同基因的基因特征。例如,许多癌细胞会激活与炎症相关的数百个基因,或与细胞生长相关的数百个基因。与其预测单个基因表达的表现相比,SEQUOIA 在预测如此大的基因组程序是否被激活方面的表现更为准确。 为了使数据易于获取和解释,研究人员对 SEQUOIA 进行了编程,将基因发现显示为肿瘤活检的可视图,让科学家和临床医生看到肿瘤不同区域的基因变异有何不同。 预测患者治疗结果 为了测试 SEQUOIA 在临床决策中的实用性,Gevaert 和他的同事确定了乳腺癌基因,该模型可以准确预测这些基因的表达,这些基因已用于商业乳腺癌基因组测试。(例如,美国食品和药物管理局批准的 MammaPrint 测试分析了 70 种乳腺癌相关基因的水平,为患者提供癌症复发风险的评分。) Gevaert 表示:“乳腺癌具有许多经过深入研究的基因特征,这些特征在过去十年中已被证明与治疗反应和患者结果高度相关。这使其成为我们模型的理想测试案例。” 研究团队表示,SEQUOIA 仅使用肿瘤活检染色图像即可提供与 MammaPrint 相同类型的基因组风险评分。研究人员在多组不同的乳腺癌患者身上重复了这一结果。在每例中,被 SEQUOIA 确定为高风险的患者预后较差,癌症复发率较高,且癌症复发时间较短。 该人工智能模型目前还不能在临床环境中使用——它需要在临床试验中进行测试并获得 FDA 批准,然后才能用于指导治疗决策——但 Gevaert 表示,他的团队正在改进该算法并研究其潜在应用。他说,未来 SEQUOIA 可以减少对昂贵的基因表达测试的需求。 “我们已经证明了这种方法对乳腺癌的实用性,现在我们可以将它用于所有癌症,并查看任何基因特征,”他说。“这是我们以前没有的全新数据来源。”