《利用AI和公共数据集,低质量论文数量激增》

  • 编译者: 程冰
  • 发布时间:2025-07-23
  • 2025年5月14日《科学》杂志新闻栏目报道,作者利用公共数据集和AI技术,导致低质量论文数量激增,论文工厂可能助长了“虚假发现”。

    萨里大学统计学家Matt Spick发现,其担任副主编的《科学报告》期刊每天收到1-2篇高度雷同的论文,均基于国家健康与营养调查(NHANES)等公共数据集的研究。2024年10月前的统计显示,此类论文数量从2014-2021年的年均4篇飙升至2024年的190篇,增长近50倍。

    Spick发现,收到的NHANES 论文都遵循相同的模式,选择健康问题(如抑郁症)、关联因素(如维生素D水平)和特定人群(如65岁以上男性),通过排列组合生成"新发现",好像每一种可能的组合都有人在研究。一些较新的 NHANES 研究,选择性地分析了其数据集的部分内容,却没有明确的理由,缺乏科学依据。例如,28项关于抑郁症的研究中,仅13项通过假阳性校正检验,显示超半数结论可能为统计噪声。

    悉尼大学分子生物学家Jennifer Byrne指出,AI工具(如ChatGPT)被用于批量改写内容规避查重,这种操作难以溯源但具有明显组织性特征。

    西北大学的元科学家Reese Richardson表示,这些免费数据源几乎允许任何人采用已知的研究方法,替换其中的变量,从而创造出新的“发现”,就像一种“研究填词游戏”。他表示,其他研究人员在多个主题中也发现了类似的“爆发”现象,包括遗传学研究、对不同科学学科中的文献计量或性别差异分析。

    Richardson表示,这些论文反映了科学出版和研究奖励机制中的广泛问题,“文章中提到的所有出版商都接受了费用,可能每篇约为 1000 美元,以发表这些垃圾论文。” 当前的科学出版机制是研究人员被激励发表更多论文,而不是更高质量的论文。除非我们彻底重构科学出版的激励机制,否则问题“只会变得更糟”。


相关报告
  • 《COPE发起“人工智能(AI)和虚假论文”的讨论》

    • 来源专题:科技期刊发展智库
    • 编译者:王传清
    • 发布时间:2023-05-17
    • 2022年以来,人工智能(AI)在研究论文的撰写、创作和出版全流程中发挥重要作用。这对研究的完整性产生了重大影响,需要人们改进手段和工具来检测虚假的研究。虚假论文的出现以及个人和组织操纵同行评审系统,促使编辑和出版商制定措施来识别和处理其中的一些欺诈行为。然而,由于双方的策略和工具都在不断发展,对虚假论文的检测仍然很困难。 随着论文工厂(以盈利为目的、非官方的、也可能是非法组织,他们生产和销售看起来像真正研究的虚假手稿)的激增,以及最近高级写作和图像创作工具的发布,COPE在2023年3月23日举办的论坛上提出了围绕使用人工智能创建虚假论文和基于有效研究的论文制作的各种伦理问题,目标是讨论作者身份、偏见、原创性以及使用人工智能工具来对抗人工智能欺诈等。 在本次COPE论坛讨论的问题包括: (1)作者使用人工智能撰写学术文章是可以接受的、符合道德的做法吗? (2)我们能检测出一篇文章是否由人工智能生成的吗?这样做重要吗?为什么? (3)由人工智能在现有文章上训练出来的文章能被认为是原创吗? (4)人工智能生成的文本对文字、图像和思想(用现有文章训练的算法)的抄袭有什么影响? (5)同行评审是否可以完全由专门的人工智能工具进行(旨在检测欺诈和验证数据和数字)? (6)如果由人工智能写文章或进行同行评议,它能带来什么样的偏见? (7)在公平性和包容性方面需要考虑哪些因素(例如,对于可能使用人工智能工具作为辅助或适应性技术的残疾学者)? 讨论会主持人: Sarah Elaine Eaton博士,卡尔加里大学副教授。COPE理事会成员。 Marie Souliére博士,Frontiers高级出版经理。COPE理事会成员。 部分评论: Susan Garfinkel:随着越来越多的人工智能和虚假论文的问题被发现,我想听听期刊在发现这类问题时是怎么做的,还有就是当问题可能被提交给机构时,他们的期望是什么。我之所以这么问,是因为各机构都在纠结什么是处理这些问题的最佳方式。 Bridget Sheppard:我对ChatGPT如何回答第一个问题很感兴趣,它说:“我可以被作者用来协助撰写学术论文。然而,重要的是要注意,我只是一个工具,而不是批判性思维和领域专业知识的替代品,而批判性思维和专业知识是撰写高质量学术论文所必需的。我可以帮助完成一些任务,比如总结研究,产生想法,建议参考文献,甚至是初稿,但最终还是要由作者来验证所提供的信息。作者应确保内容准确、相关并被恰当引用。在写作过程中说明使用了语言模型是很重要的。” Gary Balian:关于人工智能和出版伦理的讨论非常有用,内容丰富。(1)如果能读到COPE与编辑分享的任何准则,会有助于我们对使用人工智能软件生成论文的作者的处理方式。(2)如果有更多关于可以检测在准备稿件时使用人工智能的程序的信息,与出版商和编辑分享这些信息将非常有用。(3)开发能够识别以表格、图像和图表形式呈现的数据的上下文相似性的软件可能更具挑战性,但可能成为同行评审时做出决定的关键。(4)同时,在开始同行评审过程之前,使用iThenticate进行交叉参考相似性检查已经成为一个重要的步骤。
  • 《将可访问数据扩展到更多论文、资源库和成果中》

    • 来源专题:科技期刊发展智库
    • 编译者:孟美任
    • 发布时间:2023-10-08
    • 2022年3月,在惠康基金会的支持下,PLOS推出了实验性的“可访问数据”功能,旨在促进研究数据的共享和再利用。在得到一些初步成果后,正在扩大"可访问数据"实验范围。 5.1“可访问数据”实验下一阶段要实现的目标 “可访问数据”实验有两个初始目标: (1)提高PLOS论文关联数据集的再利用率; (2)通过在文章上显示提示/奖励,提高资源库的使用率。 在实验的下一阶段,还有一个额外目标:即了解读者在使用不同类型的数据和研究成果时是否存在差异。 为了实现以上目标,PLOS将增加符合条件的论文数量,使关联的资源库和产出类型多样化。在下一阶段,符合以下条件的文章将显示图标: (1)2016年后发表; (2)其数据可用性声明中包含指向资源库中研究成果的链接; (3)链接指向资源库中的唯一记录,资源库包括Dryad、Figshare、Open Science Framework (OSF)、Github、Zenodo、Gene Expression Omnibus、Sequence Read Archive、BioProject 和 Demographic and Health Surveys。 为关联到6个资源库(Github、Zenodo、Gene Expression Omnibus、Sequence Read Archive、BioProject 和 Demographic and Health Surveys)的文章增加图标可以达到两个目的。首先,有资格使用该功能的文章数量增加了三倍,达到15,000余篇,使更多的研究人员获益,提高了促进研究数据和代码发现的能力。其次,增加了不同类型的资源库,从而提高了学习潜力。Dryad、Figshare和OSF是通用型资源库,Gene Expression Omnibus、Sequence Read Archive和BioProject是生命科学领域常用的专业领域资源,而Demographic and Health Surveys则包含社会科学和医学领域的重要资源。以领域为重点的资源库往往对数据和(或)元数据的结构有更具体的要求,PLOS希望了解读者在使用专业领域资源时是否会与使用通用型资源库的内容有所不同。 Github以代码和软件共享、版本管理而闻名,但也经常用于其他内容,包括研究数据。随着代码共享率的提高,以及PLOS大约一半的研究都使用或产生了代码,PLOS希望更好地了解链接到PLOS论文的代码的价值,并支持共享研究成果的关联数据。事实上,所有新添加的资源库在PLOS作者中都很受欢迎——PLOS作者在资源库中共享的成果,约有3/4缴存在以上9个资源库中。这些资源库也与PLOS创建的简单工具相兼容,能够自动创建链接,在某些情况下,还可以"即时"根据入库编号而不是URL创建链接。 5.2 到目前为止的一些统计数据 (1)读者正在使用可访问数据图标 在实验的前12个月(截至2023年3月),共记录了20,000多次读者对图标的点击,在2022年3月首次推出时,该图标显示在3,335篇论文上,在推出后的12个月,又增加了1,200多篇论文。通过分析与PLOS论文关联的543个Figshare数据集,可以发现,在推出该功能之前的12个月中,每月平均浏览量为2.5次,而在推出后的12个月,每月平均浏览量为3.0次(在统计意义上相对增加了20%)。 (2)图标可影响未来的数据共享实践 2019年至今,已发表的PLOS论文作者对资源库的使用率正在上升。但目前还无法衡量"可访问数据"图标是否影响PLOS作者在资源库中的数据共享率,因为实验开展的时间还不够长,无法衡量对已发表论文的影响。不过,研究表明,该图标的可用性可能有助于数据共享的规范化,并影响研究人员选择哪个资源库。 (3)在论文中提供"正确的"数据链接仍然是出版商和作者面临的一项挑战 可访问数据图标鼓励通过网络链接到共享资源库中的数据和代码。最佳实践是通过可链接的持久性标识符(如DOI)进行共享,但许多PLOS论文以其他方式关联数据,如通过URL或仅供同行评审使用的私有链接(出版商的常见问题)。要提高数据共享方式的一致性和实践性,显然还有很多工作要做,但PLOS在部署"可访问数据"图标时采取了包容的态度。只要读者能够访问数据,它就会显示。我们认为更重要的是帮助作为作者的研究人员——他们可能不了解DOI和私人链接的细微差别;同时也帮助作为读者的研究人员在论文中加入不完善但实用的数据链接。