《利用AI和公共数据集,低质量论文数量激增》

  • 编译者: 程冰
  • 发布时间:2025-07-23
  • 2025年5月14日《科学》杂志新闻栏目报道,作者利用公共数据集和AI技术,导致低质量论文数量激增,论文工厂可能助长了“虚假发现”。

    萨里大学统计学家Matt Spick发现,其担任副主编的《科学报告》期刊每天收到1-2篇高度雷同的论文,均基于国家健康与营养调查(NHANES)等公共数据集的研究。2024年10月前的统计显示,此类论文数量从2014-2021年的年均4篇飙升至2024年的190篇,增长近50倍。

    Spick发现,收到的NHANES 论文都遵循相同的模式,选择健康问题(如抑郁症)、关联因素(如维生素D水平)和特定人群(如65岁以上男性),通过排列组合生成"新发现",好像每一种可能的组合都有人在研究。一些较新的 NHANES 研究,选择性地分析了其数据集的部分内容,却没有明确的理由,缺乏科学依据。例如,28项关于抑郁症的研究中,仅13项通过假阳性校正检验,显示超半数结论可能为统计噪声。

    悉尼大学分子生物学家Jennifer Byrne指出,AI工具(如ChatGPT)被用于批量改写内容规避查重,这种操作难以溯源但具有明显组织性特征。

    西北大学的元科学家Reese Richardson表示,这些免费数据源几乎允许任何人采用已知的研究方法,替换其中的变量,从而创造出新的“发现”,就像一种“研究填词游戏”。他表示,其他研究人员在多个主题中也发现了类似的“爆发”现象,包括遗传学研究、对不同科学学科中的文献计量或性别差异分析。

    Richardson表示,这些论文反映了科学出版和研究奖励机制中的广泛问题,“文章中提到的所有出版商都接受了费用,可能每篇约为 1000 美元,以发表这些垃圾论文。” 当前的科学出版机制是研究人员被激励发表更多论文,而不是更高质量的论文。除非我们彻底重构科学出版的激励机制,否则问题“只会变得更糟”。


相关报告
  • 《COPE发起“人工智能(AI)和虚假论文”的讨论》

    • 来源专题:科技期刊发展智库
    • 编译者:王传清
    • 发布时间:2023-05-17
    • 2022年以来,人工智能(AI)在研究论文的撰写、创作和出版全流程中发挥重要作用。这对研究的完整性产生了重大影响,需要人们改进手段和工具来检测虚假的研究。虚假论文的出现以及个人和组织操纵同行评审系统,促使编辑和出版商制定措施来识别和处理其中的一些欺诈行为。然而,由于双方的策略和工具都在不断发展,对虚假论文的检测仍然很困难。 随着论文工厂(以盈利为目的、非官方的、也可能是非法组织,他们生产和销售看起来像真正研究的虚假手稿)的激增,以及最近高级写作和图像创作工具的发布,COPE在2023年3月23日举办的论坛上提出了围绕使用人工智能创建虚假论文和基于有效研究的论文制作的各种伦理问题,目标是讨论作者身份、偏见、原创性以及使用人工智能工具来对抗人工智能欺诈等。 在本次COPE论坛讨论的问题包括: (1)作者使用人工智能撰写学术文章是可以接受的、符合道德的做法吗? (2)我们能检测出一篇文章是否由人工智能生成的吗?这样做重要吗?为什么? (3)由人工智能在现有文章上训练出来的文章能被认为是原创吗? (4)人工智能生成的文本对文字、图像和思想(用现有文章训练的算法)的抄袭有什么影响? (5)同行评审是否可以完全由专门的人工智能工具进行(旨在检测欺诈和验证数据和数字)? (6)如果由人工智能写文章或进行同行评议,它能带来什么样的偏见? (7)在公平性和包容性方面需要考虑哪些因素(例如,对于可能使用人工智能工具作为辅助或适应性技术的残疾学者)? 讨论会主持人: Sarah Elaine Eaton博士,卡尔加里大学副教授。COPE理事会成员。 Marie Souliére博士,Frontiers高级出版经理。COPE理事会成员。 部分评论: Susan Garfinkel:随着越来越多的人工智能和虚假论文的问题被发现,我想听听期刊在发现这类问题时是怎么做的,还有就是当问题可能被提交给机构时,他们的期望是什么。我之所以这么问,是因为各机构都在纠结什么是处理这些问题的最佳方式。 Bridget Sheppard:我对ChatGPT如何回答第一个问题很感兴趣,它说:“我可以被作者用来协助撰写学术论文。然而,重要的是要注意,我只是一个工具,而不是批判性思维和领域专业知识的替代品,而批判性思维和专业知识是撰写高质量学术论文所必需的。我可以帮助完成一些任务,比如总结研究,产生想法,建议参考文献,甚至是初稿,但最终还是要由作者来验证所提供的信息。作者应确保内容准确、相关并被恰当引用。在写作过程中说明使用了语言模型是很重要的。” Gary Balian:关于人工智能和出版伦理的讨论非常有用,内容丰富。(1)如果能读到COPE与编辑分享的任何准则,会有助于我们对使用人工智能软件生成论文的作者的处理方式。(2)如果有更多关于可以检测在准备稿件时使用人工智能的程序的信息,与出版商和编辑分享这些信息将非常有用。(3)开发能够识别以表格、图像和图表形式呈现的数据的上下文相似性的软件可能更具挑战性,但可能成为同行评审时做出决定的关键。(4)同时,在开始同行评审过程之前,使用iThenticate进行交叉参考相似性检查已经成为一个重要的步骤。
  • 《全球人畜共患病风险激增,生态压力成主因》

    • 编译者:AI智能小编
    • 发布时间:2025-05-14
    • 根据美国疾控中心(CDC)2024年发表于《Emerging Infectious Diseases》的研究,全球新发人畜共患病的风险正在急剧增加,特别是在非洲和东南亚地区。2020-2023年的监测数据显示,这些地区每年新增的人兽共患病暴发事件达47起,比十年前增加了62%。主要原因包括森林砍伐和野生动物贸易,如刚果盆地的森林损失和东南亚非法野生动物交易量的上升。 具体实例包括2024年刚果民主共和国因棕榈油种植园扩张导致蝙蝠栖息地破坏而爆发的尼帕病毒疫情。一些国家已经开始试点“One Health”协同模式,并取得了显著成效。例如,马达加斯加通过社区驱动的野生动物监测网络实现了猴痘病毒的早期预警,将病例识别时间缩短至72小时;越南则通过联合屠宰场的“病原组筛查计划”成功拦截了多起禽流感H5N1人传人前哨病例。 然而,全球仅有38%的低收入国家具备实时病毒测序能力,且气候变迁导致蚊媒活动范围北扩,进一步加剧了防控难度。研究呼吁建立“全球人兽共患病风险地图”,整合卫星遥感和AI预测模型(如DeepZoon算法),并建议G20国家将0.5%的公共卫生预算定向投入跨境监测网络建设,以应对未来十年可能出现的15-20种新型人兽共患病。