《利用AI和公共数据集,低质量论文数量激增》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2025-05-15
  • 2025年5月14日《科学》杂志新闻栏目报道,作者利用公共数据集和AI技术,导致低质量论文数量激增,论文工厂可能助长了“虚假发现”。

    萨里大学统计学家Matt Spick发现,其担任副主编的《科学报告》期刊每天收到1-2篇高度雷同的论文,均基于国家健康与营养调查(NHANES)等公共数据集的研究。2024年10月前的统计显示,此类论文数量从2014-2021年的年均4篇飙升至2024年的190篇,增长近50倍。

    Spick发现,收到的NHANES 论文都遵循相同的模式,选择健康问题(如抑郁症)、关联因素(如维生素D水平)和特定人群(如65岁以上男性),通过排列组合生成"新发现",好像每一种可能的组合都有人在研究。一些较新的 NHANES 研究,选择性地分析了其数据集的部分内容,却没有明确的理由,缺乏科学依据。例如,28项关于抑郁症的研究中,仅13项通过假阳性校正检验,显示超半数结论可能为统计噪声。

    悉尼大学分子生物学家Jennifer Byrne指出,AI工具(如ChatGPT)被用于批量改写内容规避查重,这种操作难以溯源但具有明显组织性特征。

    西北大学的元科学家Reese Richardson表示,这些免费数据源几乎允许任何人采用已知的研究方法,替换其中的变量,从而创造出新的“发现”,就像一种“研究填词游戏”。他表示,其他研究人员在多个主题中也发现了类似的“爆发”现象,包括遗传学研究、对不同科学学科中的文献计量或性别差异分析。

    Richardson表示,这些论文反映了科学出版和研究奖励机制中的广泛问题,“文章中提到的所有出版商都接受了费用,可能每篇约为 1000 美元,以发表这些垃圾论文。” 当前的科学出版机制是研究人员被激励发表更多论文,而不是更高质量的论文。除非我们彻底重构科学出版的激励机制,否则问题“只会变得更糟”。


  • 原文来源:https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
相关报告
  • 《利用卫星和公共数据研究水质》

    • 来源专题:纳米科技
    • 编译者:郭文姣
    • 发布时间:2019-12-10
    • 获得充足、清洁的饮用水、娱乐用水和环境用水是21世纪最紧迫的问题之一。直接监测对淡水质量的威胁是至关重要的,但由于目前的方法成本高昂且没有标准化,因此综合水质数据集很少。在世界上数据最丰富的国家之一美国,只有不到1%的淡水水质被采样。 在一篇新论文中,AquaSat:一个数据集,使遥感内陆水域的水质,科罗拉多州立大学助理教授领导的研究小组马特·罗斯与大型公共数据集的水质观测卫星图像来解决测量水质高效低成本的挑战。 我们还不能完全理解威胁 生态系统科学和可持续性部门的流域科学家Ross认为,水质面临许多威胁,包括支持藻类繁殖的农业径流中的营养物质;水库淤积对分布造成挑战;从腐烂的叶子中溶解的碳会打断化学反应,而化学反应能保持水的清洁和饮用安全。 在很大程度上,政府机构通过派遣科学家到实地测量变量来监测美国的水质,比如叶绿素(来自藻类)的量、悬浮沉积物的浓度、溶解的有机碳和水的净度。 但是,正如Ross和他的团队所解释的那样,要完全理解和记录水质的变化,需要一个大得多的数据集;这反过来又要求越来越多的人进行现场采样,这是非常昂贵的,不太可能完全解决问题。 相反,研究小组认为,利用卫星图像进行遥感,可以大大扩展我们对大陆尺度上水质变化的了解,而且几乎不需要额外的采样成本。 将卫星图像与实地测量相结合 几十年来,科学家们已经知道,水的颜色可以告诉我们水里有什么。亮棕色的水可能表明这条河充满了沉积物。伊利湖上空的绿色漩涡显示藻类生长并产生叶绿素。由于光线是如何与某些溶解的有机碳化合物相互作用的,使富含单宁酸的森林和沼泽排出的深褐色的水将蓝色的水变成茶色的棕色。 环绕地球的成像卫星,包括Landsat,每16天拍摄一次地球图像,就能探测到这些颜色的变化。 “这些卫星从根本上改变了我们对农业、森林、火灾和其他土地覆盖变化的长期理解,”罗斯解释说。“然而,利用陆地卫星档案了解内陆水质变化的情况较少。” 使用Landsat图像来评估水质的一个挑战是缺乏将卫星图像与地面观测数据配对的集中数据集。这些匹配——例如,当卫星在某人采集藻类样本的同一天拍摄照片时——可以用于构建算法,仅使用图像就可以从太空预测水质。 目前只有不到1000个这样的配对,大多是为个别研究而建立的,这降低了研究人员为Landsat档案中每一张无云图像建立、测试和应用大规模模型来预测水质的能力。 “数据交响乐” 加州州立大学的研究人员建立了一个新的数据集,包含60多万个水质实地测量数据和陆地卫星图像的匹配,创造了罗斯所说的“数据交响乐”。 水质数据来自两个公共来源:水质门户,一个来自400多个州、地方和联邦机构的联邦数据交换中心;和LAGOS-NE,一个美国东北部湖泊水质测量的开放科学数据集。这些数据集总共提供了600多万个水质观测数据。 利用开源软件和谷歌地球引擎,作者将1984-2019年的水质数据与地球资源卫星档案进行了合并。原始数据集和合并的matchup数据集(他们称之为AquaSat)现在都可以与底层代码一起使用,以便未来的用户可以更新、更改和改进它。 作者期望这个数据集将在水质遥感中开启强大的新应用。 罗斯说:“我们希望这些工具将有助于为大型河流和湖泊建立全国性的水质评估。”“这些数据将极大地提高我们对宏观范围内水质变化的理解,并允许遥感社区比较各种方法,共同改进我们的方法。” 在未来,罗斯的团队希望在美国以外的地方采用同样的方法来改善其他地方的水质监测,而很少或根本没有实地观测。 ——文章发布于2019年12月4日
  • 《特别报道|每五天发表一篇论文? “超级高产作者”数量激增引发学界担忧》

    • 来源专题:数智化图书情报
    • 编译者:于彰淇
    • 发布时间:2023-12-14