《AI生成内容正在污染预印本:审核人员如何反击》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2025-10-19
  • 预印本服务器上,疑似由论文工厂产出或借助人工智能工具生成的投稿数量正不断攀升。

    这篇预印本的标题——《自我实验报告:生成式人工智能界面在梦境状态中的出现》——引起了心理学家奥利维亚·柯特利的怀疑。

    当她点开查看时,疑虑更深了。这篇2024年7月发布在PsyArXiv(一个心理学领域非同行评审研究的发布平台)上的手稿仅几页长,且只列出了一位作者,还未标注所属机构。比利时鲁汶天主教大学的柯特利表示,文中描述的人工智能实验“实在太离谱了”。

    于是,她将这篇预印本及其他类似的稿件标记给了PsyArXiv的管理人员,这些稿件随后被移除。PsyArXiv科学顾问委员会主席、爱尔兰梅努斯大学的心理学家德莫特·利诺特称,这篇关于梦境状态的手稿在研究方法中使用了人工智能,却未明确说明人工智能的使用方式,也未说明是否在作品的其他部分使用了人工智能,这违反了该平台的使用条款。

    在回应《自然》的询问时,所列作者刘佳正(音译)的邮箱回复称,人工智能在这篇预印本的生成过程中仅起到了有限作用。

    PsyArXiv只是众多面临可疑投稿困扰的预印本服务器——以及期刊——之一。有些论文带有论文工厂的痕迹,这些机构会按需生成科学论文;另一些则有由人工智能系统撰写的证据,比如虚假参考文献,这可能是人工智能“幻觉”的表现。

    这类内容给预印本服务机构带来了难题。许多机构都是非营利组织,致力于让科学家更便捷地发表成果,而筛查低质量内容既耗费资源,又会拖慢投稿处理进度。这种筛查还会引发关于哪些手稿应被允许发布的争议,且大量可疑内容的涌入本身也存在风险。

    “如何在保证质量的同时,保持相对宽松的审核方式,避免整个系统陷入瘫痪?”美国心理科学改进协会执行委员会派驻PsyArXiv科学顾问委员会的联络人凯蒂·科克问道,“没人希望看到这样一个世界:读者得自己去判断某篇文章是否属于正当学术成果。”

    人工智能生成内容激增

    《自然》联系的几家预印本服务机构表示,在其收到的投稿中,看似由大型语言模型(如驱动OpenAI的ChatGPT的模型)生成的比例相对较小。例如,预印本服务器arXiv的运营方估计,约2%的投稿因出自人工智能、论文工厂或两者共同作用而被拒。

    位于纽约的openRxiv负责运营生命科学预印本服务器bioRxiv和生物医学服务器medRxiv,其负责人理查德·塞弗表示,这两个平台每天会拒收超过10篇看似模式化、可能由人工智能生成的手稿。这两个平台每月收到约7000份投稿。

    但有人表示,情况似乎正变得更糟。arXiv的审核人员注意到,2022年底ChatGPT推出后不久,人工智能撰写的内容就有所增加,而“在过去三个月左右,我们才真正意识到这成了一场危机”,arXiv的科学总监、宾夕法尼亚州立大学的天体物理学家斯泰因·西古德松说。

    2024年7月25日,位于华盛顿特区的非营利组织开放科学中心(PsyArXiv的托管方)发布声明称,“注意到明显增多的投稿似乎是由人工智能工具生成或在其大量辅助下完成的”。利诺特证实,PsyArXiv上的这类投稿“略有增加”,平台正采取措施减少此类内容。

    柯特利标记的那篇关于梦境状态的手稿,凸显了预印本审核工作的挑战:该预印本被移除后不久,一篇标题和摘要几乎完全相同的预印本又出现在该平台上。与作者相关联的邮箱回复称,“人工智能的作用仅限于数学推导、符号计算、整合和应用现有数学工具、公式验证”等八项任务。发件人自称是“一位来自中国的独立研究者”,没有高等教育学位,“唯一的工具是一部二手智能手机”。这第二篇预印本也已被下架。

    聊天机器人助手

    上周发表在《自然·人类行为》上的一项研究1估计,2024年9月,在ChatGPT推出近两年后,大型语言模型生成的内容占arXiv上计算机科学摘要内容的22%,占bioRxiv上生物学摘要文本的约10%(见“聊天机器人的崛起”)。相比之下,一项针对2024年期刊发表的生物医学摘要的分析2发现,14%的摘要包含大型语言模型生成的文本。

    该研究中提到的一些人工智能生成文本,可能出自那些原本难以用英文撰写手稿的科学家之手,加州斯坦福大学的计算机科学家、《自然·人类行为》那篇论文的合著者邹自强(音译)说。

    塞弗表示,这些合理用途使得“划清界限”颇具挑战,他还称这些数字并不令人意外,预印本平台必须向作者明确,他们要对自己发布的内容负责。

    arXiv计算机科学部门主席、机器学习领域先驱托马斯·迪特里希说,许多向arXiv提交计算机科学预印本的研究者并非以英语为母语,他们很可能会借助大型语言模型来改进写作。他认为22%这一数字“非常合理,但这并不意味着存在欺诈行为”。

    加强防控

    华盛顿大学研究科学学的沙汉·阿里·梅蒙表示,在信息高速传播的时代,有问题的预印本可能会被迅速分享。“这为虚假信息、炒作打开了大门……此外,(预印本)还会被谷歌搜索收录,”梅蒙补充道,“所以人们在谷歌上搜索信息时,可能会把这些预印本当作信息来源。”

    一些预印本服务器,如PsyArXiv,会下架被标记为可疑内容的手稿。另一些则会将内容标记为“已撤回”,除非法律要求,否则不会移除。它们会使用各种自动化工具和人工审核员来识别可疑内容。例如,据拥有Research Square并出版《自然》的施普林格·自然集团介绍,预印本服务器Research Square使用一种名为Geppetto的工具来检测人工智能生成文本的痕迹。

    但问题论文的增多意味着,许多服务器正努力加强防控。

    例如,arXiv的运营方希望收紧综述类论文(综合特定主题文献的论文)的发布标准,因为西古德松称收到了大量他所谓的“超低质量综述”,“很明显是在线生成或在其辅助下完成的,目的是给作者的发表履历添砖加瓦”。开放科学中心表示,正考虑一系列措施,包括“在投稿流程中增加新步骤,以阻止低质量内容”。

    一直依赖人工审核员的openRxiv团队,如今正着手开发自动化工具,以识别人工智能生成内容的特征。但塞弗表示,这样的努力就像“一场军备竞赛”。“我们非常担心,在不久的将来,会出现无法区分完全人造内容和真实内容的情况。这是我们所有人都将面临的挑战。”


  • 原文来源:https://www.nature.com/articles/d41586-025-02469-y
相关报告
  • 《生成式 AI 如何构建更好的抗体》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-07-11
    • 抗体是免疫系统对抗感染的主要武器之一。这些蛋白质已成为生物技术行业的宠儿,部分原因是它们可以被设计成附着在几乎任何可以想象的蛋白质上,从而操纵其活动。但斯坦福大学的计算生物学家 Brian Hie 表示,生成具有有效特性的抗体并对其进行改进优化,涉及“大量的强力筛选”。 为了了解生成式 AI 工具是否可以减少一些繁重的工作,Hie、Kim 团队使用了称为蛋白质语言模型的神经网络。这些类似于构成 ChatGPT 等工具基础的「大型语言模型」。但是,蛋白质语言模型不是被输入大量文本,而是在数千万个蛋白质序列上进行训练。 研究人员已经使用此类模型来设计全新的蛋白质,并帮助以高精度预测蛋白质的结构。Hie 的团队使用了一种蛋白质语言模型——由 Meta AI 的研究人员开发——来建议抗体的少量突变。 在它学习的近 1 亿个蛋白质序列中,该模型只接受了几千个抗体序列的训练。尽管如此,该模型的建议中有惊人的高比例提高了针对 SARS-CoV-2、埃博拉病毒和流感的抗体与其目标结合的能力。 改变批准用于治疗埃博拉病毒的疗法和 COVID-19 疗法可以提高这些分子识别和阻断这些病毒用来感染细胞的蛋白质的能力。(Hie 表示,COVID-19 抗体对 Omicron 及其亚变体无效,人工智能引导的变化不太可能恢复有效性。) Kim 说,许多建议的抗体变化发生在与其靶标相互作用的蛋白质区域之外,这通常是工程工作的重点。他补充说:「该模型所涉及的信息甚至对抗体工程专家来说都是完全不明显的……对我来说,这就是『天哪,这是怎么回事?』时刻。」 「这是人们用来改善抗体的工具。」英国牛津大学免疫信息学研究员 Charlotte Deane 说,「我觉得这真的很酷。」 但她补充说,许多研究人员希望,生成式 AI 不是简单地改进现有抗体,而是能够创造出全新的抗体,这些抗体将与选定的目标结合。 Nabla Bio 的联合创始人 Surge Biswas 说,这种能力可以帮助研究人员开发针对抵抗其他抗体设计方法的分子靶标的药物,该公司正在应对这一挑战。 例如,人工智能可以帮助解决 G 蛋白偶联受体问题,G 蛋白偶联受体是夹在细胞膜中的一类蛋白质,与神经系统疾病、心脏病和无数其他疾病有关。Biswas 说,生成式 AI 还可以帮助设计能够锁定多个目标的抗体药物,例如设计肿瘤蛋白和可以杀死肿瘤的免疫细胞。 斯坦福大学生物工程师 Possu Huang 表示,蛋白质语言模型功能强大,非常擅长优化现有蛋白质,包括抗体。但仅在蛋白质序列上训练的模型可能难以产生识别特定蛋白质的真正新抗体。 研究人员表示他们正在取得进展。2023 年 3 月,位于华盛顿州温哥华的生物技术公司 Absci 的科学家们在 bioRxiv 发布的预印本中报告了他们所说的用 AI 制造新抗体的第一步。他们使用包含蛋白质序列和实验数据的模型,为用于治疗乳腺癌的抗体药物的几个重要区域生成了新设计。
  • 《AI的合法利用内容》

    • 来源专题:科技出版市场动态监测
    • 编译者:崔颖
    • 发布时间:2025-03-05
    • 一、概述 在最近的PubsTech会议上,有人提出,在没有通过许可协议具体授权的情况下,可以合法使用多少内容来训练人工智能系统。在考虑这个问题时,我们发现了一些反直觉的结果。 二、背景 生成式人工智能(GenAI)是一种可以通过分析海量数据集中的模式来创建新内容(文本、图像、音乐等)的人工智能类型。这些模型通常基于从网络上抓取的公开可用数据进行训练。在美国,开发者经常援引“合理使用(Fair Use)”版权原则来为这种训练辩护,声称其目的是特定的(训练),并且具有转化性(与原始用途不同)。 实际上,法律立场复杂且不断演变,许多权利持有人及其代表,毫不意外地持相反观点。即使法律清晰度提高,不同的地理区域和司法管辖区也可能得出不同的结论。 人工智能和版权法的法律复杂性超出了本文的范围。然而,对于学术出版商而言,存在一些特定问题。我们的产出中有一半是开放获取内容,而开放获取内容的设计初衷是可以被重复使用。无论是开放还是非开放,内容对后续使用的限制各不相同,例如,通常允许带有归属声明的非商业用途。 三、有多少学术内容可以被利用? 为了分析的目的,我们假设内容发布的许可条款对其用于训练AI系统的合法性有重大影响。因此,通过查看不同类型的许可比例,或许能够回答这个问题。 图1 按许可分类的学术期刊产出比例 上图显示了2023年学术期刊总产出中各种许可类型的占比: ·不到50%的内容没有开放许可或未指定许可。我们认为这是受版权保护的内容,权利归出版商所有。包括公共访问(Public Access,即青铜OA)产出,虽然这些内容可以在付费墙外获取,但并未赋予后续使用权。 ·接近28%的内容是Creative Commons Attribution许可(CC BY)。这种许可允许在明确归属原作者的情况下无限制重复使用。这是开放获取倡导者常要求的许可类型。 ·剩余22%的内容拥有更严格的Creative Commons许可。除了要求归属外,这些许可还施加了进一步限制,例如禁止商业用途(13%)或禁止衍生产品使用(9%)。 ·只有极少量的内容完全没有限制(如CC0),或其他限制(如“Share Alike”许可)。我们的分析主要涵盖上述列出的内容。 四、开放获取悖论 开放获取最初被视为一种让学术内容在数字时代更具可移动性和适应性的方法。然而,在AI训练中的应用却面临实际挑战。 即使是像CC BY这样宽松的开放获取许可,也要求归属声明。然而,生成式AI模型本质上会从它们处理的数据中剥离归属信息。尽管可以开发专门的AI来规避这一点,但大多数知名的大规模生成式AI工具并未做到这一点。因此,满足最基本的开放获取归属要求在实践中是不可行的。 此外,传统许可通常明确界定允许的用途,而开放获取许可往往依赖于对“非商业用途”或“衍生用途”的解释,而这些解释可能因司法管辖区而异。 相比之下,传统的受版权保护作品——通常由出版商控制——可以直接授权用于AI用途。出版商和AI公司已经在达成交易,绕过了开放获取合规的复杂性。 五、结论 关于AI背景下是否构成合法的“合理使用”,最终将由法院和立法者决定。定义和豁免将在不同司法管辖区之间有所不同。例如,英国对“公平引用(fair dealing)”的定义比美国的“合理使用”更为狭窄,但在某些条件下允许文本和数据挖掘。欧盟在其版权法中没有“合理使用”原则;其新兴的《人工智能法案》则着眼于透明度、问责制和数据治理的要求。此外,即使系统训练可能是允许的,结果的应用仍可能构成侵权。 无论法律细节如何,AI公司是否可以直接从出版商那里获得内容许可? 对于出版商持有版权的受版权保护内容,答案是肯定的。重用权由许可持有者授予,而许可协议已经是出版业的一部分。学术出版商现在正在向科技公司授权内容。一旦达成协议,被许可方就可以继续执行约定的用途。唯一的挑战在于公众认知方面,尤其是在作者不支持其作品用于AI训练的情况下。 然而,生成式AI的兴起揭示了一个数字时代的讽刺:定义开放获取的“开放性”可能反而阻碍其在当今最具变革性技术之一中的应用。与此同时,传统的“封闭”许可仍然是AI开发者的一条更顺畅路径,尽管需要付出一定成本。出版商和作者面临的挑战是如何应对这一悖论,确保他们的作品在未来由AI驱动的世界中既受到保护又具有影响力。