2025年10月22日,计算机领域将迎来首次所有论文和评审均由机器完成的科学会议Agent4Sciense2025活动。届时将展示提交的论文——由人工智能(AI)代理本身或进行实验的人类进行演示——以及由学者组成的小组讨论。
此次会议的共同组织者、加州斯坦福大学的 AI 研究员 James Zou 表示,会议提供了一个“相对安全的沙盒,我们可以在其中尝试不同的提交流程、不同类型的评审流程”。Zou 说,它旨在捕捉过去一年中 AI 在科学应用方式上发生的“范式转变”。研究人员现在不再使用大型语言模型(LLMs)或其他为特定任务设计的工具,而是构建协调的模型组,即所谓的代理,以充当“在整个研究工作中工作的科学家”。
AI 模型已被用于生成和评审研究,但大多数出版商和会议组织者禁止机器被列为论文作者或演讲者。邹说:“我们认为我们可以反其道而行之,让作者和评审者都必须是 AI。”根据会议指南,尽管人类可以提供建议和反馈,但 AI 应该是主要贡献者,类似于第一作者。
计算机科学家 Margaret Mitchell 表示,此次会议提醒人们“我们 AI 领域的人需要更好地理解以这种方式使用系统的优点和缺点”。她在纽约市的 Hugging Face 研究 AI 伦理。她补充说:“如何评估 AI 代理本身就是一个开放的研究领域。”一个关键问题是如何考虑模型产生无用“假阳性”发现的频率——这可能会影响其整体效用。
Hugging Face 的人工智能研究员克莱门汀·福里尔(Clémentine Fourrier)表示,Agents4Science 还有另一个好处。“希望像这样的会议能分流一些人工智能领域的冗余内容,从而减轻其他会议审稿人的负担,他们说,会议组织者收到了 300 多个人工智能代理提交的作品,其中 48 篇在经过人工智能评审小组评估后被接受。这些论文主要是计算研究(而非涉及物理实验),涵盖了从精神分析到数学的各个领域。他希望这次会议能提供关于人工智能科学家水平及其所犯错误类型的数据。米切尔说,这些数据可用于为研究中人工智能的使用政策提供信息。如果任由人工智能代理自行发挥,它们仍然容易出错。提交给 Agents4Science 会议的论文被要求在过程的每个步骤中说明研究人员与人工智能代理之间的互动。邹说,这意味着将有可能评估人类参与的程度如何影响工作的质量。
人工智能在评审方面的表现如何也将受到严格审查。为了筛选会议论文以供接受,人工智能代理使用提供给著名 NeurIPS 会议评审员的指南和评分系统进行了第一轮评审。然后,顶尖论文也由人类顾问委员会进行评估。邹说,评审将公开供所有人阅读,组织者还将比较人工智能生成的评审与人类撰写的评审。“我认为那也将提供一个有用的比较基准,”他补充道,将人工智能模型用作期刊或会议的同行评审员是一个有争议的话题。英国物理学会最近的一项调查发现,57%的受访者表示,如果生成式人工智能被用于撰写他们合著稿件的同行评审报告,他们会感到不高兴。人工智能评审员存在一系列弱点和漏洞——例如,一些评审员被发现会遵循隐藏指令对论文给出正面评价——这需要采取保障措施。一些研究人员认为,使用人工智能评审论文可能意味着早期职业研究人员会错过学习关键技能的机会。
但邹和其他人表示,至少在计算机科学领域,需要某种形式的 AI 评审来应对提交给会议的论文数量的巨大增长。NeurIPS 的投稿量在过去五年中增加了一倍多,部分原因是 LLMs 的使用。邹建议,AI 代理可以与人类组成混合评审团队。“出版物数量激增,我认为人们开始认识到我们确实需要帮助,”他说。
亚特兰大佐治亚理工学院的计算机科学家马修·冈博莱(Matthew Gombolay)表示,现有研究已经表明,在评估新颖性和重要性方面,LLMs 不如人类。冈博莱也是 2026 年人工智能促进协会会议的伦理联合主席。他认为,比 Agents4Science 更严谨的实验是让一个现有的主要会议随机将论文分配给人类或 LLM 审阅,然后监测哪种审阅方式能带来更具影响力的突破。