《“厨师小组”在法兰克福讨论人工智能、诚信和开放内容》

  • 来源专题:科技期刊发展智库
  • 编译者: 曹珂瑞
  • 发布时间:2024-02-22
  •   作者:托德·卡彭特 (Todd Carpenter) ,美国国家信息标准组织 (NISO) 的执行董事。他还在多个组织中担任过各种领导职务,包括ISO识别和描述技术小组委员会 (ISO TC46/SC9)、巴尔的摩县公共图书馆基金会等。

      自2022年10月法兰克福书展以来,如果要用两个问题定义这一年(2023),它们无疑就是诚信和人工智能。纵观“学术厨房”活动,这两个话题占据了“数字餐桌”的大部分空间。过去一年,自然语言模型的应用在学术界和大众的想象中受到了爆炸性的关注,许多人都在思考人工智能对学术交流的影响。

      特别是,人工智能技术如何影响学术话语中的开放存取和研究诚信等关键趋势?这一问题一直困扰着法兰克福展览馆和许多相关活动。因此,当“学术厨房的几位主厨”和其他领导在法兰克福工作室登台时,这两个话题引起热烈讨论。当然,讨论的结果也没有让人失望。

      我(托德·卡彭特)有幸与罗伊-考夫曼(Roy Kaufman)和罗伯特-哈灵顿(Robert Harrington)两位“大厨”以及嘉宾莱斯利-麦金托什(Leslie McIntosh)、阿妮塔-德-瓦德(Anita de Waard)和茱莉亚-科斯托娃(Julia Kostova)一起主持了这场生动的对话。在短暂的时间里,我们讨论了很多概念性问题,从开放内容的版权问题到人工智能生成模型如何影响对作者身份的关注,从模型如何消费开放科学内容到人工智能如何挑战我们的责任概念。如果您想观看小组讨论的重播,请访问法兰克福展览公司的 Youtube频道。

    ●如何训练你的模型?

      目前,一方面是开放内容和人工智能工具的发展,另一方面是开放内容的创造和使用的影响,这两者之间有着令人着迷的相互作用。正如考夫曼在小组讨论中指出的那样,开放内容的定义越来越多地集中在该内容的许可和版权共享框架上。与此同时,许多版权和许可问题也成为多起诉讼和日益增多的法规的主题——至少在版权方面是如此——以专门应对人工智能的使用。

      这促使一些开发大型语言模型(LLMs)的人在公开内容上训练他们的模型,而现在公开内容的语料库数量庞大且增长迅速。值得注意的是,许多组织显然是在公开内容上训练他们的模型,而这些内容很可能不在知识共享许可协议的范围内,甚至是一般公众无法访问的专有内容,因此出现了诉讼。其他公开许可的内容,如各种类型的数据集,也可以作为额外的训练资源。如前所述,使用可信和经过审核的学术内容来训练这些重要的模型,而不是“模型在互联网上找到的任何东西”,这符合每个人的利益,因为互联网上的内容可能是可疑的或有问题的,甚至是故意不正确的。

    ●人工智能在开放内容中的积极应用?

      正如科斯托娃强调的那样,开放内容可以在创建大型语言模型(LLM)方面发挥重要作用,而这些工具在加速和推进开放科学方面也具有巨大潜力。基于人工智能的工具已经在科学的各个领域被广泛采用和使用,使研究人员能够更准确、更快速地生成学术成果。我们必须记住,虽然目前大部分注意力都集中在ChatGPT、BARD和LLaMa等生成模型上,但许多领域都在使用相同类型的人工智能计算模型来审查医学图像、扫描空间图像数据和开发气象模型。同样,在生物科学、化学、基因组学和许多其他领域,计算模型正在为语义理解和科学进步开辟新的道路,从而为发现、导航和分析提供支持。哈灵顿指出,使用机器生成工具还可以为更广泛的社区参与提供重要机会,可以通过翻译或与从事这项工作的核心学者之外的人建立联系,这也是大多数学术团体的另一项使命。他还提到了关于这一主题的几个想法,如美国学术学会在考虑如何将基于人工智能的工具纳入编辑和教育推广工作中。虽然我们有理由保持警惕,但我们不应将这些新工具的存在视为坏事,也不应将其带来的干扰视为完全负面的。

    ●我们想要信任人工智能,但是如何呢?

      在诚信方面,与会者还热烈讨论了越来越多地使用人工智能工具可能带来的机遇和挑战。从为什么诚信问题对学术交流如此重要的问题开始,话题很快转向了人工智能工具如何提供机遇和挑战。正如麦金托什所比喻的:世界上大部分地区都有充足的免费水源,但你会喝从流经工业城市的河流中接的免费的水吗?还是相信从水龙头里流出来的水的质量?麦金托什强调说,学术研究也应如此。德-瓦德以此为基础,思考了标准在开发新的数字学术共享框架中的作用,以及学术著作的每个元素如何结合在一起形成一个有凝聚力的整体。人工智能工具可以帮助发现、浏览和理解这一复杂的生态系统。

      同样,麦金托什指出,任何技术都存在固有的风险。在造纸厂或图像处理中,每一种技术的积极使用都会引起人们对其滥用的担忧。麦金托什介绍了Ripeta所做的工作,即使用基于人工智能的工具,识别与论文相关的潜在信任指标网络,这些工具是根据信任指标计算出来的,并已应用于数百万个对象。爱思唯尔同样也部署了其他人工智能工具来协助编辑和生产流程。一旦实施了这些工具,是否有办法将这些信息与内容一起共享,并指出进行了哪些类型的完整性检查。在这里,德-瓦德提到了 NISO 最近发布的一项技术标准,即内容简介/链接文档规范,该规范旨在支持此类交流。归根结底,我们(即学术出版业)所做的最重要的一件事就是将可信的信息传递给后人。因此,我们必须以合理的方式使用每一种工具,确保记录尽可能保持活力和可信度,这一点至关重要。

    ●我们可以去哪里?

      会议结束时,我在德-瓦德的评论基础上在会议结尾插入了关于标准和信任的作用的观点。本月早些时候,我所在的组织主办了以学术交流中的人工智能应用为主题的 NISO Plus论坛,在论坛上与会者提出了一些可以尝试在社区鼓励开展的潜在项目。半数以上的潜在项目构想可被广泛视为解决有关诚信和信任的问题。

      例如,项目中的一个想法涉及扩展 CReDIT 术语,将机器生成内容包括在内。还有两个想法涉及使用人工智能相关工具生成机器输出的输入。第一个想法涉及用于开发模型的数据的可信度,以便在质量、偏差或科学严谨性方面值得信赖。另一个想法侧重于评估模型及其在特定目的中的应用。类似的项目设想也有针对工程学问题提出的,但不是专门围绕学术交流问题提出的。提出的想法之多,超出了 NISO 的能力范围。我们希望,当论坛报告分发后,社区成员将参与到我们的工作中来,以确保合理、公平、包容地使用基于人工智能的工具。

      也许现在完全了解这些新工具的全部影响还为时过早,但可以从很多角度来看待挑战和机遇。理想情况下,由 SSP 学术厨房主办的此类社区对话将帮助人们把握对其组织和整个学术界的潜在影响。希望从事这些不同领域工作的人们能够共同努力,探索在我们的社区应用这些工具的创新方法。当然,有很多东西需要探索,有很多东西需要讨论,也有很多东西需要实施。

相关报告
  • 《COPE发起“人工智能(AI)和虚假论文”的讨论》

    • 来源专题:科技期刊发展智库
    • 编译者:王传清
    • 发布时间:2023-05-17
    • 2022年以来,人工智能(AI)在研究论文的撰写、创作和出版全流程中发挥重要作用。这对研究的完整性产生了重大影响,需要人们改进手段和工具来检测虚假的研究。虚假论文的出现以及个人和组织操纵同行评审系统,促使编辑和出版商制定措施来识别和处理其中的一些欺诈行为。然而,由于双方的策略和工具都在不断发展,对虚假论文的检测仍然很困难。 随着论文工厂(以盈利为目的、非官方的、也可能是非法组织,他们生产和销售看起来像真正研究的虚假手稿)的激增,以及最近高级写作和图像创作工具的发布,COPE在2023年3月23日举办的论坛上提出了围绕使用人工智能创建虚假论文和基于有效研究的论文制作的各种伦理问题,目标是讨论作者身份、偏见、原创性以及使用人工智能工具来对抗人工智能欺诈等。 在本次COPE论坛讨论的问题包括: (1)作者使用人工智能撰写学术文章是可以接受的、符合道德的做法吗? (2)我们能检测出一篇文章是否由人工智能生成的吗?这样做重要吗?为什么? (3)由人工智能在现有文章上训练出来的文章能被认为是原创吗? (4)人工智能生成的文本对文字、图像和思想(用现有文章训练的算法)的抄袭有什么影响? (5)同行评审是否可以完全由专门的人工智能工具进行(旨在检测欺诈和验证数据和数字)? (6)如果由人工智能写文章或进行同行评议,它能带来什么样的偏见? (7)在公平性和包容性方面需要考虑哪些因素(例如,对于可能使用人工智能工具作为辅助或适应性技术的残疾学者)? 讨论会主持人: Sarah Elaine Eaton博士,卡尔加里大学副教授。COPE理事会成员。 Marie Souliére博士,Frontiers高级出版经理。COPE理事会成员。 部分评论: Susan Garfinkel:随着越来越多的人工智能和虚假论文的问题被发现,我想听听期刊在发现这类问题时是怎么做的,还有就是当问题可能被提交给机构时,他们的期望是什么。我之所以这么问,是因为各机构都在纠结什么是处理这些问题的最佳方式。 Bridget Sheppard:我对ChatGPT如何回答第一个问题很感兴趣,它说:“我可以被作者用来协助撰写学术论文。然而,重要的是要注意,我只是一个工具,而不是批判性思维和领域专业知识的替代品,而批判性思维和专业知识是撰写高质量学术论文所必需的。我可以帮助完成一些任务,比如总结研究,产生想法,建议参考文献,甚至是初稿,但最终还是要由作者来验证所提供的信息。作者应确保内容准确、相关并被恰当引用。在写作过程中说明使用了语言模型是很重要的。” Gary Balian:关于人工智能和出版伦理的讨论非常有用,内容丰富。(1)如果能读到COPE与编辑分享的任何准则,会有助于我们对使用人工智能软件生成论文的作者的处理方式。(2)如果有更多关于可以检测在准备稿件时使用人工智能的程序的信息,与出版商和编辑分享这些信息将非常有用。(3)开发能够识别以表格、图像和图表形式呈现的数据的上下文相似性的软件可能更具挑战性,但可能成为同行评审时做出决定的关键。(4)同时,在开始同行评审过程之前,使用iThenticate进行交叉参考相似性检查已经成为一个重要的步骤。
  • 《Nature Reviews Drug Discovery | 人工智能促进天然产品药物研发》

    • 来源专题:战略生物资源
    • 编译者:李康音
    • 发布时间:2023-09-28
    • 2023年9月11日,美国芝加哥大学,荷兰莱顿大学,美国佐治亚理工学院,荷兰瓦赫宁恩大学,南非约翰内斯堡大学,法兰克福歌德大学,丹麦技术大学,瑞士巴塞尔大学,荷兰莱顿药物研究学术中心,瑞士联邦理工学院,德国耶拿大学,新西兰奥克兰大学,加拿大西蒙菲莎大学,美国密歇根大学,法国萨克雷大学等单位的研究人员在《Nature Reviews Drug Discovery》杂志发表了一篇题为“Artificial intelligence for natural product drug discovery”的论文。 计算全息技术的发展为获取隐藏的天然产品多样性提供了新的手段,为药物发现发掘了新的潜力。与此同时,机器学习等人工智能方法也为计算药物设计领域带来了令人兴奋的发展,促进了生物活性预测和针对感兴趣的分子靶点的全新药物设计。该研究介绍了这些发展之间当前和未来的协同作用,以便从自然界产生的大量分子中有效识别候选药物。该研究还讨论了如何应对实现这些协同作用潜力的关键挑战,如训练深度学习算法所需的高质量数据集和算法验证的适当策略。 本文内容转载自“ AI Energy”微信公众号。 原文链接: https://mp.weixin.qq.com/s/x-4GukKLaAx7L58hjUVsSA