《ChatGPT和生成AI对科研意味着什么?》

  • 来源专题:科技期刊发展智库
  • 编译者: 孟美任
  • 发布时间:2023-03-31
  • 2022年12月,计算生物学家Casey Greene和 Milton Pividori开展了一项实验:他们邀请一名非科学家助理润色了三篇研究论文。该助理在几秒钟内就修改完成,每篇论文大约用了五分钟审阅完成。在一份生物学论文中,该助手还发现了公式参考文献的错误。除了实验过程存在些许不顺利,但论文最终的可读性更强,并且每篇论文成本不到0.50 美元。Greene 和Pividori 在2023 年1 月23 日的预印本论文中表示,该助理不是一个人,而是一种名为GPT-3的人工智能算法,该算法于2020 年首次发布。它是一种生成式人工智能聊天机器人工具,无论是创作散文、诗歌、计算机编程,还是编辑研究论文都非常擅长。

    这类工具也被称为大型语言模型(Large Language Models, LLM),其中最有名的是GPT-3的一个衍生版本——ChatGPT。由于其免费且易于访问,在2022年11月发布后一举成名。

    美国宾夕法尼亚大学的Pividori表示,此类工具将帮助我们提高研究人员的工作效率。 其他科学家表示,他们现在经常使用大型语言模型,不仅用于修改论文,还用于编写、检查代码等工作。冰岛大学计算机科学家Hafsteinn Einarsson表示,每天都使用大型语言模型,最早使用的是GPT-3,后来改用ChatGPT辅助编写PPT、改学生试卷和课程作业,还能将学生作为转为学术论文。此外,许多人将其作为数字秘书或助理。

    但LLM也引发了广泛的讨论,包括回答内容的真实性、用AI生成内容冒充自己的创作等。《自然》采访科研人员有关聊天机器人(如ChatGPT)的潜在用途(尤其在科学领域)时,他们兴奋中夹杂着忧虑。科罗拉多大学医学院的Greene表示,如果相信这项技术具有变革的潜力,那么必须对此感到紧张。科研人员认为,很多方面都将取决于未来的监管指南对 AI 对话机器人的使用限制。

    (1)流畅但不真实

    有学者认为,大型语言模型很适合用来提高写论文或写基金的效率,但需要严格把关。伦敦软件咨询公司InstaDeep的工程师表示,大型语言模型就像一个进阶版的Stack Overflow(一个程序员互问互答的热门论坛),每天都可以用来写代码。

    与此同时,研究人员强调,大型语言模型给出的回答从根本上说是不可靠的,有时候还是错的。这种不可靠已经深入大型语言模型的构建方式。ChatGPT和它的竞争对手都是通过学习庞大在线文本数据库中的语言统计模式来运作的,这些文本中不乏谣言、偏见和已经过时的信息。当大型语言模型接到提示(即 prompt,如Greene等使用精心组织的语言提出重写论文部分章节的要求)后,它们会一字一句地吐出看上去符合语言习惯的任何回复,只要能让对话继续下去。结果就是大型语言模型很容易给出错误或误导人的信息,尤其是那些训练数据很有限的技术性话题。还有一点是大型语言模型无法给出准确的信息来源。如果你让它写论文,它会把参考文献给你编出来。《自然-机器智能》在2023年1月发表的一篇关于ChatGPT的社论中写道,这个工具在事实核查或提供可靠参考文献方面是不能被信任的。

    如果研究人员有足够专业知识发现问题或能很容易验证答案对错,比如他们能判断某个解释或对代码的建议是否正确,那么ChatGPT和其他大型语言模型就能成为真正意义上的助手。不过,这些工具可能会误导一些初级用户。如2022年12月,Stack Overflow临时禁用了ChatGPT,因为管理者发现一些用户上传了大量由大型语言模型生成的回答,错误率很高。

    (2)缺陷如何解决?

    有些搜索引擎工具能解决大型语言模型在来源引用上的不足,例如面向科研人员的 Elicit能先根据提问搜索相关参考文献,再对搜索引擎找到的各个网站或文献进行概括归纳,生成看上去全带参考来源的内容(但是大型语言模型对不同文献的归纳仍有可能不准确)。

    一些科研人员表示,目前来看,ChatGPT在技术性话题上还没有足够且专业的训练数据,所以用处并不大。哈佛大学的生物统计学博士生应用ChatGPT后表示其很难达到所需的专业水平。

    一些科技公司开始使用专业的科研文献训练对话机器人。2022年11月,科技巨头Meta 发布了名为Galactica的大型语言模型,用学术摘要进行训练,有望在生成学术内容和回答科研问题方面具备一技之长。但是,其测试版在被用户拿来生成不准确和种族歧视的内容后即被下架(但代码依旧公开)。

    (3)安全与责任

    如果不对输出内容进行把控,大型语言模型就能被用来生成仇恨言论和垃圾信息,以及训练数据中可能存在种族歧视、性别歧视等其他有害联想。OpenAI在决定公开发布 ChatGPT时,曾试图回避很多这些问题。OpenAI让ChatGPT 的信息库截至到 2021 年为止,不让它浏览互联网,还通过安装过滤器防止 ChatGPT 对敏感或恶意的提示做出回应。不过,做到这一点需要人类管理员对庞杂的有害文本进行人工标记。

    一个学术团队发布了另一个名叫 BLOOM 的大型语言模型。该团队试着用更少的精选多语言文本库来训练这个机器人。该团队还把它的训练数据完全公开。研究人员呼吁大型科技公司参照这种做法,但目前不清楚这些公司是否愿意。

    还有一些研究人员认为学术界应该完全拒绝支持商用化的大型语言模型。除了偏见、安全顾虑和劳动剥削等问题,这些计算密集型算法还需要大量精力来训练,引发人们对它们生态足迹的关注。进一步的担忧还包括把思考过程交给自动化聊天机器,研究人员可能会丧失表达个人想法的能力。

    另一个不明确的问题是一些大型语言模型的法律状态,这些大型语言模型是用网上摘录内容训练的,有些内容的权限处于灰色地带。版权法和许可法目前只针对像素、文本和软件的直接复制,但不限于对它们风格上的模仿。当这些由 AI 生成的模仿内容是通过输入原版内容来训练的,问题也随之而来。

    (4)强制诚信使用

    因此,一些研究人员相信,给这些工具设立边界可能十分必要。当前关于歧视和偏见的法律(以及对 AI 恶意用途实施有计划的监管)有助于维护大型语言模型使用的诚信、透明、公正。与此同时,人们也在倡导大型语言模型的使用需要更透明的披露。学术出版机构(包括《自然》的出版商)已经表示,科研人员应当在论文中披露大型语言模型的使用。《科学》则更进一步,要求所有论文中都不得使用ChatGPT 或其他任何 AI 工具生成的文本。

    这里有一个关键的技术问题:AI 生成的内容是否能被发现。许多科研人员正在进行这方面的研究,核心思路是让大型语言模型自己去“揪” AI 生成的文本。

    2022 年 12 月,美国普林斯顿大学的计算机科学研究生Edward Tian推出了GPTZero,这是一个 AI 检测工具,能从困惑度和突发性两个角度分析文本。OpenAI 本身已推出了 GPT-2 的检测器,并在 今年1月发布了另一个检测工具。不过,这些工具中还没有哪个敢自称绝不出错,尤其是在 AI 生成的文本经过人工编辑的情况下。OpenAI表示,在测试中,其最新工具将人类写的文本误判为 AI 生成文本的错误率为 9%,而且只能正确辨认出 26%的 AI 生成文本。

    与此同时,大型语言模型的开发者正在构建更大型的数据集,打造更智能的聊天机器人(OpenAI 拟在今年推出 GPT-4),包括专门面向学术或医疗领域的机器人。2022 年12 月底,谷歌和 DeepMind 发布了一篇预印本论文,提前预告了名为 Med-PaLM 的临床专业大型语言模型。这个工具可以回答一些开放式的医学问题,水平与普通人类医师相当,但仍有缺陷和不可靠的问题。美国加州斯克利普斯研究所主任 Eric Topol 表示,他希望将来整合了大型语言模型功能的 AI 能将全身扫描与学术文献中的内容进行交叉验证,帮助诊断癌症,甚至理解癌症。但他强调,这一切都需要专业人士的监督。

    生成式 AI 背后的计算机科学发展迅速,基本每个月都会有新成果。研究人员如何使用这些工具不仅决定了它们的未来,也决定了人类的未来。

    参考文献:1. Nature Portfolio. ChatGPT与科研:革新与隐患共存| 《自然》长文. https://mp.weixin.qq.com/s/qHYbDfDY8S47mXK65TsF_A.

    2. Pividori, M. & Greene, C. S. Preprint at bioRxiv https://doi.org/10.1101/2023.01.21.525030 (2023).

    3. GPT, Osmanovic Thunstr?m, A. & Steingrimsson, S. Preprint at HAL https://hal.science/hal-03701250 (2022).

    4. Nature Mach. Intell. 5, 1 (2023).

    5. Glaese, A. et al. Preprint at https://arxiv.org/abs/2209.14375 (2022).

    6. Thorp, H. H. Science379, 313 (2023).

    7. Kirchenbauer, J. et al. Preprint at https://arxiv.org/abs/2301.10226 (2023).

    8. Singhal, K. et al. Preprint at https://arxiv.org/abs/2212.13138 (2022).

相关报告
  • 《从 ChatGPT 看生成式 AI 对情报学研究与实践的影响》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-07-11
    • 一般地,情报学理论范式指导情报实践工作。有研究将情报学理论范式分为 4 种,并阐释了每种范式下的情报工作重点和发展趋向,分别是:泛信息论范式下的知识管理与综合性知识服务;学术信息服务范式下的信息检索与服务;决策情报服务范式下的战略情报支持;社会信息服务范式下的企业 竞争情报、社会情报、舆情传播等。鉴于这4种范式较为全面地覆盖了情报实践工作的内容,因此本文将以此为视角,分析生成式AI将对情报实践产生的影响。 1.  拓宽知识资源建设渠道,打造知识服务新生态 知识服务是各类情报机构的一项重要职能,而智慧型知识服务是人工智能时代的产物。生成式AI又将推进智慧型知识服务向高级阶段的进化。从知识生产层面,传统的知识资源多出自出版社、数据库商以及情报机构的自建数据库和知识库。生成式AI的出现将拓宽情报机构知识资源建设的渠 道,AI辅助用户内容创作、AI自动生成内容成为 新的知识生产模式。一方面,每个用户可参与到知 识生产过程中,通过AI辅助获取知识创作的灵感、素材,由AI生成文本、图像、代码、3D模型等多模态知识,实现内容续写、跨模态内容生成( 文字 合成图片或视频等),可极大提升用户体验;另一 面,生成式AI能够通过学习数据的底层模式再自动生成新内容。但就目前最先进的生成式AI技术ChatGPT而言,一大特点就是无法保证生成内容的准确性,这与知识的属性相斥。近期发表在Nature上的文章《ChatGPT:五大优先研究问题》中,研究者指出,ChatGPT 被用于科学界,必须要 坚持人类审查的原则。这无疑对情报机构提出 了新的挑战,即缺少前端的专家审核,情报机构需要承担对AI生成知识内容的人工审核与质量把控 的任务。从知识服务层面,随着元宇宙概念的提 出,情报服务机构致力于构建结合 AR、VR、人工智能等技术的超现实空间与现实空间融合的虚实共生的知识服务场景,而生成式 AI 技术也将为此贡献巨大力量,比如利用AIGC生成虚拟人或数字人,利用“ChatGPT+虚拟人”技术打造人机交互新入口,为用户提供沉浸式、立体化知识体验,有助于拓宽情报机构知识服务的范畴,构建知识服务新生态。 2.  塑造学术信息检索新范式,优化学术信息服务模式 ChatGPT的出现对搜索引擎业务构成了较大威胁,但百度指出生成式AI并不能替代搜索引擎,两者是一种互补的关系,并提出了融合两者功能的“生成式搜索”概念,这对情报领域的学术信息搜索发出了信号。一方面,针对以 Web of Science、中国知网、情报机构自建知识库等为代表的学术信息搜索平台,如果借鉴ChatGPT与WebGPT的联动效应,将生成式AI整合至学术搜索平台中,使其实时根据数据库内容更新,生成的内容参考了某篇学术论文则注明其来源。用户关于某一研究主题 得到的检索结果将不仅是文献列表,也能呈现由生成式AI筛选、整合、总结生成的文献综述,又或是根据读者描述的研究思路,基于对海量文献中图表、图像数据的学习,生成技术路线图以供参考,甚至是针对某领域的研究成果,利用生成式AI抽取细粒度知识,自动生成学术知识图谱,把复杂的关 联研究直观地呈现给读者,以交互式问答方式回答读者的问题,并通过连续对话提升读者体验;另一方面,对于学术科研互动社区,生成式AI在学习了 科研用户海量的问答数据之后,可针对用户搜索或提问生成答案。由此可以预测,生成式 AI 将会重塑 学术信息检索新范式,有助于优化信息服务模式, 但其能力边界与训练时被投喂的数据数量、质量、丰富度有很大关系,这将是情报实践工作中着重考 虑的问题。此外,最重要的是,基于 AI 的学术信息 服务需在明确的使用规范前提下开展,避免被错误和虚假信息误导而产生学术不端等后果,这一问题 正是当前学术圈讨论的热点。 3.  挑战决策情报服务体系,驱动情报效能提升 决策支持服务是情报工作的一项重要内容,主要面向国家科技战略、产业发展与产业结构政策、学科发展等战略决策型关键问题,通过文本挖掘、科学计量等方法深度剖析科技发展态势、学科演化、政策布局,形成战略咨询报告。ChatGPT 发布 以后,被尝试用于生成行业分析报告、市场调研报 告等。其使用了来自人类反馈的强化学习方案,具备良好的思维链能力,能够针对特定问题自主生成解决方案。虽然从目前来看,生成的报告内容仍然 不够专业可信,并不能直接用于指导决策,但随着不断地反馈学习以及模型算法的优化,性能会极大地提升。这对面向决策支持的情报服务产生了较大的冲击和挑战,然而并不会完全取代情报人员的工作,而是作为辅助工具加速推进决策支持服务的智能化,驱动情报效能的提升。因为,即便是在Zero-shot设置下执行下游任务,也需要向AI输入提示。换言之,在决策支持服务中,最基本也是最重 要的环节是情报分析对象、方向、预期的情报产物 形式与内容(比如战略报告的框架)的确定,生成 式AI仅作为辅助情报分析与内容生成的工具,前提是情报人员向其输入合适的问题,这意味着情报人员需要对用户需求有深刻的理解并承担情报产品 的设计工作。从另一方面来看,生成式AI有助于将情报人员从琐碎的分析、撰写任务中解放出来,更多地投入创新性研究工作中。比如,在利用科学计量学分析方法辅助制定科技发展战略规划时,AI可以依据已有的理论和方法,针对特定问题基于数据挖掘生成分析报告,但探索计量学新理论、新律,具体到更加科学有效的新的指标体系构建等创造性工作中,仍然需要专业人员的深入研究和持续创新。 4.  增加社会信息服务压力,凸显情报价值引领 在社会信息服务范式下,情报工作在企业竞争情报服务、安全情报服务、舆情风险预警与治理、数据治理等领域发挥着重要作用。生成式AI在赋能情报收集、处理与分析的同时,也会带来一系列负面影响,增加情报服务的压力。比如,在社会安全和舆情治理方面,ChatGPT可能会成为谣言制造者或舆论引导者的辅助工具,在一些误导性、充斥阴谋论的提问下大量改编信息,引导社会舆论向片 面、极端的方向发展。这在一定程度上会加大风险的情报感知与情报预警的难度。在数据治理方面,近年来关于科研大数据治理、企业大数据治理、政府大数据治理等问题愈发重要,治理的维度涉及数据安全、数据标准、数据质量等。伴随着 ChatGPT等生成式AI的快速发展,海量AI生成数据涌向经济、科研、政务等各个领域,由此带来的数据治理 压力是巨大的。从生成式AI模型的工作原理来看,生成数据的质量取决于训练时被投喂的数据质量和输入提示的有效性。因此,数据治理不仅涉及到AI创造的内容,同样涉及训练数据和提示数据。可以预见,情报学在数据治理领域将面临较大挑战,具体包括AI生成数据的质量管理、标准化、数据归类、数据产权归属等各类问题。然而,从另一个角度来看,生成式AI在增加社会情报服务压力的同时,也更加凸显情报的价值和社会效用,如 何充分发挥情报在综合研判、监测预警、信息汇聚 与治理等方面的作用,更好地服务社会发展,是情报工作在AI冲击下保持优势地位的关键。
  • 《透明的同行评议意味着什么?》

    • 来源专题:科技期刊发展智库
    • 编译者:李涵霄
    • 发布时间:2022-10-19
    •   自2018年以来,Wiley的透明同行评议倡议不断发展,支持越来越多的期刊。与Web of Science审稿人识别服务(此前被称为Publons)以及Clarivate合作,现在有80多家Wiley期刊向作者提供透明同行评议。   透明的同行评议可以公开透明地发布文章的完整同行评审过程,从最初的评审和响应到修订和最终发布决策。除了已发表的文章,读者现在可以回顾全面的同行评议历史。同行评议过程的每个元素都分配了自己的数字对象标识符(DOI),使未来的作者能够轻松引用相关同行评议内容。论文从提交到发表过程中的透明度体现了编辑和审稿人在同行评议中的努力和影响,期刊也将从更好的同行评议与满意的作者间受益。   《盆地研究》(Basin Research)主编认为,透明同行评审的积极作用包括:出版过程的开放性和透明度;当审稿人知道评论是公开的时,他们有额外的动机去给予更具建设性的意见;是一个资源和学习池,供缺乏经验的审稿人使用,他们可以看到别人是如何写评论的。