生成式人工智能软件ChatGPT已成为2023年的热门话题。作为一个令人惊叹的人类模仿者,它开启了全新的研究时代,但也带来了潜在的风险。
它参与撰写科学论文,有时甚至悄无声息。它不仅为演讲、拨款提案和课程制定大纲,编写计算机代码,还成为了研究想法的传播者。然而,它也曾编造参考文献,捏造事实,甚至发表过激言论。重要的是,它已经引发了人们的无限想象:ChatGPT时而顺从、时而引人入胜、时而寓教于乐、时而甚至令人生畏,它扮演着对话者所期望的任何角色,有些甚至是他们未曾设想过的。
为何要将一个计算机程序列入2023年影响科学的人物名单?ChatGPT并不是一个人。然而,在过去一年里,它在诸多方面对科学产生了深远而广泛的影响。
ChatGPT的目标是以其训练数据的风格继续进行似是而非的对话。然而,在这个过程中,它和其他生成式人工智能(AI)程序正在改变科学家的工作方式。它们还重新引发了关于人工智能的局限性、人类智能的本质以及如何最好地规范两者之间互动的争论。这便是为什么今年的Nature’s 10榜单中增加了非人类成员。
一些科学家早已意识到大型语言模型(LLM)的潜力。然而,对于许多人来说,2022年11月ChatGPT作为免费使用的对话程序发布后,才迅速揭示了这项技术的威力和缺陷。该程序由加利福尼亚州旧金山OpenAI的研究人员创建,其中包括Ilya Sutskever,他也是Nature’s 10之一。它建立在一个拥有数千亿个参数的神经网络上,该网络是在一个巨大的在线书籍和文档语料库上训练出来的,估计耗资数千万美元。此外,还雇用了大量员工来编辑或评价机器人的回复,进一步提升机器人的输出。今年,OpenAI已升级ChatGPT的底层LLM,并将其与其他程序连接起来,使该工具能接收和创建图像,并使用数学和编码软件提供帮助。其他公司也纷纷推出了竞争对手程序。
对于一些研究人员来说,这些应用程序已经成为无价的实验室助手——帮助总结或撰写手稿、润色应用软件和编写代码。马萨诸塞州波士顿哈佛医学院从事人工智能医学研究的Marinka Zitnik表示,ChatGPT和相关软件可以帮助人们集思广益,增强科学搜索引擎,找出文献中的研究空白。Zitnik补充说,以类似方式对科学数据进行训练的模型可以帮助建立指导研究的人工智能系统,也许可以设计出新的分子或模拟细胞行为。
然而,这项技术也充满危险。自动对话程序可能会帮助作弊者和剽窃者;如果不加以控制,它们可能会对科学知识造成不可逆转的破坏。未公开的人工智能内容已经开始在互联网上传播,一些科学家已经承认使用ChatGPT生成文章,但却没有对此声明。
此外,还有错误和偏见问题。这些都源于生成式人工智能的工作原理。LLM通过映射语言的相互联系来建立一个世界模型,然后从这个分布中抽取可信的样本,但没有评估真假的概念。这导致程序在训练数据中重现历史偏见或不准确之处,并编造信息,包括不存在的科学参考文献。
华盛顿大学西雅图分校的计算语言学家Emily Bender认为,很少有合适的方法来使用她所说的“合成文本挤压机”(synthetic text-extruding machines)。她说:“ChatGPT对环境的影响很大,而且存在问题性偏见,会误导用户认为其输出来自于人。此外,OpenAI还因窃取数据而被起诉,并被指控存在剥削劳动力的行为(以低工资雇佣自由职业者)。”
LLM的规模和复杂性意味着它们本质上是“黑盒子”,但当它们的代码和训练语料不公开时,就很难理解它们为什么会产生这样的结果。以ChatGPT为例,其训练数据集本身就是一个黑盒子。开源LLM运动正在发展壮大,但到目前为止,这些模型的能力还不如大型专有程序。
一些国家正在开发国家人工智能研究资源,让大公司之外的科学家也能构建和研究大型生成式人工智能。但目前仍不清楚监管能在多大程度上迫使LLM开发者披露专有信息或建立安全功能。
没人知道类似ChatGPT的系统还能提供多少能量。它们的能力可能还会受到计算能力或新训练数据的限制。然而,生成式人工智能革命已经开始,而且没有退路。