一、概述
在最近的PubsTech会议上,有人提出,在没有通过许可协议具体授权的情况下,可以合法使用多少内容来训练人工智能系统。在考虑这个问题时,我们发现了一些反直觉的结果。
二、背景
生成式人工智能(GenAI)是一种可以通过分析海量数据集中的模式来创建新内容(文本、图像、音乐等)的人工智能类型。这些模型通常基于从网络上抓取的公开可用数据进行训练。在美国,开发者经常援引“合理使用(Fair Use)”版权原则来为这种训练辩护,声称其目的是特定的(训练),并且具有转化性(与原始用途不同)。
实际上,法律立场复杂且不断演变,许多权利持有人及其代表,毫不意外地持相反观点。即使法律清晰度提高,不同的地理区域和司法管辖区也可能得出不同的结论。
人工智能和版权法的法律复杂性超出了本文的范围。然而,对于学术出版商而言,存在一些特定问题。我们的产出中有一半是开放获取内容,而开放获取内容的设计初衷是可以被重复使用。无论是开放还是非开放,内容对后续使用的限制各不相同,例如,通常允许带有归属声明的非商业用途。
三、有多少学术内容可以被利用?
为了分析的目的,我们假设内容发布的许可条款对其用于训练AI系统的合法性有重大影响。因此,通过查看不同类型的许可比例,或许能够回答这个问题。
图1 按许可分类的学术期刊产出比例
上图显示了2023年学术期刊总产出中各种许可类型的占比:
·不到50%的内容没有开放许可或未指定许可。我们认为这是受版权保护的内容,权利归出版商所有。包括公共访问(Public Access,即青铜OA)产出,虽然这些内容可以在付费墙外获取,但并未赋予后续使用权。
·接近28%的内容是Creative Commons Attribution许可(CC BY)。这种许可允许在明确归属原作者的情况下无限制重复使用。这是开放获取倡导者常要求的许可类型。
·剩余22%的内容拥有更严格的Creative Commons许可。除了要求归属外,这些许可还施加了进一步限制,例如禁止商业用途(13%)或禁止衍生产品使用(9%)。
·只有极少量的内容完全没有限制(如CC0),或其他限制(如“Share Alike”许可)。我们的分析主要涵盖上述列出的内容。
四、开放获取悖论
开放获取最初被视为一种让学术内容在数字时代更具可移动性和适应性的方法。然而,在AI训练中的应用却面临实际挑战。
即使是像CC BY这样宽松的开放获取许可,也要求归属声明。然而,生成式AI模型本质上会从它们处理的数据中剥离归属信息。尽管可以开发专门的AI来规避这一点,但大多数知名的大规模生成式AI工具并未做到这一点。因此,满足最基本的开放获取归属要求在实践中是不可行的。
此外,传统许可通常明确界定允许的用途,而开放获取许可往往依赖于对“非商业用途”或“衍生用途”的解释,而这些解释可能因司法管辖区而异。
相比之下,传统的受版权保护作品——通常由出版商控制——可以直接授权用于AI用途。出版商和AI公司已经在达成交易,绕过了开放获取合规的复杂性。
五、结论
关于AI背景下是否构成合法的“合理使用”,最终将由法院和立法者决定。定义和豁免将在不同司法管辖区之间有所不同。例如,英国对“公平引用(fair dealing)”的定义比美国的“合理使用”更为狭窄,但在某些条件下允许文本和数据挖掘。欧盟在其版权法中没有“合理使用”原则;其新兴的《人工智能法案》则着眼于透明度、问责制和数据治理的要求。此外,即使系统训练可能是允许的,结果的应用仍可能构成侵权。
无论法律细节如何,AI公司是否可以直接从出版商那里获得内容许可?
对于出版商持有版权的受版权保护内容,答案是肯定的。重用权由许可持有者授予,而许可协议已经是出版业的一部分。学术出版商现在正在向科技公司授权内容。一旦达成协议,被许可方就可以继续执行约定的用途。唯一的挑战在于公众认知方面,尤其是在作者不支持其作品用于AI训练的情况下。
然而,生成式AI的兴起揭示了一个数字时代的讽刺:定义开放获取的“开放性”可能反而阻碍其在当今最具变革性技术之一中的应用。与此同时,传统的“封闭”许可仍然是AI开发者的一条更顺畅路径,尽管需要付出一定成本。出版商和作者面临的挑战是如何应对这一悖论,确保他们的作品在未来由AI驱动的世界中既受到保护又具有影响力。