《AI的合法利用内容》

  • 来源专题:科技出版市场动态监测
  • 编译者: 崔颖
  • 发布时间:2025-03-05
  • 一、概述

    在最近的PubsTech会议上,有人提出,在没有通过许可协议具体授权的情况下,可以合法使用多少内容来训练人工智能系统。在考虑这个问题时,我们发现了一些反直觉的结果。

    二、背景

    生成式人工智能(GenAI)是一种可以通过分析海量数据集中的模式来创建新内容(文本、图像、音乐等)的人工智能类型。这些模型通常基于从网络上抓取的公开可用数据进行训练。在美国,开发者经常援引“合理使用(Fair Use)”版权原则来为这种训练辩护,声称其目的是特定的(训练),并且具有转化性(与原始用途不同)。

    实际上,法律立场复杂且不断演变,许多权利持有人及其代表,毫不意外地持相反观点。即使法律清晰度提高,不同的地理区域和司法管辖区也可能得出不同的结论。

    人工智能和版权法的法律复杂性超出了本文的范围。然而,对于学术出版商而言,存在一些特定问题。我们的产出中有一半是开放获取内容,而开放获取内容的设计初衷是可以被重复使用。无论是开放还是非开放,内容对后续使用的限制各不相同,例如,通常允许带有归属声明的非商业用途。

    三、有多少学术内容可以被利用?

    为了分析的目的,我们假设内容发布的许可条款对其用于训练AI系统的合法性有重大影响。因此,通过查看不同类型的许可比例,或许能够回答这个问题。

    图1 按许可分类的学术期刊产出比例

    上图显示了2023年学术期刊总产出中各种许可类型的占比:

    ·不到50%的内容没有开放许可或未指定许可。我们认为这是受版权保护的内容,权利归出版商所有。包括公共访问(Public Access,即青铜OA)产出,虽然这些内容可以在付费墙外获取,但并未赋予后续使用权。

    ·接近28%的内容是Creative Commons Attribution许可(CC BY)。这种许可允许在明确归属原作者的情况下无限制重复使用。这是开放获取倡导者常要求的许可类型。

    ·剩余22%的内容拥有更严格的Creative Commons许可。除了要求归属外,这些许可还施加了进一步限制,例如禁止商业用途(13%)或禁止衍生产品使用(9%)。

    ·只有极少量的内容完全没有限制(如CC0),或其他限制(如“Share Alike”许可)。我们的分析主要涵盖上述列出的内容。

    四、开放获取悖论

    开放获取最初被视为一种让学术内容在数字时代更具可移动性和适应性的方法。然而,在AI训练中的应用却面临实际挑战。

    即使是像CC BY这样宽松的开放获取许可,也要求归属声明。然而,生成式AI模型本质上会从它们处理的数据中剥离归属信息。尽管可以开发专门的AI来规避这一点,但大多数知名的大规模生成式AI工具并未做到这一点。因此,满足最基本的开放获取归属要求在实践中是不可行的。

    此外,传统许可通常明确界定允许的用途,而开放获取许可往往依赖于对“非商业用途”或“衍生用途”的解释,而这些解释可能因司法管辖区而异。

    相比之下,传统的受版权保护作品——通常由出版商控制——可以直接授权用于AI用途。出版商和AI公司已经在达成交易,绕过了开放获取合规的复杂性。

    五、结论

    关于AI背景下是否构成合法的“合理使用”,最终将由法院和立法者决定。定义和豁免将在不同司法管辖区之间有所不同。例如,英国对“公平引用(fair dealing)”的定义比美国的“合理使用”更为狭窄,但在某些条件下允许文本和数据挖掘。欧盟在其版权法中没有“合理使用”原则;其新兴的《人工智能法案》则着眼于透明度、问责制和数据治理的要求。此外,即使系统训练可能是允许的,结果的应用仍可能构成侵权。

    无论法律细节如何,AI公司是否可以直接从出版商那里获得内容许可?

    对于出版商持有版权的受版权保护内容,答案是肯定的。重用权由许可持有者授予,而许可协议已经是出版业的一部分。学术出版商现在正在向科技公司授权内容。一旦达成协议,被许可方就可以继续执行约定的用途。唯一的挑战在于公众认知方面,尤其是在作者不支持其作品用于AI训练的情况下。

    然而,生成式AI的兴起揭示了一个数字时代的讽刺:定义开放获取的“开放性”可能反而阻碍其在当今最具变革性技术之一中的应用。与此同时,传统的“封闭”许可仍然是AI开发者的一条更顺畅路径,尽管需要付出一定成本。出版商和作者面临的挑战是如何应对这一悖论,确保他们的作品在未来由AI驱动的世界中既受到保护又具有影响力。

  • 原文来源:https://www.deltathink.com/news-and-views-how-much-content-can-ai-legally-exploit
相关报告
  • 《使用修改的花算法利用MPP估计提取PV模块参数》

    • 来源专题:可再生能源
    • 编译者:pengh
    • 发布时间:2019-06-04
    • 光伏(PV)模块的建模对于诸如监视系统或故障检测系统的许多应用仍然是一个严重的问题。因此,已经提出了PV电池的几种等效模型,着名的所提出的模型被称为单二极管模型(SDM)和双二极管模型(DDM)。每个模型都拥有必须定义的未知参数值。在本文中,提出了两个相当于PV电池的电气模型,这些模型具有必须识别的未知参数。修改后的花算法(MFA)是一种受自然界启发的优化算法,该算法用于提取两种模型的最优参数值。所提出的算法模拟了花粉转移的途径以帮助在自然界中产生植物,换句话说,花粉可以通过许多方式来繁殖植物,这些方式可以被开发成强大的优化算法。为了评估所提出的算法,使用了几个实验数据,这些数据是在室外条件下获得的并且包含各种I-V曲线,这些I-V曲线取自三种PV电池技术,即单晶,多晶和非晶。此外,将模拟结果与两种模型的实验数据进行比较。此外,应用所识别的SDM参数来预测最大功率点(MPP)处的电流,电压和功率,然后将其与从并网光伏系统(GCPVS)的实际数据获得的MPP进行比较。 ——文章发布于2019年6月1日
  • 《Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-10-29
    • 可验证性是维基百科的核心内容政策:声明需要有引用的支持。维护和提高维基百科参考文献的质量是一项重要的挑战,迫切需要更好的工具来帮助人类完成这项工作。 在这里,Samaya AI 和 Meta FAIR 的研究人员表明,可以借助由信息检索系统和语言模型提供支持的人工智能 (AI) 来解决改进参考的过程。 这种基于神经网络的系统(这里称之为 SIDE)可以识别不太可能支持其主张的维基百科引文,然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型,因此从数千名维基百科编辑的贡献和综合智慧中学习。通过众包,研究人员观察到,对于最有可能被该系统标记为无法验证的前 10% 的引用,与最初引用的参考文献相比,人们在 70% 的情况下更喜欢该系统提供的替代方案。 为了验证该系统的适用性,研究人员构建了一个演示来与英语维基百科社区互动,发现根据 SIDE 的说法,对于相同的前 10% 最有可能无法验证的声明,SIDE 的首次引用推荐的首选频率是现有维基百科引用的两倍。结果表明,基于人工智能的系统可以与人类一起使用,以提高维基百科的可验证性。 该研究以「Improving Wikipedia verifiability with AI」为题,于 2023 年 10 月 19 日发布在《Nature Machine Intelligence》。 维基百科是访问量最大的网站之一,每年的页面浏览量达到五万亿,是当今最重要的知识来源之一。因此,维基百科上的知识几乎都是可验证的,这一点至关重要:维基百科用户应该能够使用可靠的外部来源查找并确认维基百科上的声明。为了促进这一点,维基百科文章提供了指向支持该主张的背景材料的内联引用。质疑维基百科声明的读者可以遵循这些指示并自行验证信息。 然而,在实践中,这个过程可能会失败:引文可能并不包含受质疑的主张,或其来源可能值得怀疑。这样的说法可能仍然是正确的,但细心的读者无法轻易地用引用来源中的信息来验证它们。假设维基百科的说法是真实的,其验证过程分为两个阶段:(1)检查现有来源的一致性;(2)如果失败,则寻找新的证据。 如上所述,维基百科声明的验证需要对语言的深入理解和对在线搜索的掌握。机器可以在多大程度上学习这种行为?从基础人工智能进展的角度来看,这个问题很重要。例如,验证需要能够检测自然语言中的逻辑蕴涵,并将主张及其上下文转换为寻找证据的最佳搜索词——这两个长期存在的问题主要在某种程度上的综合环境中进行了研究。 从实际角度来看,这同样重要。机器验证器可以帮助维基百科编辑标记哪些引文可能会触发失败的验证,并建议用什么来替换引文,以防它们当前不支持各自的主张。这可能很重要:搜索潜在证据并仔细阅读搜索结果需要时间和大量的认知努力。将人工智能助手集成到这个过程中可能有助于减少这两种情况。 在最新的工作中,Samaya AI 和 Meta FAIR 的研究人员开发了 SIDE,一个基于人工智能的维基百科引文验证器。SIDE 在 Wikipedia 上发现根据当前引文可能无法验证的声明,为此,扫描网络快照以寻找替代方案。 它的行为是通过维基百科本身来学习的:使用精心策划的英语维基百科声明及其当前引用的语料库,研究人员训练(1)一个检索器组件,将声明和上下文转换为经过优化的符号和神经搜索查询,以在网络规模的语料库中查找候选引用;(2) 一个验证模型,根据现有的和检索到的引文验证给定声明的可能性进行排名。 该团队使用自动指标和人工注释来评估他们的模型。为了自动测量该系统的准确性,他们检查了 SIDE 在高质量文章中恢复现有维基百科引用的情况(如维基百科特色文章类所定义)。 研究人员发现,在近 50% 的情况下,SIDE 会准确返回维基百科中使用的源作为其最佳解决方案。值得注意的是,这并不意味着其他 50% 是错误的,只是他们不是当前的维基百科来源。 该团队还测试了 SIDE 作为引文助手的能力。在用户研究中,他们将现有的维基百科引用放在 SIDE 生成的引用旁边。然后,用户评估所提供的引文在多大程度上支持该主张,以及来自 SIDE 或维基百科的哪个引文更适合验证。 总体而言,超过 60% 的时间用户更喜欢 SIDE 的引用而不是维基百科的引用,当 SIDE 将非常低的验证分数与维基百科的引用相关联时,这一比例会增加到 80% 以上。