《电子资源授权解释:图书馆授权指南之文本与数据挖掘》

  • 来源专题:科技出版市场动态监测
  • 编译者: 崔颖
  • 发布时间:2025-09-30
  •     本指南由研究图书馆协会出版,由图书馆授权专家撰写,专为负责电子资源授权的图书馆员及从业人员编写。

        文本与数据挖掘

        (1)预期成果

        文本数据挖掘(Text Data Mining,TDM)指的是依靠计算工具、算法和自动化技术,从大量非结构化或弱结构化数字内容中提取具有启示性信息的研究方法。以往的法院案例已经针对TDM相关的合理使用问题作出裁决,认定为创建和开展针对受版权保护作品集合的TDM而复制受版权保护作品的行为属于合理使用。这意味着,典型的合理使用保留条款应当维护授权用户开展TDM的既有权利。

        为避免疑义,在许可协议中直接提及TDM有助于确保用户可以开展此类活动。事实上,一些出版商希望将TDM的使用与合理使用分开进行规范,因为TDM实践涉及大量授权内容的下载或复制,而这些内容一旦向外界发布,可能会危及出版商的商业模式。所以,在协议中加入特定的TDM条款对于保护用户开展TDM以及以某种方式分享其TDM分析结果的权利是有价值的,有时甚至是必要的。

        TDM条款(或单独的TDM协议)会确定允许TDM活动的具体范围。这些权利实际上不应比合理使用本应允许用户享有的权利更小。这是一种平衡行为:如果设置了TDM条款,可能会在合理使用所允许的范围广度上有所损失。但它也在授权TDM方面提供了确定性,以避免在出版商允许的范围上产生任何争议或疑问。

        如果你的机构希望实现这一目标,你还需要考虑TDM定义或许可是否足够宽泛,以涵盖人工智能训练。

        (2)TDM属于合理使用

        在过去十年中,法院和版权局对合理使用的解释是,允许复制受版权保护的作品,以创建和挖掘受版权保护作品的语料库。这些权威机构进一步认为,向公众提供来自受版权保护语料库的衍生数据、结果、抽象概念、元数据或分析也属于合理使用,只要研究方法或数据分发过程不会以可能取代原作消费市场的方式向公众重新表达基础作品。

        (3)使用人工智能进行TDM

        由于TDM过程是对受版权保护作品的合理使用,出于同样的原因,训练人工智能(AI)工具(例如通过一种称为“机器学习”的过程)以促进TDM也应当是合理使用,这在很大程度上是因为训练不会向公众复制或传播基础的受版权保护作品。我们说“也应当是合理使用”,是因为法院和版权局目前正在处理这个问题。就我们而言,我们一直鼓励版权局保护学者和研究人员在训练AI时对受版权保护作品进行此类使用的合理使用权。

        (4)为什么提及AI?

        并非所有的TDM研究方法都需要使用AI系统来提取信息。有时可以通过开发算法来检测某一语料库中特定词汇的出现频率,或者根据各种词汇之间的邻近程度来解析情感,从而进行TDM。然而,在其他情况下,学者必须采用机器学习技术来训练AI模型,之后这些模型才能进行各种评估。

        假设一位学者希望评估20世纪小说作家描写“幸福”概念的普遍程度。这位学者可能会编制一个包含数千乃至数万部小说的语料库,然后在整个语料库中运行搜索算法,以检测“幸福”“喜悦”“欢笑”“满足”等词汇及其同义词和变体的出现情况或频率。但是,如果一位学者想要确定存在那些体现或表现出幸福特征的虚构人物,他就需要采用判别式建模(一种分类和回归技术),这种技术可以训练AI通过寻找人物心理、行为、态度、对话语气、举止、外貌等迹象中的重复模式来识别幸福的表现。而要进行这种AI训练,学者需要使用大量的授权作品。

        如果你的机构中,学者能够将机器学习或AI训练作为其TDM方法很重要的一部分,那么你会希望确保任何TDM条款或表述足够宽泛,以涵盖这些活动。提及“机器学习”和“计算分析与建模”有助于涵盖AI训练活动。

        (5)何时需要明确特定访问方式

        明确授权用户如何获取TDM所需的大量内容可能也会有所帮助。若对此不加以明确,当研究人员试图下载大量材料用于TDM时,终端用户(或整个机构)可能会被限制访问。原则上支持TDM使用的供应商,可能仍未配备工具或工作流程来支持一次性获取大量授权材料(例如,拖慢供应商的服务),因此明确这一过程的相关表述会很有帮助。一般来说,最理想的情况是TDM使用无需图书馆或供应商直接介入,但即便需要图书馆工作人员协助的TDM访问方式,也可能比每个TDM项目都要获得出版商批准更可取。

        (6)解决TDM研究项目后的数据分析保留问题

        对于电子期刊和电子书内容,若许可协议中已有永久访问条款,通常无需单独明确授权用户为TDM获取内容的数据保留问题。然而,一些供应商对TDM所用授权内容的保留更为敏感,因为涉及的下载量很大。这在商业数据库和其他主要不面向学术市场的供应商那里可能尤为棘手。因此,一些供应商会试图要求,为TDM获取的内容需在特定时间后或特定TDM项目完成后删除。但这在学术研究中并不可行,原因如下。

        ·首先,大多数学术项目没有明确的起止点,一个“项目”会产生多篇出版物,一次分析的结果会引出下一次分析,而这需要相同的数据等等。更常与企业或行业打交道的供应商可能会认为,数据可以下载并用于达成某个成果,之后就不再需要了,但这并非学术研究的推进方式。

        ·更重要的是,研究人员还需要保留数据集,以用于结果的复现和验证。评审人员和其他研究人员需要能够确定研究中使用的方法是否有效、结果是否准确,而这通常需要获取源数据。根据研究需求,源数据可能不需要完全公开。

        不过,通常情况下,数据集的完整副本需要以某种方式保留。

        (7)理想表述——“主”协议中包含的TDM条款

        [CDL示范表述]

        文本与数据挖掘。授权用户可使用授权材料开展文本和/或数据挖掘活动,用于学术研究、学术成果及其他教育目的,并可在其学术工作中利用和分享文本和/或数据挖掘的结果,且可将结果供他人使用,前提是其目的并非为第三方创建可替代授权材料的产品。许可方在收到书面请求后,应配合被许可方和授权用户,以授权用户最实用的方式和形式提供授权材料。许可方应根据请求,免费提供授权材料的副本供文本和数据挖掘使用。

        [若不接受最后一句,可使用以下表述。]

        若被许可方或授权用户请求许可方交付或以其他方式准备授权材料的副本供文本和数据挖掘使用,许可方收取的任何费用应仅基于准备和交付这些副本的时间和材料成本。

        (8)单独谈判的TDM权利或作为修正案的TDM权利

        定义:

        “授权用户”包括被许可方的全职和兼职员工(包括教师、职员和独立承包商)及学生,其实际所在地不受限制。授权用户还包括非被许可方关联人员但实际位于被许可方场所内的使用者(“临时访客”)。

        “授权材料”指附录A中列明的受本TDM许可约束的材料。

        “文本与数据挖掘”(TDM)指使用计算工具、算法、机器学习、人工智能或自动化技术,对授权材料或来自授权材料的信息进行下载、提取、分析、分类、建模或索引。

        “TDM输出”指任何TDM活动或操作的结果,能够以任何形式固定、复制和/或传播。这可能包括但不限于:创建授权材料的索引、参考、摘要、描述、模型或表示;基于授权材料的算法、公式、指标、方法、标准或分类法;对授权材料的关系表达或衡量;或对已进行TDM的授权材料的任何摘录的提取、表示、表达或讨论。

        许可授予:被许可方和授权用户可为非营利性学术、研究或教育目的,对授权材料进行TDM。被许可方和授权用户可在其学术工作中利用和分享TDM输出,或TDM得出的分析或衍生数据,并可将此类TDM输出、分析或结果供他人使用,但前提是此举不会向第三方实质性复制或再分发原始授权材料,或为第三方创建可替代授权材料的产品。

        对被许可方的限制:除非许可方书面另有规定,被许可方和授权用户应:

        ·采用商业上合理的信息安全标准开展TDM,并将TDM输出加载、安装或集成到被许可方或授权用户的服务器或设备上;

        ·不得为第三方创建竞争性商业产品或服务;

        ·不得以不合理干扰授权材料功能或严重妨碍许可方向客户提供授权材料能力的方式开展TDM。

        (9)明确TDM的特定访问方式

        授权用户应可访问许可方提供的API。API文档可在特定网址获取,许可方应为API用户提供合理的客户服务支持。

        授权用户可通过许可方的在线界面,以手动或自动方式从授权内容中下载或提取信息用于TDM。[被许可方应至少提前二十四小时通知许可方TDM下载事宜。用于TDM的授权内容自动下载速率不得超过谈判确定的速率]。

        应请求,许可方应提供授权内容的副本供TDM使用。被许可方应提供足够信息以确定TDM所需的授权内容,许可方应尽商业上合理的努力,及时按双方同意的标准文件格式满足请求。

        被许可方和许可方应本着诚信原则,确定TDM访问方式。

        (10)明确数据保留

        根据本条款提供的授权内容,授权用户可在整个TDM项目周期内保留,并可根据需要保留以用于研究结果的复现和验证。根据本条款保留的授权内容仍受本协议条款约束。

        注意与合理使用保留条款相比的局限性。

        若合同条款存在冲突,更具体的表述通常优先于一般表述。这一规则的结果是,若协议中既有合理使用保留条款,又有TDM条款,那么TDM条款将决定允许的TDM活动范围。

        由于特定条款优先于同一主题的一般条款,因此必须谨慎行事,确保谈判达成的TDM权利与合理使用所允许的范围同样宽泛。

        (11)“主”协议中包含的TDM条款

        若能在主许可协议中加入TDM条款,该条款应允许授权用户:

        ·为研究、学术或其他教育目的开展TDM。但无需定义或限制TDM的构成,这样可以为TDM研究方法的发展留出空间,例如学者使用机器学习训练算法进行TDM。

        ·在不替代授权材料或创建竞争性/商业产品的前提下,分享和公开TDM结果(或结果中的抽象概念、分析或衍生数据)。

        (12)单独谈判的TDM权利或作为修正案的TDM权利

        一些出版商更倾向于独立的TDM协议或修正案,在此过程中,他们可能会试图严格限制TDM的定义以及TDM过程中可执行或可分享的内容。

        在这种情况下,应尽量充分确保这些独立的TDM协议:

        ·以涵盖机构用户希望开展的所有TDM活动的方式定义TDM和TDM过程,包括相关的机器学习和人工智能训练。

        ·不当限制本受合理使用保护的特定TDM行为。

        ·涵盖与研究人员开展TDM的方式相符的机械或后勤流程。出版商可能会强制要求或规定TDM需通过出版商的应用程序接口(API)进行。

        ·允许用户利用和分享TDM输出或结果,同样前提是此举不会实质性再分发基础授权材料或创建竞争性产品。

        (13)“机器人”和爬虫程序

        出版商有时会试图禁止自动下载内容,这可能会对TDM产生极大影响。你可以通过如下表述寻求中间立场:

        仅在开展TDM合理必要的范围内,方可使用机器人、蜘蛛程序、爬虫程序或其他自动下载程序、工具或设备对订阅产品进行搜索、抓取、提取、深度链接或索引。

        (14)获取支持

        请机构的教职员工参与进来可能会有所帮助,既能使其理解维护TDM权利的重要性,也能为谈判争取公开支持。像加州大学的这份解释文件就可以帮助他们理解:若他们希望能够开展使用TDM(和AI)的研究,就必须维护这些权利。此外,教职员工参议院或大学校长不妨考虑发表支持维护权利的声明,这有助于向出版商传达大学的支持。

        (15)重要性与风险

        TDM方法(以及在其中使用人工智能)可能并非所在机构开展研究活动的核心。而且,标准的合理使用保留条款本应足以维护用户开展TDM的权利。然而,若知道电子资源确实会被用于TDM和/或与AI结合使用,那么建议在TDM条款中或单独的TDM协议中直接明确TDM和AI相关内容,以避免与出版商就TDM(和AI)是否被允许产生潜在争议。否则,可能会面临出版商将自动化TDM行为视为违约,并终止某个用户乃至整个机构对资源的访问权限的风险。

  • 原文来源: https://doi.org/10.29242/report.eresourcelicensing2024
相关报告
  • 《瑞士大学联盟与主要国际出版商谈判的授权》

    • 来源专题:科技出版市场动态监测
    • 编译者:崔颖
    • 发布时间:2025-06-09
    •     一、与大型国际出版商的谈判授权书     2017年,瑞士高等教育机构(由瑞士大学联盟 swissuniversities 统筹)与瑞士国家科学基金会(SNSF)共同制定了实现所有公共资助学术出版物开放获取(Open Access, OA)的目标。2024年修订的《瑞士国家开放获取战略》重申了这一目标。鉴于出版商作为学术出版服务提供者的关键角色,与出版商谈判以实现可持续转型成为实现该目标的重要举措之一。     由于爱思唯尔(Elsevier)、施普林格·自然(Springer Nature)和威立(Wiley)的垄断地位(这三家出版商合计占据了瑞士作者近一半的学术期刊出版物,并消耗了学术出版相关成本的绝大部分),swissuniversities应高等教育机构要求并代表瑞士教育、研究与创新(ERI)领域,主导与这三家主要国际出版商的共同谈判。     由 swissuniversities牵头的前两轮谈判“已推动学术出版系统向‘付费出版’开放获取模式转型”。由于出版商收费持续上涨、混合开放获取(Hybrid OA)比例攀升,以及“系统性依赖关系(以阻碍学术自由的锁定效应为特征)”,修订后的开放获取战略“要求继续与服务提供商谈判,以达成符合该战略愿景的协议,支持学术出版向开放获取稳定过渡。谈判需以战略指导原则为基础,通过共同谈判框架推进”。     指导原则:减少系统性依赖,促进学术出版多样性;提升学术出版质量;确保学术出版的财务可持续性;连接国内与国际生态系统;加强机构承诺与研究社群支持;在异构环境中推广开放科学;保持连续性稳定性以强化瑞士ERI领域。     在此背景下,谈判被视为更广泛战略进程的工具之一,其他措施包括加强钻石出版(Diamond Publishing)生态、推动长篇幅出版物及其他形式的开放获取。因此,仅当协议符合国家开放获取战略的整体目标与指导原则时,才会与主要国际出版商签署。     为推进学术出版物的开放获取,并在《瑞士国家开放获取战略》框架下,本授权书明确了与主要国际出版商谈判的目标,并规定了谈判的治理机制。     二、谈判目标     基于既往经验(尤其是学术出版成本持续上升、出版物数量膨胀及系统性依赖问题),开放科学代表团(Delegation Open Science) 决定将谈判重点聚焦于质量保障、合理定价和避免(新增)系统性依赖,尤其是与研究数据相关的依赖。     为实现符合上述目标的协议,swissuniversities计划推动以出版服务为核心的协议(例如通过预先约定且由中央支付的统一费率实现无限制出版),以抑制系统性激励导致的出版物机会膨胀。同时,swissuniversities将探索谈判目标与实践如何与其他志同道合的联盟及国际倡议协调。 与主要国际出版商协议的核心目标如下:     质量优先于数量:系统性激励措施应推动内容与服务质量的提升,而非数量扩张。具体包括通过成本控制手段(例如预先约定且由中央支付的统一费率实现无限制出版)抑制费用增长。     出版即服务(即刻开始):出版商需为旗下所有期刊(包括金色开放获取(Gold OA)期刊/产品组合,以及任何高影响力知名期刊或品牌)的出版物,提供即时开放获取服务。     无限制阅读权限(无终止):授权机构可无限制访问其指定的期刊资源,包括协议终止后对已授权期刊的持续阅读权限(协议终止后的持续访问权,Post Cancellation Rights)。     公平与实证定价:采用公平透明的定价模型(例如无限制出版的统一费率),需反映出版成本及关联服务成本(包括质量保障——同行评审、电子化工作流程、数据库维护等与研究产出直接相关的费用),并参考国际价格水平。同一费用需覆盖对付费墙内容的阅读权限。     财务可持续性:为履行公共资金的受托责任,定价需符合成本效益、可持续且透明。应避免长期价格螺旋上升,并纠正历史高价问题。     出版物即数据:所有出版物及其关联元数据(如引用信息、摘要、资助方信息、作者隶属关系)需完全开放访问且支持机器可读。     元数据交付:出版商需开放所有出版物关联元数据(如引用信息、摘要、资助方信息、作者隶属关系),并将其交付至相关开放服务平台(例如Crossref、OpenCitations、OpenAlex)。     文本与数据挖掘(TDM)及AI访问:出版商需为授权内容(包括元数据与全文)提供便捷且完整的文本与数据挖掘(TDM)访问权限。同时需允许对授权内容进行AI分析,并支持使用授权内容开发与训练自有AI模型(前提是授权内容不得因此被公开)。     开放研究数据:出版商对研究产出底层数据不享有任何独占权利,所有研究数据需遵循《瑞士国家开放研究数据战略(ORD)》处理。     许可协议:CC-BY(知识共享署名许可)是作者通过出版商发表作品的默认许可协议。其他(CC)许可仅可在作者提出具体且合理要求时使用。     权利保留:以CC协议发表的作者保留作品的完整著作权(无任何限制),并可在其他平台自由再版(包括预印本)。作者仅授予出版商非独占性出版权。     数据保护:除提供核心出版服务所必需的最小数据集外,出版商不得记录用户数据。需避免用户数据的商业化利用。     工作流程:出版商需提供用户友好的工作流程,与本授权书其他条款(尤其是许可协议)兼容,并遵循行业标准,如ESAC(电子资源访问与保存联盟) 建议。同时需为最终出版物及元数据提供API访问接口。     透明度保障:协议达成后需公开协议文本及总体价格信息。     三、谈判治理     与主要国际出版商的谈判由swissuniversities应高等教育机构及其他授权组织的要求并代表其进行。授权机构需签署与特定国际出版商(爱思唯尔、施普林格·自然、威立)的谈判授权书,并提交至swissuniversities。     签署授权书后,机构须承诺:不与该出版商进行平行谈判;不与该出版商签订新合同或延长现有整体/部分服务合同(如金色开放获取);若谈判未达成预期成果或需延期,需接受并积极准备“无协议”状态。     swissuniversities主导谈判策略。全体大会(Plenary Assembly)负责批准最终授权书,并定期接收关于谈判进展的通报。此外,swissuniversities将项目管控权与战略决策权委托给开放科学授权团(Delegation Open Science, DelOS)。     DelOS的职责包括:制定并决策谈判授权书;定义谈判流程;选举谈判代表团(Negotiation Delegation)并为其分配谈判任务;验证整体谈判结果是否符合授权书要求,并与主要利益相关方协商后决定是否批准与出版商的协议;协同 swissuniversities理事会决定对外公开信息的内容。总秘书处(General Secretariat) 负责具体流程的实施。     谈判代表团(Negotiation Delegation)的成员至少包括:swissuniversities主席(担任谈判代表团主席,定期与DelOS主席协商);瑞士学术图书馆联盟(CSAL)指导委员会主席;CSAL联盟服务负责人;大学校长代表、SNSF(瑞士国家科学基金会)领导层代表、SLiNER(瑞士国家教育、研究与创新秘书处)代表各一名。     由该谈判代表团组成的谈判委员会,由swissuniversities主席优先领导,并至少包括大学校长代表和CSAL联盟服务负责人,负责具体谈判工作。为确保流程落实,swissuniversities总秘书处以观察员身份参与。谈判代表团需定期向 DelOS汇报谈判进展并提交成果。     根据DelOS的项目授权,瑞士学术图书馆联盟(CSAL)负责:筹备、组织谈判并提供专业支持;协助决策流程;代表授权方签署DelOS批准的协议;向授权机构提供加入谈判协议的选项,由机构自主决定是否接受条款。     本谈判授权书所述目标与开放获取(OA)战略原则上适用于所有与出版商的集体谈判(例如与其他出版商的联盟谈判,或与特定学科瑞士出版商的集体谈判)。在尊重其他谈判现有治理结构的前提下,DelOS负责对本授权书相关问题的解释。同时,为加强整体协调,DelOS主席与CSAL主席需定期沟通;CSAL 在与重要出版商达成协议前,需咨询DelOS主席。
  • 《简报建议图书馆存档政府信息,授权元数据的描述许可》

    • 来源专题:图书情报
    • 编译者:mawutong
    • 发布时间:2017-09-20
    • 研究图书馆协会(ARL)发布了两期简报,回答了关于图书馆和档案馆面临的两大问题:机构可以在互联网时代下合法保护和共享政府信息? 机构有权利用元数据描述学术著作吗? NCSU图书馆版权和数字奖学金研究中心主任William Cross在《应通公平的方式来保护和分享消失的政府信息》中指出:“获取政府信息是民主社会的一项基本原则。图书馆和档案馆历史上一直是政府文件管理部门。法律应明确规定图书馆和档案馆有“特权”归档和分享政府公布的信息。 ARL公共政策主管Krista L. Cox在《元数据和版权:机构有权利用元数据描述学术著作吗?》中讨论了元数据在各种情况下的版权问题的,以及许可元数据的政策和规范,并建议对元数据进行许可,同时鼓励广泛使用和分享元数据信息。