《基于文本挖掘的主题逻辑结构识别:在图书馆期刊中的应用》

  • 来源专题:图书情报
  • 编译者: xuxue
  • 发布时间:2018-10-09
  • 目的:图书馆情报机构作为一种传统的知识管理组织,处于大数据革命的前沿,非结构化数据的使用已经成为现代知识管理的资源,本文旨在探讨这一问题。

    设计方法:本研究结合主题逻辑结构(TLS)、人工神经网络(ANN)和集成经验模式分解(EEMD)将非结构化数据转换为信号波以检验研究特性。

    研究发现:研究特征通过集中和放松对知识管理活动和管理行为产生重要影响,并最终形成准周期演化。知识管理应积极控制研究特征的演变,因为发现六至九年的自然发展难以绘制。

相关报告
  • 《电子资源授权解释:图书馆授权指南之文本与数据挖掘》

    • 来源专题:科技出版市场动态监测
    • 编译者:崔颖
    • 发布时间:2025-09-30
    •     本指南由研究图书馆协会出版,由图书馆授权专家撰写,专为负责电子资源授权的图书馆员及从业人员编写。     文本与数据挖掘     (1)预期成果     文本数据挖掘(Text Data Mining,TDM)指的是依靠计算工具、算法和自动化技术,从大量非结构化或弱结构化数字内容中提取具有启示性信息的研究方法。以往的法院案例已经针对TDM相关的合理使用问题作出裁决,认定为创建和开展针对受版权保护作品集合的TDM而复制受版权保护作品的行为属于合理使用。这意味着,典型的合理使用保留条款应当维护授权用户开展TDM的既有权利。     为避免疑义,在许可协议中直接提及TDM有助于确保用户可以开展此类活动。事实上,一些出版商希望将TDM的使用与合理使用分开进行规范,因为TDM实践涉及大量授权内容的下载或复制,而这些内容一旦向外界发布,可能会危及出版商的商业模式。所以,在协议中加入特定的TDM条款对于保护用户开展TDM以及以某种方式分享其TDM分析结果的权利是有价值的,有时甚至是必要的。     TDM条款(或单独的TDM协议)会确定允许TDM活动的具体范围。这些权利实际上不应比合理使用本应允许用户享有的权利更小。这是一种平衡行为:如果设置了TDM条款,可能会在合理使用所允许的范围广度上有所损失。但它也在授权TDM方面提供了确定性,以避免在出版商允许的范围上产生任何争议或疑问。     如果你的机构希望实现这一目标,你还需要考虑TDM定义或许可是否足够宽泛,以涵盖人工智能训练。     (2)TDM属于合理使用     在过去十年中,法院和版权局对合理使用的解释是,允许复制受版权保护的作品,以创建和挖掘受版权保护作品的语料库。这些权威机构进一步认为,向公众提供来自受版权保护语料库的衍生数据、结果、抽象概念、元数据或分析也属于合理使用,只要研究方法或数据分发过程不会以可能取代原作消费市场的方式向公众重新表达基础作品。     (3)使用人工智能进行TDM     由于TDM过程是对受版权保护作品的合理使用,出于同样的原因,训练人工智能(AI)工具(例如通过一种称为“机器学习”的过程)以促进TDM也应当是合理使用,这在很大程度上是因为训练不会向公众复制或传播基础的受版权保护作品。我们说“也应当是合理使用”,是因为法院和版权局目前正在处理这个问题。就我们而言,我们一直鼓励版权局保护学者和研究人员在训练AI时对受版权保护作品进行此类使用的合理使用权。     (4)为什么提及AI?     并非所有的TDM研究方法都需要使用AI系统来提取信息。有时可以通过开发算法来检测某一语料库中特定词汇的出现频率,或者根据各种词汇之间的邻近程度来解析情感,从而进行TDM。然而,在其他情况下,学者必须采用机器学习技术来训练AI模型,之后这些模型才能进行各种评估。     假设一位学者希望评估20世纪小说作家描写“幸福”概念的普遍程度。这位学者可能会编制一个包含数千乃至数万部小说的语料库,然后在整个语料库中运行搜索算法,以检测“幸福”“喜悦”“欢笑”“满足”等词汇及其同义词和变体的出现情况或频率。但是,如果一位学者想要确定存在那些体现或表现出幸福特征的虚构人物,他就需要采用判别式建模(一种分类和回归技术),这种技术可以训练AI通过寻找人物心理、行为、态度、对话语气、举止、外貌等迹象中的重复模式来识别幸福的表现。而要进行这种AI训练,学者需要使用大量的授权作品。     如果你的机构中,学者能够将机器学习或AI训练作为其TDM方法很重要的一部分,那么你会希望确保任何TDM条款或表述足够宽泛,以涵盖这些活动。提及“机器学习”和“计算分析与建模”有助于涵盖AI训练活动。     (5)何时需要明确特定访问方式     明确授权用户如何获取TDM所需的大量内容可能也会有所帮助。若对此不加以明确,当研究人员试图下载大量材料用于TDM时,终端用户(或整个机构)可能会被限制访问。原则上支持TDM使用的供应商,可能仍未配备工具或工作流程来支持一次性获取大量授权材料(例如,拖慢供应商的服务),因此明确这一过程的相关表述会很有帮助。一般来说,最理想的情况是TDM使用无需图书馆或供应商直接介入,但即便需要图书馆工作人员协助的TDM访问方式,也可能比每个TDM项目都要获得出版商批准更可取。     (6)解决TDM研究项目后的数据分析保留问题     对于电子期刊和电子书内容,若许可协议中已有永久访问条款,通常无需单独明确授权用户为TDM获取内容的数据保留问题。然而,一些供应商对TDM所用授权内容的保留更为敏感,因为涉及的下载量很大。这在商业数据库和其他主要不面向学术市场的供应商那里可能尤为棘手。因此,一些供应商会试图要求,为TDM获取的内容需在特定时间后或特定TDM项目完成后删除。但这在学术研究中并不可行,原因如下。     ·首先,大多数学术项目没有明确的起止点,一个“项目”会产生多篇出版物,一次分析的结果会引出下一次分析,而这需要相同的数据等等。更常与企业或行业打交道的供应商可能会认为,数据可以下载并用于达成某个成果,之后就不再需要了,但这并非学术研究的推进方式。     ·更重要的是,研究人员还需要保留数据集,以用于结果的复现和验证。评审人员和其他研究人员需要能够确定研究中使用的方法是否有效、结果是否准确,而这通常需要获取源数据。根据研究需求,源数据可能不需要完全公开。     不过,通常情况下,数据集的完整副本需要以某种方式保留。     (7)理想表述——“主”协议中包含的TDM条款     [CDL示范表述]     文本与数据挖掘。授权用户可使用授权材料开展文本和/或数据挖掘活动,用于学术研究、学术成果及其他教育目的,并可在其学术工作中利用和分享文本和/或数据挖掘的结果,且可将结果供他人使用,前提是其目的并非为第三方创建可替代授权材料的产品。许可方在收到书面请求后,应配合被许可方和授权用户,以授权用户最实用的方式和形式提供授权材料。许可方应根据请求,免费提供授权材料的副本供文本和数据挖掘使用。     [若不接受最后一句,可使用以下表述。]     若被许可方或授权用户请求许可方交付或以其他方式准备授权材料的副本供文本和数据挖掘使用,许可方收取的任何费用应仅基于准备和交付这些副本的时间和材料成本。     (8)单独谈判的TDM权利或作为修正案的TDM权利     定义:     “授权用户”包括被许可方的全职和兼职员工(包括教师、职员和独立承包商)及学生,其实际所在地不受限制。授权用户还包括非被许可方关联人员但实际位于被许可方场所内的使用者(“临时访客”)。     “授权材料”指附录A中列明的受本TDM许可约束的材料。     “文本与数据挖掘”(TDM)指使用计算工具、算法、机器学习、人工智能或自动化技术,对授权材料或来自授权材料的信息进行下载、提取、分析、分类、建模或索引。     “TDM输出”指任何TDM活动或操作的结果,能够以任何形式固定、复制和/或传播。这可能包括但不限于:创建授权材料的索引、参考、摘要、描述、模型或表示;基于授权材料的算法、公式、指标、方法、标准或分类法;对授权材料的关系表达或衡量;或对已进行TDM的授权材料的任何摘录的提取、表示、表达或讨论。     许可授予:被许可方和授权用户可为非营利性学术、研究或教育目的,对授权材料进行TDM。被许可方和授权用户可在其学术工作中利用和分享TDM输出,或TDM得出的分析或衍生数据,并可将此类TDM输出、分析或结果供他人使用,但前提是此举不会向第三方实质性复制或再分发原始授权材料,或为第三方创建可替代授权材料的产品。     对被许可方的限制:除非许可方书面另有规定,被许可方和授权用户应:     ·采用商业上合理的信息安全标准开展TDM,并将TDM输出加载、安装或集成到被许可方或授权用户的服务器或设备上;     ·不得为第三方创建竞争性商业产品或服务;     ·不得以不合理干扰授权材料功能或严重妨碍许可方向客户提供授权材料能力的方式开展TDM。     (9)明确TDM的特定访问方式     授权用户应可访问许可方提供的API。API文档可在特定网址获取,许可方应为API用户提供合理的客户服务支持。     授权用户可通过许可方的在线界面,以手动或自动方式从授权内容中下载或提取信息用于TDM。[被许可方应至少提前二十四小时通知许可方TDM下载事宜。用于TDM的授权内容自动下载速率不得超过谈判确定的速率]。     应请求,许可方应提供授权内容的副本供TDM使用。被许可方应提供足够信息以确定TDM所需的授权内容,许可方应尽商业上合理的努力,及时按双方同意的标准文件格式满足请求。     被许可方和许可方应本着诚信原则,确定TDM访问方式。     (10)明确数据保留     根据本条款提供的授权内容,授权用户可在整个TDM项目周期内保留,并可根据需要保留以用于研究结果的复现和验证。根据本条款保留的授权内容仍受本协议条款约束。     注意与合理使用保留条款相比的局限性。     若合同条款存在冲突,更具体的表述通常优先于一般表述。这一规则的结果是,若协议中既有合理使用保留条款,又有TDM条款,那么TDM条款将决定允许的TDM活动范围。     由于特定条款优先于同一主题的一般条款,因此必须谨慎行事,确保谈判达成的TDM权利与合理使用所允许的范围同样宽泛。     (11)“主”协议中包含的TDM条款     若能在主许可协议中加入TDM条款,该条款应允许授权用户:     ·为研究、学术或其他教育目的开展TDM。但无需定义或限制TDM的构成,这样可以为TDM研究方法的发展留出空间,例如学者使用机器学习训练算法进行TDM。     ·在不替代授权材料或创建竞争性/商业产品的前提下,分享和公开TDM结果(或结果中的抽象概念、分析或衍生数据)。     (12)单独谈判的TDM权利或作为修正案的TDM权利     一些出版商更倾向于独立的TDM协议或修正案,在此过程中,他们可能会试图严格限制TDM的定义以及TDM过程中可执行或可分享的内容。     在这种情况下,应尽量充分确保这些独立的TDM协议:     ·以涵盖机构用户希望开展的所有TDM活动的方式定义TDM和TDM过程,包括相关的机器学习和人工智能训练。     ·不当限制本受合理使用保护的特定TDM行为。     ·涵盖与研究人员开展TDM的方式相符的机械或后勤流程。出版商可能会强制要求或规定TDM需通过出版商的应用程序接口(API)进行。     ·允许用户利用和分享TDM输出或结果,同样前提是此举不会实质性再分发基础授权材料或创建竞争性产品。     (13)“机器人”和爬虫程序     出版商有时会试图禁止自动下载内容,这可能会对TDM产生极大影响。你可以通过如下表述寻求中间立场:     仅在开展TDM合理必要的范围内,方可使用机器人、蜘蛛程序、爬虫程序或其他自动下载程序、工具或设备对订阅产品进行搜索、抓取、提取、深度链接或索引。     (14)获取支持     请机构的教职员工参与进来可能会有所帮助,既能使其理解维护TDM权利的重要性,也能为谈判争取公开支持。像加州大学的这份解释文件就可以帮助他们理解:若他们希望能够开展使用TDM(和AI)的研究,就必须维护这些权利。此外,教职员工参议院或大学校长不妨考虑发表支持维护权利的声明,这有助于向出版商传达大学的支持。     (15)重要性与风险     TDM方法(以及在其中使用人工智能)可能并非所在机构开展研究活动的核心。而且,标准的合理使用保留条款本应足以维护用户开展TDM的权利。然而,若知道电子资源确实会被用于TDM和/或与AI结合使用,那么建议在TDM条款中或单独的TDM协议中直接明确TDM和AI相关内容,以避免与出版商就TDM(和AI)是否被允许产生潜在争议。否则,可能会面临出版商将自动化TDM行为视为违约,并终止某个用户乃至整个机构对资源的访问权限的风险。
  • 《科技期刊文本与数据挖掘人工智能应用的研究进展》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-28
    • 摘 要 【目的】对国内外科技期刊文本与数据挖掘智能化研究进展进行阐述,为科技期刊文本与数据挖掘智能化发展探 寻对策方案。【方法】采用文献分析法,检索2019—2023年英文数据库WebofScience(SCIE、SSCI、ESI)、ScienceDirect、 Elsevier及中国知网数据库中的科技期刊文本与数据挖掘智能化研究,梳理科技期刊文本与数据挖掘智能化的不同方向,并 为科技期刊文本与数据挖掘智能化发展提供对策建议。【结果】目前国外科技期刊文本与数据挖掘智能化研究在选题策 划、预印本、文献评估、同行评议以及模型探索和方法学等方面取得一定进展,我国中文科技期刊在文本与数据挖掘的智能 化方面尚存在技术融合能力不足、出版实践不足、文本数据抓取不精准、智能算法和逻辑不完善等问题。应加强文本与数据 挖掘基础布局,促进融合发展;鼓励出版实践研究,开展文本与数据深度挖掘;进一步构建完整的科技期刊文本与数据挖掘 规则等。【结论】科技期刊文本与数据挖掘智能化发展可帮助科研工作者更快捷、更准确地获取大量的科技文献信息,为科 研工作者提供更深入的思考和研究方向,但其技术应用方案仍需进一步研究探索。 对策建议 1. 加强文本与数据挖掘基础布局,促进融合发展 加强文本与数据挖掘基础布局,促进融合发展, 如:采用自然语言处理技术对科技期刊文本与数据 进行处理和分析,实现对文本的语义理解、情感分析 等功能,提高对文本的理解和处理能力;采用机器学 习技术对科技期刊文本进行分类、聚类、推荐等,实 现对文本的自动化处理和管理,提高信息检索和知 识发现的效率和准确性;采用数据可视化技术将处 理后的数据呈现为直观易懂的图形,帮助期刊更好 地理解和分析数据,发现其中规律和趋势;采用智能 推荐技术将分析的结果反馈给编辑、读者或作者,帮 助他们发现更多有价值的信息和研究成果,提高其 工作效率和科研能力。 2. 鼓励应用文本与数据挖掘人工智能的出版实践 鼓励文本与数据挖掘平台或工具的构建,以通 过智能技术对科技文献进行深度挖掘,发现其中信 息和关联,从而促进科技创新和产业发展。鉴于当 前常用的挖掘方法各有优缺点,应鼓励大量根据不 同挖掘目的开展的出版实践,并总结经验。开发优 于现状的新模式、整合优势的智能网络平台也是未 来需要探索的方向。 3. 提高关键词抓取精准度 提高关键词抓取精准度,提高高维空间的文本 相似度,提高术语(或词汇)语义相关性,避免“维数 灾难”,深度研究科技期刊语言文字术语的精细标 准[29-30],进一步完善行业标准,促进文本与数据挖 掘的智能化发展。特征选择和降维等方法也可用于 进一步优化特征向量的表示。  4. 非结构化文本的归类探索 科技期刊具有学科交叉性,文本与数据多样。 应借鉴现有经验,探索非结构化文本的特征向量转 换和算法优化方法,如在确定特征向量时,可以综合 使用词袋模型、TF-IDF模型、Word2Vec模型、LDA 模型、N-Gram模型等,选取适合文本任务和数据集 的特征向量表示方式。算法模型也需要根据研究目 的进行优化,如:在使用深度学习模型卷积神经网络 进行文本处理时,应对长文本进行截断或填充以避 免模型无法处理或丢失关键信息,用迁移学习、预训 练模型提高训练速度,采用正则化技术(如L1、L2 正则化)降低模型复杂度和过拟合风险,结合注意 力机制或空洞卷积(DilatedConvolution)提升模型对 全局上下文的感知能力等。在采用循环神经网络 (RecurrentNeuralNetworks,RNN)进行文本处理时, 可采用门控循环单元(GatedRecurrentUnits,GRU)、 长短时记忆网络(LongShort-TermMemory,LSTM) 或预训练的词嵌入模型(如BERT、GPT等)解决长 期依赖性问题,使用注意力机制(Attention Mechanism)使模型能够更好地处理长序列,利用 Transformer模型并行处理整个序列,对序列进行截 断或采样以减少参数数量和计算量,使用批处理和 GPU加速等技术提高计算效率等。