1.知识获取能力提升是AI飞速突破的本质所在
人工智能技术近年来取得的飞速突破,主要得益于机器学习的进步,特别是深度学习的成熟应用。以深度学习为典型代表的机器学习,改变了计算机解决问题的模式,大幅提升了从语料中获取知识的能力。知识获取能力的提升正是AI飞速突破的本质。机器学习,改变了计算机解决问题模式,实现了从人类输入知识让机器完成任务,到让机器自动学习知识再让机器利用所学到的知识去完成任务的转变。早期基于规则的人工智能(Rule-BasedAI)是由人类总结经验知识、输入特定规则来实现的。但是随着规则之间的相互作用成倍增加,人工编写的规则无法穷尽人类知识且难以灵活修改。机器学习可以直接通过分析大量数据,学习隐藏在语料中的规律和逻辑,并根据数据特征构建模型以完成任务目标。这种改变,能够让机器具备了自我学习的能力。近十多年来,随着大样本训练语料的涌现和大规模计算能力的提升,深度学习的知识学习性能也得到了大幅提升。深度学习方法基于人工神经网络,是一种特定类型的机器学习技术,它充分利用大样本的训练语料,在大规模计算集群的支持下,能够深入细致地从大规模的训练语料中挖掘出解决问题的知识,将机器学习模型的拟合能力提升到了新的高度,使机器获取知识的能力大幅提升。而ELMo、GPT、BERT等预训练模型的推出,改变了自然语言处理的整个发展方向。基于预训练(Pre-Training)和微调(Fine-Tuning)的两阶段学习方法成了为当前自然语言处理的发展主流。两阶段学习,预示着无监督的文本知识学习也是重要的学习环节。对未经人工标注过的特定类型语言文本的学习,能够提升后续自然语言处理任务对这种类型语言文本的处理效果。以大规模语言模型为代表的无监督语料的学习,进一步提升了机器获取知识的能力。ChatGPT的研发历程,就是知识获取能力不断提升的过程。它基于更大规模的训练语料,通过堆叠扩展Transformer结构(从GPT-1的12层到GPT-3的96层),增加模型训练的参数数量(从GPT-1的1.17亿增加到GPT-3的1750亿),采用基于人类反馈指导(Reinforcement Learning with
Human Feedback,RLHF)的强化学习算法框架,不断提升了人工智能的知识获取能力和解决问题的能力,最终实现了从量的积累到质的变化。
2.数据资源是人工智能的知识源泉
各类人工智能语料其实是知识的载体,蕴含着丰富的知识内容和知识关系,是人工智能获取知识的源泉。除了基本的语法结构、词汇用法等浅层知识外,语料中往往还隐含着许多更具价值的深层知识内容,如科技文献库中包含特定领域的研究背景、研究思路、研究方法、研究成果、理论发展、总结与展望等。这些隐藏于语料的知识是人工智能的基石。如果仅有算法模型,而没有足够的语料支持,人工智能的学习能力将得不到有效的提高。回顾深度学习的很多算法模型的发展历史,可以看到,只有具备了大规模的语料和必要的算力,这些算法模型才能充分发挥作用。深度学习的基础,神经网络的概念最早可以追溯到1943年。而现在我们熟悉的很多神经网络模型,也在20世纪八九十年代就开始出现。例如,1990年,ELMAN就提出了循环神经网络(Recurrent Neural Network,RNN)模型;而RNN的变体长短期记忆网络(Long Short-Term Memory,LSTM)也于1997年就由Hochreiter等提出。但当时,由于可计算的数据资源和计算能力都非常有限,无法支持较深和较大规模的神经网络训练,导致这些模型的效果赶不上同期的一些传统机器学习方法。例如1997年Scholkopf等使用SVM方法在美国手写数字邮政服务数据库的识别错误率低至3.2%,远远超越了同时期LECUN等提出的卷积神经网络(Convolutional Neural Network,CNN)方法。当前的众多大模型都是基于大数据训练的神经网络。例如,GPT系列模型基于Transformer架构,堆叠的解码器数量随着训练数据规模的扩大而不断增加。GPT-1使用了5GB的BooksCorpus(7000本未发布的书),GPT-2使用了40GB的WebText(Reddit的高赞文章),而GPT-3不仅使用了上述数据,还在此基础上增添了语料(如BERT使用的Wikipedia,过滤后的CommonCrawl等),初始语料高达45TB。DeepMind的一项研究表明,在更多数据上训练的较小模型比在较少数据上训练的较大模型表现更好,这揭示了训练语料规模的重要性。正是由于不断提升训练语料规模和质量,驱动扩大模型容量和优化模型参数,使得当前人工智能的学习能力得以不断提升。
3.充分认识人工智能时代文献情报工作的价值和作用
ChatGPT的成功再次证明高价值语料工作是人工智能的重要基础。文献资源蕴含人类知识、表达科学机理、揭示科研成果,是很有价值的语料,而文献情报行业正是对文献资源及其内容进行知识组织、管理、分析和应用的行业。充分利用好丰富的文献资源及基隐含的知识,是文献情报机构在人工智能时代发挥作用的价值所在。文献情报领域擅长知识组织,拥有长期积累形成的叙词表、分类表、术语表、词典或本体等知识组织系统,这些知识组织系统是人类知识规范化的显性表达,是人工智能开发中非常珍贵的高价值训练语料。文献情报机构组织和管理着大量的文献资源,并进行了多种层次的加工组织。其中,有包括论文、专利、报告、会议、专著、标准在内的一次文献资源;有对一次文献进行集成、整编、组织、治理形成目录、索引、文摘、题录等二次文献资源;也有由专家编写的综述、百科全书、年鉴等三次文献资源。我们很多文献情报机构都拥有专家学者库、科研机构库、学术期刊库、科研项目库等数据库。这些结构化、有组织的数据库其实富含各领域知识、数据、事实和专家经验,在人工智能时代具有重要的价值和作用。文献的编目数据(元数据)其实就揭示了文献本身和它的外部特征之间的重要知识关系。将一篇科技文献的外部特征(如作者、作者机构、期刊分类号、关键词等)作为文献的标签,与文献内容一一对应,以形成较为成熟的结构化语料,可供人工智能训练学习。除外部特征,一篇科技文献文本中还有很多更有价值的深层知识内容,如论文中出现的研究问题、概念定义、工具方法等知识对象,其中蕴含的知识可以被称为丰富语义知识(Rich Semantics)。该类知识由多类型语义元素有机组合,具有结构化特征,但隐藏在非结构化、半结构化文献资源中。文献情报机构应当将人类活动所形成的各类科技文献库看成一个隐藏丰富人类知识的语料库。在人工智能时代,文献情报领域可以从这些科技文献库中挖掘出丰富的人类知识,为各领域的知识应用需求,提供相应的知识解决方案。
4.要在人工智能时代贡献文献情报领域的智慧和方案文献情报领域不能仅仅是人工智能技术的使用者(受益者),也应当是人工智能技术的贡献者。
文献情报工作组织和管理着大量的文献数据资源,具有将无序的信息转化为语义化、结构化知识的特征,这使文献情报工作能够在人工智能时代充分发挥其特点和优势,以支持人工智能的发展。美国化学文摘社(Chemical Abstracts Service,CAS)支持人工智能的应用创新可以被视为是文献情报领域支持化学智能研究的例子。我们知道,美国化学文摘社基于化学及相关领域科技文献的内容整编,建设了富含专业化、细粒度的化学知识内容的SciFinder数据库,拥有了有关化学物质、生物序列、反应记录、商业化学物质等高价值知识的重要知识体系。近年来,美国化学文摘社致力于利用这些高度结构化的化学大数据及其包含的丰厚化学专业知识,以支持化学领域人工智能的发展,促进新材料合成、药物靶标发现等实际科研工作的高效开展。AlphaFold及其背后的高价值数据库也可以被看成是文献情报工作支持智能科研的例子。AlphaFold算法在蛋白质结构预测中取得了惊人的突破,这离不开PDB蛋白质结构数据库(Protein Data Bank,PDB)的支持。该数据库是美国Brookhaven国家实验室于1971年创建的,是一个专门收录蛋白质及核酸的三维结构资料的数据集,其中包含了生物大分子的原子坐标、测定结构所用实验方法、温度因子、参考文献、1级和2级结构信息等。PDB推动了全世界范围内生物科学领域人工智能的高质量研究。中国科学院文献情报中心构建的“科技文献人工智能引擎(Sci AiEngine)”则是一个文献情报领域充分利用文献情报数据库资源,开发科技文献挖掘人工智能技术的一个案例。该引擎利用科技文献大数据和深度学习技术方法,从科技文献中自动学习获取科技文本挖掘的重要知识,并基于这些知识构建起核心的人工智能组件,支撑科技文献的深入挖掘和利用。实际上,该引擎利用了中国科学引文数据库(CSCD)、相关领域文献库、STKOS知识组织体系等高质量数据资源,通过深度学习等技术方法,研发出了一系列支撑科技文献深层次、细粒度挖掘的智能工具,提供科技文献摘要语步识别、科技文献自动分类、科技文献关键词抽取、命名实体识别、概念定义识别等功能服务。正如研发者所提出的,该引擎的研发希望为人工智能时代贡献文献情报领域的智慧和方案。
5.结语
知识获取能力提升是AI飞速突破的本质所在,数据资源是人工智能获取知识的源泉,高价值语料是一切人工智能的基础。在人工智能时代,文献情报领域积累的文献数据资源及其中蕴含的人类知识具有重要价值。文献情报机构要充分认识到自己在AI时代的优势和价值,文献情报领域不能仅仅是AI技术的使用者(受益者),也应当是贡献者。文献情报领域应当充分掌握和利用先进技术方法,挖掘其拥有的大数据资源,贡献数据智能,推动文献情报领域能够在人工智能时代有所作为,为这一时代贡献属于文献情报领域的智慧和解决方案。