《回应AIGC的信息资源管理学人思考》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-05-18
  • 1.知识获取能力提升是AI飞速突破的本质所在

    人工智能技术近年来取得的飞速突破,主要得益于机器学习的进步,特别是深度学习的成熟应用。以深度学习为典型代表的机器学习,改变了计算机解决问题的模式,大幅提升了从语料中获取知识的能力。知识获取能力的提升正是AI飞速突破的本质。机器学习,改变了计算机解决问题模式,实现了从人类输入知识让机器完成任务,到让机器自动学习知识再让机器利用所学到的知识去完成任务的转变。早期基于规则的人工智能(Rule-BasedAI)是由人类总结经验知识、输入特定规则来实现的。但是随着规则之间的相互作用成倍增加,人工编写的规则无法穷尽人类知识且难以灵活修改。机器学习可以直接通过分析大量数据,学习隐藏在语料中的规律和逻辑,并根据数据特征构建模型以完成任务目标。这种改变,能够让机器具备了自我学习的能力。近十多年来,随着大样本训练语料的涌现和大规模计算能力的提升,深度学习的知识学习性能也得到了大幅提升。深度学习方法基于人工神经网络,是一种特定类型的机器学习技术,它充分利用大样本的训练语料,在大规模计算集群的支持下,能够深入细致地从大规模的训练语料中挖掘出解决问题的知识,将机器学习模型的拟合能力提升到了新的高度,使机器获取知识的能力大幅提升。而ELMo、GPT、BERT等预训练模型的推出,改变了自然语言处理的整个发展方向。基于预训练(Pre-Training)和微调(Fine-Tuning)的两阶段学习方法成了为当前自然语言处理的发展主流。两阶段学习,预示着无监督的文本知识学习也是重要的学习环节。对未经人工标注过的特定类型语言文本的学习,能够提升后续自然语言处理任务对这种类型语言文本的处理效果。以大规模语言模型为代表的无监督语料的学习,进一步提升了机器获取知识的能力。ChatGPT的研发历程,就是知识获取能力不断提升的过程。它基于更大规模的训练语料,通过堆叠扩展Transformer结构(从GPT-1的12层到GPT-3的96层),增加模型训练的参数数量(从GPT-1的1.17亿增加到GPT-3的1750亿),采用基于人类反馈指导(Reinforcement Learning with

    Human Feedback,RLHF)的强化学习算法框架,不断提升了人工智能的知识获取能力和解决问题的能力,最终实现了从量的积累到质的变化。

    2.数据资源是人工智能的知识源泉

    各类人工智能语料其实是知识的载体,蕴含着丰富的知识内容和知识关系,是人工智能获取知识的源泉。除了基本的语法结构、词汇用法等浅层知识外,语料中往往还隐含着许多更具价值的深层知识内容,如科技文献库中包含特定领域的研究背景、研究思路、研究方法、研究成果、理论发展、总结与展望等。这些隐藏于语料的知识是人工智能的基石。如果仅有算法模型,而没有足够的语料支持,人工智能的学习能力将得不到有效的提高。回顾深度学习的很多算法模型的发展历史,可以看到,只有具备了大规模的语料和必要的算力,这些算法模型才能充分发挥作用。深度学习的基础,神经网络的概念最早可以追溯到1943年。而现在我们熟悉的很多神经网络模型,也在20世纪八九十年代就开始出现。例如,1990年,ELMAN就提出了循环神经网络(Recurrent Neural Network,RNN)模型;而RNN的变体长短期记忆网络(Long Short-Term Memory,LSTM)也于1997年就由Hochreiter等提出。但当时,由于可计算的数据资源和计算能力都非常有限,无法支持较深和较大规模的神经网络训练,导致这些模型的效果赶不上同期的一些传统机器学习方法。例如1997年Scholkopf等使用SVM方法在美国手写数字邮政服务数据库的识别错误率低至3.2%,远远超越了同时期LECUN等提出的卷积神经网络(Convolutional Neural Network,CNN)方法。当前的众多大模型都是基于大数据训练的神经网络。例如,GPT系列模型基于Transformer架构,堆叠的解码器数量随着训练数据规模的扩大而不断增加。GPT-1使用了5GB的BooksCorpus(7000本未发布的书),GPT-2使用了40GB的WebText(Reddit的高赞文章),而GPT-3不仅使用了上述数据,还在此基础上增添了语料(如BERT使用的Wikipedia,过滤后的CommonCrawl等),初始语料高达45TB。DeepMind的一项研究表明,在更多数据上训练的较小模型比在较少数据上训练的较大模型表现更好,这揭示了训练语料规模的重要性。正是由于不断提升训练语料规模和质量,驱动扩大模型容量和优化模型参数,使得当前人工智能的学习能力得以不断提升。

    3.充分认识人工智能时代文献情报工作的价值和作用

    ChatGPT的成功再次证明高价值语料工作是人工智能的重要基础。文献资源蕴含人类知识、表达科学机理、揭示科研成果,是很有价值的语料,而文献情报行业正是对文献资源及其内容进行知识组织、管理、分析和应用的行业。充分利用好丰富的文献资源及基隐含的知识,是文献情报机构在人工智能时代发挥作用的价值所在。文献情报领域擅长知识组织,拥有长期积累形成的叙词表、分类表、术语表、词典或本体等知识组织系统,这些知识组织系统是人类知识规范化的显性表达,是人工智能开发中非常珍贵的高价值训练语料。文献情报机构组织和管理着大量的文献资源,并进行了多种层次的加工组织。其中,有包括论文、专利、报告、会议、专著、标准在内的一次文献资源;有对一次文献进行集成、整编、组织、治理形成目录、索引、文摘、题录等二次文献资源;也有由专家编写的综述、百科全书、年鉴等三次文献资源。我们很多文献情报机构都拥有专家学者库、科研机构库、学术期刊库、科研项目库等数据库。这些结构化、有组织的数据库其实富含各领域知识、数据、事实和专家经验,在人工智能时代具有重要的价值和作用。文献的编目数据(元数据)其实就揭示了文献本身和它的外部特征之间的重要知识关系。将一篇科技文献的外部特征(如作者、作者机构、期刊分类号、关键词等)作为文献的标签,与文献内容一一对应,以形成较为成熟的结构化语料,可供人工智能训练学习。除外部特征,一篇科技文献文本中还有很多更有价值的深层知识内容,如论文中出现的研究问题、概念定义、工具方法等知识对象,其中蕴含的知识可以被称为丰富语义知识(Rich Semantics)。该类知识由多类型语义元素有机组合,具有结构化特征,但隐藏在非结构化、半结构化文献资源中。文献情报机构应当将人类活动所形成的各类科技文献库看成一个隐藏丰富人类知识的语料库。在人工智能时代,文献情报领域可以从这些科技文献库中挖掘出丰富的人类知识,为各领域的知识应用需求,提供相应的知识解决方案。

    4.要在人工智能时代贡献文献情报领域的智慧和方案文献情报领域不能仅仅是人工智能技术的使用者(受益者),也应当是人工智能技术的贡献者。

    文献情报工作组织和管理着大量的文献数据资源,具有将无序的信息转化为语义化、结构化知识的特征,这使文献情报工作能够在人工智能时代充分发挥其特点和优势,以支持人工智能的发展。美国化学文摘社(Chemical Abstracts Service,CAS)支持人工智能的应用创新可以被视为是文献情报领域支持化学智能研究的例子。我们知道,美国化学文摘社基于化学及相关领域科技文献的内容整编,建设了富含专业化、细粒度的化学知识内容的SciFinder数据库,拥有了有关化学物质、生物序列、反应记录、商业化学物质等高价值知识的重要知识体系。近年来,美国化学文摘社致力于利用这些高度结构化的化学大数据及其包含的丰厚化学专业知识,以支持化学领域人工智能的发展,促进新材料合成、药物靶标发现等实际科研工作的高效开展。AlphaFold及其背后的高价值数据库也可以被看成是文献情报工作支持智能科研的例子。AlphaFold算法在蛋白质结构预测中取得了惊人的突破,这离不开PDB蛋白质结构数据库(Protein Data Bank,PDB)的支持。该数据库是美国Brookhaven国家实验室于1971年创建的,是一个专门收录蛋白质及核酸的三维结构资料的数据集,其中包含了生物大分子的原子坐标、测定结构所用实验方法、温度因子、参考文献、1级和2级结构信息等。PDB推动了全世界范围内生物科学领域人工智能的高质量研究。中国科学院文献情报中心构建的“科技文献人工智能引擎(Sci AiEngine)”则是一个文献情报领域充分利用文献情报数据库资源,开发科技文献挖掘人工智能技术的一个案例。该引擎利用科技文献大数据和深度学习技术方法,从科技文献中自动学习获取科技文本挖掘的重要知识,并基于这些知识构建起核心的人工智能组件,支撑科技文献的深入挖掘和利用。实际上,该引擎利用了中国科学引文数据库(CSCD)、相关领域文献库、STKOS知识组织体系等高质量数据资源,通过深度学习等技术方法,研发出了一系列支撑科技文献深层次、细粒度挖掘的智能工具,提供科技文献摘要语步识别、科技文献自动分类、科技文献关键词抽取、命名实体识别、概念定义识别等功能服务。正如研发者所提出的,该引擎的研发希望为人工智能时代贡献文献情报领域的智慧和方案。

    5.结语

    知识获取能力提升是AI飞速突破的本质所在,数据资源是人工智能获取知识的源泉,高价值语料是一切人工智能的基础。在人工智能时代,文献情报领域积累的文献数据资源及其中蕴含的人类知识具有重要价值。文献情报机构要充分认识到自己在AI时代的优势和价值,文献情报领域不能仅仅是AI技术的使用者(受益者),也应当是贡献者。文献情报领域应当充分掌握和利用先进技术方法,挖掘其拥有的大数据资源,贡献数据智能,推动文献情报领域能够在人工智能时代有所作为,为这一时代贡献属于文献情报领域的智慧和解决方案。

  • 原文来源:https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C44YLTlOAiTRKu87-SJxoEJu6LL9TJzd50mlP0Vq1z_WYvSVpybOwUcQh9vNazPf9c5i7DMc_RMYycmPFiYHUwrS&uniplatform=NZKPT
相关报告
  • 《第二十届中国信息资源管理论坛暨中国信息资源管理学科自主知识体系联盟成立大会成功举办》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-10-25
    • 2023年10月20日至21日,由中国人民大学信息资源管理学院、中国人民大学学科规划与建设办公室和国务院学位委员会第八届信息资源管理学科评议组联合主办的第二十届中国信息资源管理论坛暨中国信息资源管理学科自主知识体系联盟成立大会在北京召开。论坛主题为“继往开新、兼收并蓄:国家数据战略下信息资源管理的时代使命与未来走向”,吸引了来自高校、研究机构、政府机关以及企事业单位近200位嘉宾。 NO.1开幕式    20日上午8时30分,论坛隆重开幕,中国人民大学党委常委、副校长王易与国家一级教授、中国人民大学数字人文研究院院长冯惠玲发表致辞。中国人民大学信息资源管理学院院长刘越男教授主持。 王易副校长代表学校向与会嘉宾表示热烈欢迎,她在致辞中指出,世界之变、时代之变、历史之变正以前所未有的方式展开,迫切需要关注和解决好信息资源管理领域面临的中国之问、世界之问、人民之问、时代之问,加快建构中国信息资源管理自主的知识体系,建构中国自主知识体系信息资源管理学科联盟极具里程碑意义,亟需立足学科建设高质量发展,加快建构中国自主信息资源管理学科知识体系,围绕中国式现代化建设,推进信息资源管理理论研究和实践发展齐头并进,发挥好信管学科联盟作用,实现信息资源管理学科对国家战略的支撑作用。 冯惠玲教授指出,随着数字化浪潮的兴起,我们正身处一个既是最好的时代,也是最具挑战的时代。她强调了深入探讨国家数据战略下信息资源管理的时代使命和走向的紧迫性,同时从高质量数据、数据理论和数据人才的需求三个方面强调了国家战略对学科的需求。 与会嘉宾共同观看了《致敬二十年》视频短片,回顾了信息资源管理论坛20年的发展历程。随后,中国人民大学信息资源管理学院副院长钱明辉教授发布了《2023中国文化数字化创新指数(CDI)研究报告》,钱明辉教授从研究背景、研究方法、研究结论、政策启示四个层面对研究报告进行了详细介绍。中国人民大学信息资源管理学院信息管理与分析系副主任任明副教授发布了《数据要素市场化推进力指数(2023)》,任明副教授阐释了该报告的研究背景、指数设计、首轮测算结论以及工作进展情况。 NO.2中国信息资源管理学科自主知识体系联盟成立仪式     联盟成立仪式由中国人民大学信息资源管理学院院长刘越男教授主持,来自17所高校和3家杂志社/编辑部的代表参加联盟成立仪式。中国人民大学副校长王易教授、国家一级教授冯惠玲、华中师范大学党委书记夏立新教授、四川大学副校长姚乐野教授以及国务院第八届信息资源管理学科评议组召集人孙建军教授为联盟共同发起单位暨首批成员单位颁发证书。 孙建军教授在致辞中感谢各位专家学者对学科初心的坚守以及为联盟成立所付出的努力和支持。孙建军教授表达了建立开放和规范的自主知识体系和教育机制,加快信息资源管理学科基础理论体系建设,激发新生代研究力量活力的期望,并希望充分利用联盟的作用,以实现学科优秀成果的广泛传播与应用。 夏立新教授在致辞中指出,联盟的成立对于学科自主知识体系的建设具有重要意义。他强调要突出问题导向,推动知识创新;加强基础研究,促进理论创新;注重交流互鉴,推动话语创新,以此促进信息资源管理学科的高质量发展。 中国人民大学发展规划处处长、学科规划与建设办公室主任贾俊雪教授在致辞中介绍了学校层面积极践行习近平总书记考察调研讲话精神的一系列努力,学科办将一如既往支持信息资源管理学科建设和自主知识体系构建。 刘越男院长从宗旨、共同发起单位、合作内容、运行机制四个方面介绍了联盟章程和计划,获得大会一致认可。 中国信息资源管理学科自主知识体系联盟的二十家共同发起单位暨首批联盟成员如下(高校和期刊社分别按照音序排序): 北京大学信息管理系 国防大学政治学院军事信息与网络舆论系 河北大学管理学院信息资源管理学科 华东师范大学经济与管理学院信息管理系 华中师范大学信息管理学院 吉林大学商学与管理学院信息管理系 南京大学信息管理学院 南京农业大学信息管理学院 南开大学商学院信息资源管理系 上海大学文化遗产与信息管理学院 四川大学公共管理学院信息资源管理学科 武汉大学信息管理学院 湘潭大学公共管理学院信息资源管理学科 郑州大学信息管理学院 中国科学院大学经济与管理学院信息资源管理系 中国人民大学信息资源管理学院 中山大学信息管理学院 《档案学通讯》杂志社 《情报学报》编辑部 《中国图书馆学报》编辑部
  • 《中国信息资源管理论坛(10.20-21,北京)》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-25
    • 为深入贯彻落实国家重大战略部署,进一步加强信息资源管理学科建设,交流信息资源管理行业发展,探讨国家数据战略下信息资源管理的时代使命与未来走向,中国人民大学信息资源管理学院、中国人民大学学科规划与建设办公室与国务院学位委员会第八届信息资源管理学科评议组将于2023年10月20-21日在北京联合举办第二十届中国信息资源管理论坛暨建构中国自主知识体系信息资源管理学科联盟成立大会,诚邀学界与业界朋友参会交流。现将有关事项通知如下: NO.1:会议主题 继往开新、兼收并蓄:国家数据战略下信息资源管理的时代使命与未来走向 NO.2:会议时间 2023年10月20-21日 NO.3:会议地点 北京·中建紫竹酒店 NO.4:主办方 中国人民大学信息资源管理学院 中国人民大学学科规划与建设办公室 国务院学位委员会第八届信息资源管理学科评议组 NO.5:会议议程 10月20日上午· 开幕式主持人:刘越男 教授 中国人民大学信息资源管理学院院长 1.校领导致辞 2.武汉大学资深教授马费成致辞 3.国家一级教授冯惠玲致辞 4.致敬二十年 5.人大信管学院研究报告发布 · 建构中国自主知识体系信息资源管理学科联盟成立仪式主持人:刘越男 教授 中国人民大学信息资源管理学院院长 1.发起单位代表联合启动联盟 2.南京大学教授、学科评议组召集人孙建军致辞 3.华中师范大学党委书记夏立新致辞 4.中国人民大学学科规划与建设办公室主任杨东致辞 5.中国人民大学信息资源管理学院院长刘越男介绍联盟章程与计划 · 主旨报告 (一)主持人:柯平 教授 南开大学商学院 1.马费成 武汉大学资深教授 2.姚乐野 四川大学副校长 3.沙勇忠 兰州大学副校长 10月20日下午· 主旨报告(二) 主持人:王延飞 教授 北京大学信息管理系学术委员会主任 4.孙建军 南京大学教授、学科评议组召集人   5.张  斌 中国人民大学图书馆馆长·  高端对谈第一组:主题:传统学科的坚守与变革 主持人: 吴澍时 《中国图书馆学报》常务副主编 对谈嘉宾:(依姓氏笔划排序) 丁华东 上海大学文化遗产与信息管理学院党委书记 王协舟 湘潭大学公共管理学院教授、人事处处长 李玉海 华中师范大学信息管理学院院长 张  洋 中山大学信息管理学院院长 张久珍 北京大学信息管理系主任 张冬荣 中国科学院大学信息资源管理系副主任 陆  伟 武汉大学信息管理学院院长 黄水清 南京农业大学信息管理学院学科带头人 臧国全 郑州大学信息管理学院院长 第二组:主题:新兴学科的成长与未来 主持人: 《情报学报》代表 对谈嘉宾:(依姓氏笔划排序) 马  捷 吉林大学商学与管理学院副院长 刘越男 中国人民大学信息资源管理学院院长 李月琳 南开大学信息资源管理系主任、教务部部长 杨安莲 国防大学政治学院军事信息与网络舆论系主任 金胜勇 河北大学教育教学质量评估与教师发展中心主任 袁  莉 四川大学公共管理学院副院长 蔚海燕 华东师范大学信息管理系主任 裴  雷 南京大学信息管理学院院长·  主旨报告与高端对谈总结 卢小宾 教授 中国人民大学信息资源管理学院 学术委员会主任 10月21日上午· 自主知识体系联盟分论坛暨“人大信管·求是讲坛”学术沙龙第一场:人工智能赋能下的中国数字人文发展与思考 召集人:牛 力 教授 中国人民大学信息资源管理学院 第二场:算法时代的数字公平 召集人:闫 慧 教授 中国人民大学信息资源管理学院·  面向国家创新发展战略的智能科技情报理论学术研讨会 召集人:卢小宾 教授 中国人民大学信息资源管理学院 学术委员会主任 10月21日下午· 自主知识体系联盟分论坛暨“人大信管·求是讲坛”学术沙龙第三场:珍贵文献遗产保护与修复关键技术(10月21日下午) 召集人:张美芳 教授 中国人民大学信息资源管理学院 第四场:政策与科学的互动关系量化分析(10月21日下午) 召集人:杨孟辉 教授 中国人民大学信息资源管理学院 NO.6 报名缴费会议费用: 第二十届中国信息资源管理论坛暨建构中国自主知识体系信息资源管理学科联盟成立大会免收会议注册费。 与会代表自行承担交通费和住宿费。