《中科大江俊团队自主研发Chem-GPT,改变传统化学研究范式,解放化学家双手》

  • 来源专题:数智化图书情报
  • 编译者: 黄雨馨
  • 发布时间:2023-07-11
  • 近日,中国科学技术大学化学与材料科学学院江俊团队自主研发 Chem-GPT——一款化学领域的聊天机器人程序。

    Chem-GPT 由化学数据驱动,并结合人类化学家的知识进行机器学习训练,能够针对使用者提出的问题,给出初步的实验建议。基于开源的 GPT 代码,目前阅读了 50 万化学论文,可以基于论文知识来回答化学问题、建议实验方案,驱动机器化学家「小来」做实验,解决化学品和新材料的研发问题。


    Chem-GPT 通过阅读 50 万篇化学论文,响应使用者提出的化学问题。

    1. 大胆假设:基于文献数据,给出初步实验建议;

    2. 小心求证:驱动机器化学家「小来」做实验与模拟;

    3. 精准预测:针对实验与理论数据归纳总结;

    4. 解决问题反馈优化方案驱动实验验证。,时长02:33以芬顿催化剂为例Fenton(芬顿)是众多的以人名命名的无机化学反应之一。

    芬顿反应是一种无机化学反应,过程是过氧化氢(H2O2) 与二价铁离子 Fe2+ 的混合溶液将很多已知的有机化合物如羧酸、醇、酯类氧化为无机态。反应具有去除难降解有机污染物的高能力,在印染废水、含油废水、含酚废水、焦化废水、含硝基苯废水、二苯胺废水等废水处理中有很广泛的应用。

    芬顿催化剂又叫芬顿催化氧化填料,芬顿填料,它在传统芬顿反应的基础上,将芬顿反应所需的铁氧化物通过特殊方法附着在载体表面,形成有效的芬顿催化剂。

    问:什么类型的非贵金属元素常用于芬顿催化剂?

    Chem-GPT 的结果其实就来自于江俊团队开发的化学文献机器阅读系统,该系统内置了自然语言处理模型,通过阅读数千篇芬顿催化剂相关文献,可以很快统计出文献中出现频次最多的非贵金属元素。

    化学文献机器阅读系统。文献中出现频次最多的非贵金属元素。除了对数量进行统计,该系统还能进行元素协同分析来帮助我们选择最佳的元素组合。


    最佳的元素组合。

    Chem-GPT 能从文献的精确分析中学习到正确的知识,并不是仅仅基于语言的关联性,因此它给出的答案保证了严谨与准确性。

    接下来,就可以调出机器化学家操作系统中保存的芬顿催化剂实验模板,并根据 Chem-GPT 推荐的元素组合编辑液体进样站的参数,让机器获取家小来帮助我们进行实验验证。


    就这样,小来开始了愉快的芬顿催化剂创制之旅。化学文献机器阅读系统化学文献机器阅读系统基于 Word2Vec 与机器学习算法,结合语法距离分析方法,根据关键词,从文献中抽取化学关系,包括 Alloy 和 Organic molecule 两种任务。程序使用说明如下:

    1. 数据准备:目前系统支持两种格式数据:一是 TSV 文件格式,需要从 Web of Science 网站上下载,方法如下:进入 Web of Science 网站,根据关键词检索文献后,以制表符分隔符的形式导出,具体步骤见下图所示。




    二是 PDF 格式文件格式,支持任意 PDF 格式论文。

    2. 数据准备完成后,点击页面新建任务按钮,进入新建任务页面;

    3. 在新建任务页中填写任务名称、抽取的分子类型、上传准备的数据、填写关键词信息,其中点击可添加多个关键字; 当抽取的任务类型为 ALLOY 时,需指定目标元素在元素周期表上的周期,当需抽取的任务类型为有机分子, 则无需选择。

    4. 填写完成后,提交任务,等待任务排队完成,即可获取最终化学关系抽取结果。机器化学家2021 年 6 月,在 2021 北京智源大会《科学智能》专题论坛上。中国科学技术大学化学物理系江俊教授作了题为「分子光谱与材料构效关系的机器学习研究」的演讲。

    江俊表示:「上个月,中国科学技术大学研究人员提出「机器化学家」这个概念。我从鄂维南院士提出的『AI for Science——从理论模型得到可靠的数据,再从数据得到有效的模型』得到了启示,修改了我之前的思路,并拿到了项目。」「机器化学家」将帮助人类科学家突破思维局限,从融合了底层规则的数据中,学习建立有效的复杂模型,指导化学实践。

    就在项目启动一年后,在中国科学院「数据驱动的化学、材料和生物科学的机器科学家」青年团队计划和国家自然科学基金委项目的资助下,江俊教授团队通过开发和集成移动机器人、化学工作站、智能操作系统、科学数据库,研制出数据智能驱动的全流程机器化学家。,时长02:02这个神奇的「机器化学家」是全球首个数据智能驱动的全流程机器化学家平台。

    当然,「机器化学家」并只是一年就可以完成的,这是中国科学技术大学化学与材料科学学院教授罗毅、江俊团队经过八年攻关研制出的。

    相关研究成果以「An all-round AI-Chemist with a scientific mind」为题,于 2022 年 9 月发表在《国家科学评论》(Natl.Sci.Rev.)上。

    论文链接:https://academic.oup.com/nsr/article/9/10/nwac190/6694008「机器化学家」由「化学大脑」、机器人实验员和智能化学工作站三部分组成。其中最核心的「化学大脑」通过分析大量化学实验和理论数据建立知识图谱,实现了阅读理解文献、设计化学实验、自主优化方案的能力,并配备了人机交互的操作系统,可以便于「无编程基础」的科研用户使用。机器人实验员和 16 个化学工作站之间能进行数据交换和互动,精准配合执行化学实验。

    业内专家认为,机器化学家的研究工作脱离了传统试错研究范式的限制,展现出「最强化学大脑」指导的智能新范式的巨大优势,引领化学研究朝着知识理解数字化、实验操作指令化、材料创制模板化的未来趋势前进,确立了我国在智能化学创新领域的全球领跑地位。

    全球首个数据智能驱动的全流程机器化学家。就在本月,江俊团队首次将数据驱动自动合成、机器人辅助可控合成、机器学习促进逆向设计,用于胶体纳米晶(例如钙钛矿)材料合成,探索构建了「机器科学家」平台,有望将科研人员从传统试错实验、劳动密集型表征中解放,聚焦科学创新,实现纳米晶材料数字智造。

    该研究以「A robotic platform for the synthesis of colloidal nanocrystals」为题,于 2023 年 3 月 2 日发布在《自然-合成》(Nature Synthesis)上。

    论文链接:https://www.nature.com/articles/s44160-023-00250-5「这主要得益于中国科大多学科交叉的背景,促使不同学科的科研人员汇集在一起共同做一件事。我们的目标是建成机器化学家大科学装置,解放化学家双手,加快新的化学品和新的材料研发创制。」江俊教授说。

    未来蓝图:改变传统化学研究范式,解放化学家双手

    对于未来,江俊教授希望他们可以建成一个「机器化学家」大科学装置:在一整栋大楼里,布置上百个机器人、上千个智能化学工作站。一边,全国的化学家、材料学家只需在网上提交自己的任务;另一边,团队成员通过智能操作系统分时安排机器人完成任务,最后将方案反馈给化学家们。

    基于这样一个大平台,各个课题组的实验数据可以交汇、共享,产生海量数据,实现自动提炼出数字化的知识图谱和人工智能的模型,进而指导机器人自动优化产生更好、更高效率的化学品或新材料。而且在完成各个实验过程中,机器人通过与科研人员互动,默默学习人类的操作逻辑、思维模式,很有可能在若干年之后,机器人会变成一个智能、创造力都比肩大学教授的机器化学家。

    「我们希望争取到国家的支持,在 2 至 3 年内建成拥有几十台机器人的小型装置,3 至 5 年后建成一个大科学装置。在这期间,我们还需要不断训练机器人和智能化学通用模型。」江俊教授规划着未来的研究蓝图。他们最终目标是改变传统化学研究范式,解放化学家双手。

相关报告
  • 《人工智能撬动科研范式变革!专家解读AI for Science专项部署工作》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-07-11
    • “AI for Science有可能推动我们在下一轮科技革命中走在前沿。”谈及近期科技部、自然科学基金委联合启动人工智能驱动的科学研究(AI for Science)专项部署工作,中国科学院院士、北京科学智能研究院院长、自然科学基金委“下一代人工智能”重大研究计划专家组组长鄂维南作出这样的预判。 鄂维南告诉科技日报记者,新一轮科技革命中很重要的一点,就是科学研究从“小农作坊”模式向“平台科研”模式转变,AI for Science正是推动“平台科研”的主要动力。AI技术不仅极大提高了科研活动中共性工具的效率和精度,更重要的是,它可以助力建立一个由产业需求推动科研的有效体系。 作为人工智能发展的一大趋势,国际学术界已对AI for Science形成共识——将带来科研范式的变革和新的产业业态。 “科技部、自然科学基金委联合启动AI for Science专项部署工作,进一步加强对AI for Science创新工作的统筹指导、系统布局,充分发挥我国在人工智能领域的优势,加速科学研究范式变革和能力提升,推动人工智能走向高质量应用新阶段。”中国科学院自动化研究所所长徐波说。 人工智能驱动科研突破什么瓶颈 鄂维南坦言,长期以来,科研人员在实际研究中面临四大痛点:其一,辛苦研究出来的基本原理等重要成果,用来解决实际问题时比较困难;其二,目前的实验手段,以及收集、处理、分析数据的效率相对低下;其三,科研团队工作方式多为“作坊模式”,从头到尾都自己干下来,科研效率亟待提高;其四,在解决生物制药、材料等实际问题过程中,仍然依靠经验和试错方式。 “人工智能为解决这些问题提供了有效手段,AI for Science是以‘机器学习为代表的人工智能技术’与‘科学研究’深度融合的产物。”在鄂维南看来,AI for Science为科学研究带来了新方法、新工具,在提升创新效能的同时,赋能产业应用的实际场景。 北京科学智能研究院副院长、深势科技创始人兼首席科学家张林峰认为,人工智能驱动下的科学研究最大的特点是,它以一种前所未有的方式,将不同学科、不同背景的人们连接在一起。 “Al for Science 是一个学科与知识体系大重构的过程,既需要计算机、数据科学、材料、化学、生物等学科的交叉融合,也需要数学、物理等基础学科进行更深入的理论构建和算法设计。”张林峰提醒,“当且仅当做好相关的融合,我们才有机会在新一轮科学革命中抢占先机。” 这些领域为何迫切需要AI驱动 那么,我国布局AI for Science前沿科技研发体系,将聚焦哪些领域发力? “紧密结合数学、物理、化学、天文等基础学科关键问题,布局AI for Science前沿科技研发体系,是增强基础科学研究竞争力的重要保证。”徐波解释说,新药创制、基因研究、生物育种、新材料研发等领域,则是人工智能与科学研究结合需求迫切、进展突出、具有代表性的重要方向。 比如,基于生物学机制、疾病和用药相关数据、药物的各种药学性质等建立的人工智能模型,可预测新药的安全性和有效性;通过人工智能辅助,可减少研发中的人力、物力和时间投入,提高药物研发成功率。当人工智能赋能新材料研发后,可实现将电子尺度和分子尺度等多尺度材料计算模拟方法耦合,快速筛选符合目标性能的新材料成分和构型,压缩新材料与器件研发周期和成本…… “科学研究中的人工智能方法,不能简单照搬我们熟知的AI领域,如计算机视觉和自然语言处理等领域现有模型和算法,而需要根据每个基础科学具体情况,研发针对性的智能算法、模型和软件工具。”徐波强调,只有将人工智能技术与自然科学和技术科学的领域知识深度结合,才能充分发掘人工智能加速重大科学问题研究和知识发现的变革性潜力。 整合资源形成推进合力 谈及我国在该领域的发展,鄂维南直言,我们率先意识到人工智能方法对基础科学研究可能产生的影响,全面布局AI for Science的科学研究和培养科研团队,将人工智能方法、高性能计算与物理模型相结合,并已走在了国际前沿。但如何高效利用这些优势积极引导布局,使我国在当下的科技革命中走在前列,并率先打造出新的科研体系、有效调动人才资源、合理利用资金和算力资源,是亟需解决的问题。 值得注意的是,科技创新2030—“新一代人工智能”重大项目已将AI for Science作为人工智能的重要发展方向进行安排。徐波介绍,在2022年指南中,部署了“重大科学问题研究的AI范式”任务,面向地球科学、空间科学、化学和材料科学、生物医药科学等领域重大科学问题开展创新研究。同时,面向国际竞争激烈的蛋白质结构预测领域,支持国内优势团队开展科研攻关。 记者了解到,科技部将以科技创新2030—“新一代人工智能”重大项目为牵引,加快人才、技术、数据、算力等要素汇聚,形成推进AI for Science的政策合力。在平台支撑方面,科技部正在加快推动公共算力开放创新平台建设,将为AI for Science发展打造智能算力基座;在机制创新方面,科技部将鼓励用户单位围绕业务深度挖掘技术需求和科学问题,深度参与模型研究与算法创新,积极开放数据、资源。 着眼未来发展,鄂维南提醒,要把资源真正配置到一线科研人员手中。AI for Science时代,更需构建垂直整合的人才团队,以重点问题为牵引,真正让人工智能的研究人员与基础科学领域如材料、能源等的研究人员一起工作,进行高频的学术交流和思想碰撞。 “AI for Science的潜力正在不断释放,但也面临‘点’上研究较多、追逐‘热点领域’研究较多,而系统布局较少的现实问题。”徐波说,为此,科技创新2030—“新一代人工智能”重大项目将在第二个五年实施阶段(2023—2027年)持续加强体系化布局和支持力度,拟研究人工智能驱动科学研究的新理论、新模型、新算法,研发跨尺度建模、高精度仿真、微分方程智能解算等共性研发工具和平台,发展一批针对典型科研领域的AI for Science专用平台,推进软硬件计算技术升级,打造智能化科研的开源开放创新生态。
  • 《情报智能体——面向“十五五”的科技情报工作新范式》

    • 编译者:程冰
    • 发布时间:2025-07-23
    • 0引言 未来发展选择可以从过去的历史中找寻演变逻辑与灵感。纵观情报学发展历程和变革驱动因素可知,其格局的变化通常是由新信息技术的采纳和旧信息技术的淘汰所驱动的。2024年以来,GPT-4o、LLaMA等大模型(Large Language Models,LLMs)以远超人类能力进化的速度和规模分析处理大量数据,具备了达到与人类相当水平的推理和规划能力的潜力。人工智能(Artificial Intelligence,AI)即将成为“执行科学发现的自主研究人员”。 作为当前最先进的AI技术之一,大模型和Agent一直以来被认为是实现通用人工智能(Artificial General Intelligence,AGI)的关键技术,融合了大模型的智能体更是呈现出自主性、具身性和互联性等关键特征,能够承担许多由人类执行的分析、创造和决策职责,提高了广泛情境中的复杂交互和认知决策。将融合大模型的Agent应用于解决科学问题,即科学智能体,正在以革命性的方式改变和颠覆几乎所有科学领域的知识发现模式。对时代的认识不能犯错误,错过时代转变机遇将遭受历史性的降维打击,文献情报工作亟待采纳智能体。 未来的发展路线都是建立在已有知识的基础之上,不同时代背景下的发展理念和技术生产力水平,塑造出文献情报工作鲜明的阶段特征。正确判断并合理选择文献情报工作未来的发展道路,需要全局掌握其来时路、清醒认知脚下路。本文通过梳理总结中国及中国科学院文献情报工作的阶段特征、剖析变革驱动要素,揭示科技情报工作发展转型的核心驱动力量。以AI为立足点,认知其赋能科技情报工作的方式,理解当前AI带来的科技情报工作范式变革,结合前期大量的思考认知积累,分析判断文献情报机构未来的工作模式选择。 1中国科技情报工作的特征和变革驱动要素 1.1 中国科技情报工作发展历程 学者们从情报学研究对象、情报技术、情报服务、情报工作等多个不同视角对中国科技情报工作的发展阶段进行研究划分。从情报工作视角开展的研究,尽管阶段划分之间存在差异,但都认为中国科技情报事业的开端是1956年,即中国科学院科学情报研究所(中国第一个综合性科技情报机构)成立。近70年历程,中国科技情报事业所面临的需求和技术能力都在变迁,科技情报工作的目标定位和发展特点也在逐步变化。中国科技情报工作可以划分为4个阶段:第一阶段是1956至1978年,逐渐建立国家、省、市级的体系化的科技情报机构,主要工作目标是获取国外的科技资料,来支撑中国科技战略规划的制定;第二阶段是1979至1991年,面对科技情报工作现代化问题,发展计算机情报检索技术和系统;第三阶段是1992至2014年,致力于建设电子图书馆、网络图书馆、数字图书馆,使得科技文献和知识广泛流动,以知识服务支撑科技决策,增强政府决策的科学性和战略性;第四阶段是2015年后,科技情报机构开始明确将拓展智库功能作为发展目标(表1)。 表1 中国科技情报工作的发展历程 1.2 中国科学院文献情报工作的发展 中国科学院文献情报系统由院级文献情报中心和研究所所级图书馆组成,采用全院协同的工作模式。中国科学院文献情报工作的开端始于1950年设立的院图书管理处、1956年设立的科学情报研究所、1956年设立的中国科学情报大学,1958年科学情报研究所划转科技部、中国科学情报大学并入中国科学技术大学。1977年中国科学院决定科技情报工作由图书馆承担,不另设科技情报所。中国科学院文献情报中心的发展可以划分为4个阶段:1950—1978年,文献保障服务为主的阶段;1979—2005年,发展信息服务、情报服务的创新阶段;2006—2015年,发展数字服务和知识服务的转型阶段;2016年至今,拓展智能和智库服务的变革阶段(图1)。 图1 中国科学院文献情报工作发展历程 (1)文献保障服务阶段。科技文献服务、图书馆咨询服务(1950—1978年)。从1950年到1978年,中国科学院文献情报中心经历了从无到有的建设,发展成拥有完善服务体系的自然科学图书馆。图书馆服务的主要特征是文献保障,核心能力体现在印本馆藏的建设和参考咨询服务上,建立了一个全面覆盖多学科、多类型、多语言的馆藏体系,编制专题目录、联合目录和文献索引等,构建了较为完整的全国性检索刊物体系,围绕科研和管理需求,开展专题文献、文摘、参考咨询等工作。 (2)信息化发展创新阶段。科技信息与科技情报服务(1979—2005年)。1978年12月,中国科学院文献情报中心确立图书情报一体化体制,率先在图书馆启动计算机应用研发,设立国际联机检索服务终端。2001年组织建设国家科学数字图书馆(CSDL)。数字图书馆主要特征是信息化文献服务和科技信息服务,服务的核心能力,既包含传统的印本馆藏、书目数据库和全文数据库建设,也包括信息服务系统建设,提供个性化的系统门户、虚拟阅览室和网络资源导航,并通过科学计量分析等方式为用户提供服务。 (3)数字化知识服务转型阶段。数字化信息服务与知识服务(2006—2015年)。2006年,中国科学院文献情报系统,按照数字化发展逻辑,提升整体科技情报服务能力,面向一线科研人员开展科技情报研究、信息专报、信息平台与工具建设等工作,文献情报服务从传统图书馆服务向知识服务转化。2006—2015年间中国科学院文献情报工作实施知识服务转型,围绕用科研工作流建设和提供数字化文献情报服务。科技情工作的核心能力是采集数字化文献和网络信息,构建集成检索平台、文献数据库和学科服务网络,提供学科服务、情报服务和集成系统服务,包括情报分析报告、专利分析报告、研发信息平台或工具等。 (4)智能化和智库服务拓展阶段。智能化服务与智库研究(2016年至今)。2015年,国家发布《关于加强中国特色新型智库建设的意见》,中国科技情报机构开始向智库化转型。“十四五”期间,中国科学院文献情报中心建立科技信息大数据体系,发展科技创新知识服务,聚焦科技情报大数据平台,开展数据型文献情报服务。将智能化作为其核心特征,以数据要素、技术要素为重要驱动力,融合文献数据库、学术信息内容、科研信息等多种资源,建立信息集成能力、计量评价工具和情报研究能力,满足用户对于知识服务、态势分析、学术评价等的核心需求。 1.3 驱动中国科技情报工作变革的要素——情报需求与信息技术 中国科技情报工作是伴随适应把握国外科技动态的需求和科技决策服务需求而生,致力于满足不断变化的科技和社会需求,同时,技术发展也不断引领着科技情报工作的变革与突破。纵观中国科技情报工作的发展历程和特征,信息技术发展和应用是主要的演进脉络与驱动要素,智能技术采纳一直是科技情报行业从业人员长期追求的期望,如自动信息采集、机器翻译、多源信息融汇、结构化情报分析等。在需求和技术的双力驱动下(图2),科技情报工作从“对内服务”到“向外服务”,从“现场服务”到“远程服务”,从“文献提供服务”到“情报分析服务”,从“情报分析服务”到“决策情报支撑服务”,从“情报服务”到“智库研究”等,其服务模式和服务内容均已发生巨大变化。中国科学院科技情报工作的长期发展中,采纳信息技术逐步叠加,形成了以信息技术为核心的科技情报布局,满足多层次、多目标的科技情报服务需求。 图2 中国科学院文献情报工作的需求拉动与技术驱动 1.3.1 需求拉动,形成了“文献保障-信息检索-知识服务-智库研究”的多元叠加型情报需求 从情报工作生命周期的视角看,学者一致认为“情报流程始于需求分解、终于情报需求满足,既受决策驱动,又以支持决策为目标”,情报工作的起点是情报需求,基于情报需求的服务场景,情报工作人员以提供政策性的、可选的建议或解决方案为产出目标。情报需求的来源和层次十分多样,可以来自国家战略层面、组织发展层面和个人发展层面等,也可以来源于政府、企业、高校等不同类型的社会主体。20世纪50年代中期,由于中国对国外科技动态和成果的把握不力,直接影响到中国科技和经济的发展。国家对科技情报工作的需求,直接导致了1956年建立综合性的科技情报机构,开始搜集、研究和报道国内外的科技状况和成就,为全国的科学工作服务。随后50年建立了覆盖全国、省、市各个级别的科技情报研究所以及各个行业的情报研究所,基本上形成多层次的科技情报工作系统,保证了科技情报事业发展过程中,为科研创新服务、为经济建设服务、为管理决策服务等需求和目标的落实。1978年,面对国内检索刊物体系受到破坏,急需恢复和进一步发展以支撑科技决策的需求,根据科学技术发展规划,制定了《关于建立健全我国科技文献情报检索刊物体系的方案(草案)》和《1979—1985年全国科技文献检索刊物编译出版规划》,支持中国开始有计划,有组织,有领导地统一建立中国的检索刊物体系。至此,中国科技检索刊物向体系化方向跨出了一大步,开始走向系统建设阶段。2006年,中共中央、国务院召开全国科学技术大会,制定《国家中长期科学和技术发展规划纲要(2006—2020年)》,明确提出了用15年时间把中国建设成为创新型国家的战略目标,并提出发展国家科技创新体系的战略决策。面对国家科研创新的需求,科技情报工作向知识服务的方向演化,建设检索平台和服务网络,为科研一线服务。2015年,在中国特色新型智库建设政策的指示下,中国科技工作进入新发展阶段,也为科技情报工作的发展带来了新的契机。面对管理决策和科研创新需求,中国的科技情报工作发展在延续传统信息服务工作的基础上,拓展以知识组织、知识挖掘为主的智能服务,进一步向人与智能相结合的、以智能计算、智力开发为主的智能服务升华。当前,随着社会对知识和智能服务需求的增加,图书馆和情报机构的工作对象从传统的图书、文献扩展到了数据、信息、知识、情报、思想的全链条,驱动着文献情报工作向更深层次、更广范围、更加智能的方向发展。可以说,科技情报工作应国家科技战略发展的需要而诞生,随着国家科技战略发展和社会经济发展的需要而调整和变革。 1.3.2 技术驱动,形成了“信息检索-大数据集成-数据挖掘分析-情报推断与生成”的替代型模式 科技情报事业的发展受到信息技术和情报技术这两大关键技术动力的推动。科技情报领域始终位于信息技术应用的前沿,情报服务模式的形成和优化在很大程度上会受到信息技术和情报技术发展的影响。信息技术的广泛使用、文献工作的持续标准化、情报存储和分析技术的开发,情报传播平台的建设、信息组织和管理技术的发展,不断推动着情报内容和情报方法的革新,促进服务模式的转变。在信息技术革命的冲击下,科技情报工作经历几大变革,努力创建新型科技情报工作范式。在中国科技情报工作开创初期,科技情报工作以文献为基础,基于科技文献的外部和内部特征,向用户提供检索和利用服务。改革开放后,计算机技术开始出现和应用,中国开始建立论文数据库、专利数据库,打开了联机检索时代的序幕。1994年,中国接入互联网络,网络技术的应用,全面应用数字化技术,形成了以检索技术为核心的情报信息获取,主动推送满足用户需求的“经过加工、提炼与处理之后的情报”。21世纪,云计算、大数据、AI等新一代信息技术快速发展,促使情报工作开始向智能服务转型,情报工作者以智能化手段加工信息、激活知识、运用情报。在互联网新技术和大数据时代的推动下,获取不同来源、不同形式、多个维度的全量数据成为可能,情报研究工作积极探索整合数据分析、智能算法与决策支持等技术,以构建全面利用数据资源并实现智能化的情报服务环境。当前,技术发展带来的影响体现在情报需求分析、数据采集、加工处理和分析挖掘等的方方面面,基于AI的理念,智能化检索等技术为情报用户精准提供情报资源,可视化技术和智能推送技术使情报推送和发布更为便捷。新一代信息技术应用形成了众多的工具、方法、平台等,而新工具与方法应用必然推动图情领域理论范式的演化。2022年11月,美国OpenAI公司发布了生成式AI聊天工具ChatGPT,以人类反馈指导的强化学习算法框架为基础,具有出色的自然语言处理、数据分析、推理推断等能力。以ChatGPT模型为代表的生成式大语言模型技术的出现对各个领域产生了根本性的影响,智能体(AI Agent)已成为AI赋能专业流程的基础形式。以数据驱动为基础的科技情报领域迎来了重要变革,情报智能体将直接影响科技情报领域中的信息组织管理、信息检索查询、情报研究分析、科技监测评估等核心职能和主体业务。 2“十五五”期间中国科技情报工作的战略选择——智能体赋能 生成式AI技术深刻影响几乎所有领域科学研究,正在改变科学研究的过程与模式,科学研究智能体已经展现了巨大的发展潜力。中国科技情报工作已经走过了手工检索工具、计算机检索系统、数字图书馆服务系统、知识集成和知识分析平台等阶段,正朝着知识与情报生成方向迈进。信息技术已经从替代信息采集、信息组织、信息检索,走向替代情报分析、情报生成的情报研究智能化阶段。面向“十五五”时期,中国科技情报工作亟待充分利用大模型等生成式AI技术,搭建情报智能体生态,优化重组已有科技情报工作流程,将智能体与信息采集、信息组织、信息存储、信息检索、信息分析等工作深度融合,以智能体赋能科技情报工作,形成科技情报智能体生态,提升科技情报工作的效率。 2.1 AI赋能科学研究已经改变当代科学研究范式 科学研究的两个中心目标是科学理解和科学发现,形成科学见解和理论的基础是收集、转换和理解数据。近些年来,大数据、AI、高性能计算、混合云等信息技术迅猛发展,为加速数据密集型科学范式下的知识发现创造了条件。尤其是AlphaFold2成功解决了长达50年的蛋白质折叠难题,强有力地证明了AI在解决极具挑战性的科学问题方面拥有巨大潜能。毋庸置疑,AI是数智时代科学研究的利器,充分理解其赋能科学研究的驱动方式不仅必要、而且必需。 理解AI赋能科学研究的驱动方式,首先应该清楚AI的能力特征。根据智能程度和计算特征,业界一般将AI的发展分为4个阶段:计算智能、感知智能、认知智能、自主意识。其中,①计算智能,强调海量数据的存储和高效精准处理,这一阶段为后续发展奠定庞大的数据资源和强劲的计算资源;②感知智能,让机器拥有类人的视觉、听觉和触觉等感官能力,能够识别和理解输入的图像、声音、文字等信息,初步具备与外界交互的能力;③认知智能,这是AI发展的较高阶段,大模型等技术正在加速这一目标的实现速度。让机器具备类人的思考能力,即理解复杂概念、推理分析预测、自主决策行动等能力;④自主意识,则是AI的终极目标,机器真正具有自主意识并产生智慧,目前尚且遥远。 理解AI技术赋能科学研究的驱动方式,还应该清楚现阶段AI能够解决的科学问题边界。科学发现的假设空间是巨大和复杂的,图灵挑战发起人北野宏明将科学探索认知空间表示为图3左侧形式。其中,红色区域表示当前人类已知的科学知识。黄色区域表示基于当前已经积累的知识生成的假设空间,能够根据已有知识对其进行一致性测试和实验验证的人类可发现知识。伴随着假设的复杂性和实验验证的自动化水平,不断扩展假设空间的边界,这就构成了以人为中心的人机协同探索知识区域(蓝色)。当假设空间的范围不断变大,直至超出人类的理解认知能力和现有的知识发现模型,则需要依托借助更智能的工具或发展形成新的科学研究范式(绿色区域,边界无限且不可定义)。为了探索和发现这3个区域的知识,需要使用与之匹配的科学研究模式。 理解AI赋能科学研究的驱动方式,还应该清楚现阶段的科学研究模式。基于本文作者先前的研究结果,数智环境下的科学研究主要遵循3种研究模式:数据驱动知识发现、模型驱动知识发现以及数据与模型协同驱动知识发现,如图3右侧所示。其中,模型驱动知识发现主要是指面对基本科学原理已知的科学问题,变量或维数的增加造成计算复杂度呈指数级增长,AI通过高效解决高维数据计算发现知识。数据驱动知识发现主要是指通过对数据的分析寻找科学规律并解决实际问题,主要用于在缺乏明确原理的场景中解决具体问题。数据与模型协同驱动知识发现则适用于原理模型已有部分探索,但尚有部分并不十分清晰时,可通过原理产生模拟仿真数据,基于数据挖掘出经验性原理,相互协同促进研究发现。 综合以上分析,AI赋能科学研究呈现3种驱动方式:高维数据计算、数据增强和数据理解。高维数据计算在此不作赘述。关于数据增强,当前的AI能够有效解决特征提取、添加语义信息增强数据的多样性和稳健性、合成新数据解决数据系数或保密等问题,核心解决科学研究中的基础数据问题,有效扩展科学研究的边界,提升科学研究的质量。关于数据理解,尤其是GPT-4o、LLaMA等大模型(Large Language Models,LLMs)技术不仅能以远超人类能力的速度和规模处理和分析大量数据,而且呈现出接近人类水平的数据理解、推理和分析能力已日益展现出对自然语言理解的迹象,在达到与人类专家相当水平的推理和规划能力方面展示了显著潜力,未来大模型将在众多认知任务上与人类并驾齐驱,甚至超越人类能力。 图3 AI赋能科学研究的3种驱动方式 2.2 AI赋能科技情报工作的方式 理解情报内涵是认知AI赋能科技情报工作驱动方式的基础前提。情报是激活了、活化了的知识,具有及时性、准确性和针对性特征,是基于客观事实的主观预测。情报是在客观知识的基础上产生的,由于受当事人的认知背景和所处的时代环境等条件约束,情报带有不可否认的主观色彩。情报是通过特定活动产生的知识,具体包括3种知识类型:基本描述类、动态报告类和预测评估类。情报产生的基础不仅有知识,还有信息和数据。基于数据、信息、知识、情报间的逻辑关系学者们构建了Data-Information-Knowledge-Intelligence-Wisdom(DIKIW)模型及Data-Information-Knowledge-Intelligence(DIKI)标准模型。AI不仅能将各种复杂的数据类型(包括人类语言)转换为可互操作的量化语言,而且为复杂高维数据计算提供解决方案,促使情报不仅可以从知识中产生,还可以从海量无序的数据和规范有序的信息中直接产生。数据和智能技术的普及发展,促使DIKI链上各节点间已经从单纯的线性传递关系,扩展至循环迭代关系。科技情报工作需要在充分理解用户需求的基础上,尽可能提升数据、信息和知识等情报基础的客观性。基于AI赋能科学研究的3种方式,结合情报内涵,本文认为AI赋能科技情报工作的驱动方式有两个方面:情报基础建设,即数据生产、信息组织、知识表示,和情报生产,即情报计算,如图4所示。围绕AI赋能情报基础建设,确立了中国科学院文献情报中心“十四五”发展战略目标之一,即构建科技情报智慧数据,倾心打造的数据“收、存、治、管、用”一体化科情数据平台,实现数据生产、信息组织和知识表示等工作流程自动化。受AI认知智能水平限制,之前围绕AI赋能情报计算的过程主要以人为主、AI技术为辅的模式,处于AI赋能科学自动化中的L2层级,仅解决某一环节的自动化。未来,AI赋能科技情报工作将通过情报智能体(Documentation and Information Service Agent,DIS Agent)方式实现,将情报基础建设与情报生成深度融合,有力推动科技情报工作迈向更高水平的自动化与智能化。 图4 DIKI理论与情报类型 3基于情报智能体的科技情报工作新范式 为了进一步认识构建情报智能体的路径,需要厘清情报智能体驱动的科技情报工作新范式、新生态以及构建情报智能体的关键任务与方向。 3.1 人与情报智能体协同的科技情报工作新范式 基于科学自动化和科学智能体的层级划分体系,当前已出现的科学智能体多处于L3层级,即科学家提供问题和初始信息,科学智能体自主调用资源工具完成指定的任务;少部分呈现L4层级水平,即科学家仅提供初始信息,科学智能体自动提出科学假设并探索发现科学规律。结合情报的内涵特征,当前阶段构建的情报智能体主要以L3层级为主,因此在情报智能体赋能科技情报工作过程中,还需要与人类智能合作,如图5所示。其中人类智能,即情报专家,主要负责情报情景感知与解析、情报问题输入和情报监控输出功能。情报智能体主要负责情报情景感知与解析、情报问题理解和计算、情报结果输出和反馈优化功能。当前AI在大量认知任务上尚未完全达成与人类智能同等水平,因此对于情报情境的感知解析能力以及生成情报能力方面还需情报专家的广泛参与,提升情报质量以契合用户需求。相较于传统以人为中心的科技情报工作范式下,情报专家需要花费大量的时间在数据生产、清洗和组织工作中,相关研究表明这些工作占据科学家大约80%的时间,仅有20%的时间用于认知解析等核心活动,人与情报智能体协同的科技情报工作范式下,情报专家可能仅需花费20%的时间评估选择合适的智能体用于数据处理工作,80%的时间专注于高价值情报的生成与决策支持活动。 图5 科技情报工作的范式转型 3.2 基于情报智能体的科技情报工作新生态 基于情报内涵以及情报智能体驱动的科技情报工作新范式,结合单智能体和多智能体框架,本文构建了基于情报智能体的科技情报工作新生态,如图6所示。该生态系统通过智能体的协同工作,集成了数据生产、信息组织、知识表示和情报计算四大核心功能模块,显著提升了科技情报工作的智能化水平和整体效率。以下将从整体架构、智能体构成、技术支撑、基础设施及应用流程5个方面详细阐述该生态的结构和优势。情报智能体驱动的科技情报工作新生态基于多层架构设计,主要包括4个部分:智能体集群、软件工具、基础数据和基础设施。内外协同运行:对内,通过集成调度工具、基础数据和基础设施资源,实现数据生产、信息组织、知识表示和情报计算四大核心功能的高度自动化;对外,通过智能体与情报专家及具体情报场景的交互,形成“人与智能体协同”的工作新范式。软件工具和基础设施为构建情报智能体提供了强有力的技术支撑,确保了智能体在各个工作环节中的稳定运行和高效协同。基础数据则涵盖了科技论文、专利以及社会经济等情报数据,为情报分析提供了丰富的数据源。通过各模块的协同工作,新生态实现了科技情报工作的闭环流程,为情报专家提供了系统化、自动化和智能化的支持。基于情报DIKI理论阐释,在新生态系统中,智能体集群包括4类情报智能体,分别承担数据生产、信息组织、知识表示和情报计算任务。通过这4类情报智能体的协同工作,推动科技情报工作朝向全面自动化和智能化方向发展。4类智能体的功能及作用体现如下。(1)数据生产类智能体,负责采集和生成情报数据。这类智能体可以自动从多种来源获取数据,包括学术文献、专利信息、网络资源等,为情报工作提供丰富的数据支持。通过自动化的数据采集和预处理,数据生产类智能体能够显著提高数据获取效率,并减少人工参与的需求。(2)信息组织类智能体,负责将数据进行分类、整理,形成结构化的信息。信息组织类智能体通过语义分析和分类技术,将原始数据加工为符合情报需求的结构化信息,从而便于后续的知识表示和情报分析。这类智能体可以实现自动的知识图谱构建和主题分类,为情报工作的知识构建打下基础。(3)知识表示类智能体:通过知识图谱、语义网络等方式,将信息转化为可解读的知识。知识表示类智能体在对信息进行进一步抽象和关联的基础上,构建出知识图谱,将数据和信息转化为可视化和结构化的知识体系,为情报计算和分析提供了深度支持。(4)情报计算类智能体:负责运用大模型和其他AI技术,对知识进行计算分析,生成高价值的情报结果。这类智能体可以通过趋势分析、社会网络分析等方法,从数据中挖掘出潜在的情报价值,揭示隐含的关联关系,从而为决策者提供深度的情报支持。 图6 基于情报智能体的科技情报工作新生态 3.3 构建情报智能体的关键任务方向 为了使情报智能体更好地适应未来科技情报工作需求,其构建不仅需要解决当前技术应用的适用性问题,还需前瞻性地考虑后续应用中的安全风险防控,下面具体论述两方面应重点关注的任务方向。就情报智能体的构建方面,需要解决数据和工具技术方面的关键问题,建立一个多模态规范对齐的可靠知识库和全面的工具技术库。由于情报数据来源多样,格式、质量和结构各异,必须开发先进的数据融合和语义对齐技术,确保智能体能够从多源数据中提取有效信息。通过提升特征提取、噪声处理、数据审核和语义对齐技术,构建一个高质量的知识库,支撑智能体在情报分析中的可靠性和适用性。同时,针对情报分析流程中的各类情景需求,需建立开放的工具技术库,包括情报计算工具、AI模型和通用分析工具,规范接口和使用标准,以便智能体在实际应用中可以灵活调用。加强这些关键工具和资源的建设,为智能体在复杂情报任务中的应用奠定技术基础。在情报智能体的应用过程中,安全治理和使用监管至关重要。智能体的高自主性和复杂的推理能力带来了内容生成的不可控风险,因此需要构建强大的验证系统,确保输出内容的准确性和可追溯性。监管任务还需关注智能体在情报分析中的行为合规性,通过严格的同行评议、版本控制、动态更新日志等手段,保持智能体应用的透明度。此外,为避免人类对智能体的过度依赖,需制定清晰的交互指导方案,加强人类用户的意识培训和能力提升,确保“人在环路”的协同机制得以实现。通过对安全、伦理和监管体系的不断完善,推动情报智能体在确保可信和合规的前提下,安全应用于情报分析工作中。 4结  语 科技情报工作每一次变革与发展都围绕着先进信息技术的应用展开,情报技术在科技情报工作范式变革中发挥着核心驱动作用。在大模型与Agent融合技术的推动下,构建与应用情报智能体已成为科技情报工作的必然选择。本文深入剖析了AI赋能科学研究的驱动方式,提出AI技术赋能科技情报工作的主要方式包括情报基础建设(即数据生产、信息组织和知识表示)和情报生成的计算过程,情报智能体能够实现这两种赋能方式的深度融合。在基于情报智能体的科技情报工作新生态中,智能体集群是核心模块,实现数据生产、信息组织、知识表示和情报计算四大核心功能的自动化。未来在情报机构在规划建设未来情报智能体时,为确保情报智能体稳定运行,应重点关注技术适配性以及潜在安全风险的识别与防控,确保系统的高效性、鲁棒性和可持续发展。