《面向App用户评论的软件特征挖掘研究》

  • 来源专题:图书情报
  • 编译者: xuxue
  • 发布时间:2019-08-29
  • 面对数量巨大、信息非结构化的App用户评论,获取软件特征有助于App开发者进一步探索用户的特征请求及潜在需求。文章针对App用户评论的特性,提出新的App软件特征挖掘方法,以Apple App Store里真实的App用户评论为实验对象,收集、预处理评论数据,利用基于句式匹配和情感倾向的识别方法确定包含特征请求的评论范围,并通过关联规则算法提取出软件特征。实验结果显示,识别特征请求评论范围具有一定的必要性以及提取软件特征具有较高的准确性,由此验证了本文方法的有效性。

相关报告
  • 《面向关键核心技术领域的科技情报感知服务体系构建研究》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-07-11
    • 1.构建多主体合作的情报感知体系,实现智慧协同与情报流转 在科技情报感知体系中,情报协同主体始终居于主导地位,在情报感知的生命周期中,情报需求的感知则处于首要地位。早在二战时期,美国社会科学委员会、学术团体、情报领域学者、情报机构就联合建立战略情报局,以此识别国家的情报导向需求,这开创了学界与情报界协同合作的先河。中国科学院文献情报中心刘细文等人认为协同战略情报研究是未来科技情报的首要工作模式。在传统的科技情报协同平台中,领域专家一直处于核心位置。但是对于关键核心技术,仅依靠领域专家可能会存在思维定势及认知偏差等原因导致科技情报感知有误差。再加上关键核心技术本身具有的潜在性、颠覆性等特征使其更加难以被发现与感知,这就需要引入大众智慧,扩大情报响应范围,增强科技情报识别与预测的准确性、全面性、及时性。当然大众智慧并不是指所有群众或网民评选,更多是依靠该领域的长期关注者,人员选取主要包括该领域相关网站的核心用户、该领域的青年学者、企业、工业人员等,同时还应建立信任和激励机制,吸引其他学科领域群体持续广泛的参与。。从协同主体的组织模式出发,情报感知的各主体应形成良好的组织结构。一方面科技管理与决策部门应“下好全国一盘棋”,为关键核心技术的攻关建设国际一流的科技情报服务中心,发挥领导、统筹作用,提升科技情报感知能力;另一方面,其他情报协同主体应保持扁平化设计,彼此间形成横向沟通网络,以平等互惠的原则吸纳不同领域、不同行业的情报机构及人员,以此拓宽情报协同平台的网络结构。总体来说,关键核心技术领域情报感知协同平台的主体主要包括科技智库机构、科技管理部门、领域与战略专家、情报咨询机构及大众群体。由科技管理与决策部门作为主导,科技情报机构作为协同平台的情报枢纽,有效识别国家决策需求,分析关键核心技术的发展态势。同时,科技情报机构还需在协同平台中充分承担情报共享与情报重构的责任,实现不同主体间的情报流通无阻。领域专家与大众间则需实现智慧协同,以此弥补专家所存在的思维定势、晕轮效应等问题。由于关键核心技术本身具有很强的跨学科协同性,高校、科研院所作为主要技术研发机构,在情报协同平台中并非以传统的单兵作战形式,而是以多学科团队交叉形式存在,综合多领域科学团队的情报意见,以扩大高校、科研院所对关键技术的态势感知具有先天优势。 2.打造多源异构的科技情报数据库,实现全源情报挖掘 在情报感知的生命周期中,情报采集是扫描、评估、刻画等过程的前提,在面向关键核心技术的情报感知体系中,情报协同平台在精准识别情报需求后需对所需情报进行采集。对于关键核心技术领域情报感知服务体系中的数据来源,由于关键核心技术所具有的潜在性、前瞻性、应用性等特征,传统情报库信息已经难以应对。因此情报协同平台首先要充分拓宽科技情报的元数据来源,根据原有情报库结合专家、大众智慧以及特定领域网络信息搭建全领域、全类型科技情报知识库。领域网络信息是指特定技术领域的相关信息,既包括专利报告、科技期刊、图书等结构化数据,也包括各技术、新闻等门户网站信息、国外情报、科技等网站信息、知识社交平台信息等非结构化数据。特别是对于关键核心技术的前瞻性特质,各国情报科技部门往往会发布科技前瞻评估报告,如韩国科技评估与规划研究院(KoreaInstituteofScienceTechnologyE valuationandPlanning,KISTEP)公布的《KISTEP十大新兴技术》以及知名咨询公司高德纳(Gartner)每年发布的《十大战略科技发展趋势》等技术报告文件。尽管全领域、全类型的科技情报密度高、容量大,但是由于大国博弈高度情报对抗条件下的开源情报来源的不可靠性逐渐增加,开源情报的欺骗效应也渐渐被用作国际间科技竞争的新型工具。鉴于国防与军事技术的高度敏感性,融合开源情报的全源情报成为国防科技情报研究保障的关键形式 。因此,在针对关键核心技术领域的情报采集过程中需要由开源情报向全源情报逐渐转变,利用全源情报消除开源情报的不确定性。总体而言,情报协同平台既需要打造多源异构的科技情报数据库,也需要将目光转向全源情报的收集与利用,以全源性思维和全源性手段实现对全部情报来源、全部利益相关体、全部情报人员思想等要素的综合考虑和应用,以此加强对潜在关键性技术的感知。 3.设置多重扫描指标,实现关键核心技术情报识别第一,关键核心技术领域指标设定。关键核心技术的形成遵循“10→3→1”收敛轨迹,这表明关键核心技术是逐步遴选收敛出来的。由于情报采集与归纳的多源异构数据与全源情报,其数量庞大、形式多样,如何根据情报需求,确定攻克关键核心技术所需的科技情报是首要任务。目前公认的科技数据扫描方法主要为基于大数据的专家思想碰撞的方式,研究认为对于关键核心技术的隐蔽性及前瞻性,单一指标难以实现精准探测,因此关键核心技术指标的设定应包括广域扫描指标与特定领域扫描指标两种。广域扫描指标用于对多源异构数据库进行初步整体非定向扫描,以便用于专家遴选,根据其作用功能。根据关键核心技术的主要特质和学者们的研究,本文对初级指标的框架进行表述。对于颠覆性指标的设定,研究根据Christensen及栾春娟等等的研究,将其分解为四个维度,这四个维度分别代表了关键核心技术的不同颠覆领域。前瞻性的指标分为该技术是否对行业、技术具有预见作用,能够精准捕捉未来技术的发展态势。垄断性主要是指该技术具有难以模仿的特质,对于情报感知体系来说,还要精准判断该技术的研发能否保持长期垄断以及是否具有较高的垄断价值。潜在性的判别指标是要识别该技术目前的发展现状,是否为潜在性技术,同时该技术的潜在价值如何。夏绪梅等认为关键核心技术具有高投入的特性,同时政府还要判别投入所形成的成果产出,因此本研究将高投入性指标设为投入指标与产出指标。特定指标用于特定技术领域与交叉技术领域评审。由于关键核心技术具有交叉性、融合性、长期性,这需要对某个领域进行长期监测,同时还需多领域专家共同评审。因此该指标需要根据关键核心技术的本质特征与所在领域前沿技术特征相结合,根据不同领域、行业的现状,遴选不同专家进行指标设定。第二,关键核心技术领域数据扫描与识别。根据已设定的技术指标,情报感知体系将根据技术评价指标及专家智慧,对多源数据进行扫描与识别。对于广域技术扫描,其核心在于动态全域监测,监测范围广,监测结果粗度较高。对于特定领域技术扫描,其核心在于智能情报挖掘,识别特定技术领域与交叉技术领域发展态势,要求保持较细粒度。但是无论是广域扫描还是特定扫描,都需要对科技数据进行多轮迭代筛选,以此捕捉技术弱信号。由于地平线等扫描系统主要侧重于技术的热度、突变度等特征,缺乏综合维度的评估,难免存在误差,需要结合专家与大众智慧。即技术数据迭代筛选的过程也是人机协同的过程。因此科技情报数据识别的过程主要包括四个阶段。 a.科技数据初筛选。该过程是机器智慧的集中体现,需要同时对特定领域与非特定领域利用不同指标进行广域扫描。机器智慧首先利用大数据挖掘分析等方法对科技情报数据进行初步整体的非定向扫描,根据突变度、新兴度、热度等维度对潜在技术进行评估,同时根据初步指标对技术进行遴选,将机器识别为关键的技术存至技术清单1。对于特定领域及交叉领域所进行的定向扫描,机器智慧利用特定指标与交叉指标进行技术筛选,对认定为关键的技术存至技术清单2。对于清单2中的技术还需要利用机器智慧绘制技术交叉图谱、演化趋势图,辅助领域专家评审。 b.科技数据再筛选。该过程是专家智慧与大众智慧的集中体现。对于预选技术清单1,领域专家需要联合大众智慧,根据机器智慧所提供的相应技术信息,如技术突变点、研究机构、国家等结合初步指标进行关键技术判定,以此实现第一轮的智慧融入。专家评分后,将保留于清单1中的技术进行二轮迭代,同时在迭代中引入新探测技术。通过技术筛选的不断反复,逐渐完善技术清单1并交至数据平台。对于技术清单2,需要结合特定领域及跨学科的专家团队智慧,该领域专家根据机器提供的技术交叉图谱、演化趋势图进行分析,之后根据特定指标或交叉指标对技术清单2进行审验,发现清单漏洞并对谱系结构、技术演化图谱予以完善,之后进行多轮迭代,最后提交至数据平台。 c.科技数据提交。技术清单1与清单2录入数据平台后,由跨学科团队进行专家审定,验证其科学性,对于存在漏洞的技术清单应反交至上层清单,重新审验。之后根据科技管理部门情报需求按领域、按行业进行情报决策支持并将所需技术清单及相关情报提供给情报协同平台。 d.科技数据归档。即将最终所得技术清单进行分档归类,该过程由情报协同平台完成。情报协同平台需要综合全球核心技术领域知识库、案例数据库等分类原则,建立符合我国科技管理及相关部门所需的重点跟踪科技库和专题科技库。对于归档后的科技情报数据,应该保持定期监测,本文也基于此建立五维监测体系。 4.态势监测与技术演化导航,实现情报刻画与评估情报刻画可以被解释为“以促进感知的形式呈现。”正如钱学森曾说“情报是激活了的知识”。因此,情报刻画与评估便为情报感知的激活与具体展示。在科技情报感知体系中,情报刻画与评估的首要目的是根据扫描与识别的结果绘制关于关键核心技术的情报产品。情报产品主要包括场景模拟、技术监测与技术演变导航与图谱绘制。 4.1技术发展态势监测关键核心技术发展态势的监测包括监测该技术市场潜力、其他国家的应用案例、政策、监管与道德伦理问题等。通过了解海外先进技术最新发展情况,以及国外对该技术的应用政策、技术开发和部署情况,为我国科技管理部门提供决策支撑。事实上,欧盟早已经开展对关键核心技术的态势监测,其主要是从“技术”“领域”“国家”三个维度进行布局,以此实现技术监测。在我国也有学者根据学科分类体系对技术监测进行探讨。本文结合以往学者与国家的研究,建立“国家”“技术”“领域”“技术特质”“技术交叉”的五维监测体系。国家维度包括主要研发国家。对于产业领域维度,国际普遍使用《国际标准产业分类法》,本文依据该法案及欧盟的产业领域分类方法,将产业领域划分为27类。技术维度则为科技情报数据的识别成果,将所识别的关键核心技术归纳于产业领域之中,并发现其中的领域交叉与技术交叉,根据技术交叉绘制演化导航与交叉图谱。技术特征维度用于评估该关键核心技术的全面特征,指标主要使用已构建的交叉指标与特定指标。根据监测体系,还可以实现智能情报检索。比如利用监测体系分析美国在化工产业的关键技术发展现状、国家之间技术领域对比、识别潜在的技术交叉趋势等。 4.2技术演化导航与图谱绘制智能情报是技术演化导航与图谱绘制研究的起源。钱学森先生早在1983年便提出过智能情报的相关观念,并认为情报研究的发展需要长期与智能技术相结合。技术演化导航与图谱绘制是关键核心技术领域情报感知服务体系的主要成果之一。技术演变导航与图谱绘制的重要性在于将不同领域之间技术的交叉融合、技术演变的关键节点、技术分支脉络都予以诠释。对于已归档分类的科技情报数据,动态监测其发展态势是必不可少的程序。黄祥喜等提出构建智能情报检索系统,以此实现技术演变路径的快速导航。但以此方式实现的快速导航具有信息迟滞,同时难以实现更深层次的情报挖掘。本文认为利用场景模拟方法对五维检测体系中的技术演化进行模拟复现是实现导航的有效途径。利用场景模拟方法将分布在时间、空间不同维度的技术导航进行关联,发现潜在新兴交互技术。同时通过多场景模拟,对新兴技术应用的可能性、与其他技术之间的耦合性进行判断,以此提高潜在技术的挖掘。关键核心技术的谱系绘制还有利于分析科技演化路径的拐点、异常点、突变点,针对突变点进行情报搜集以实现预测情报服务。对于场景模拟的方式,则可以尝试众包激励,鼓励大众进行市场模拟或者利用数字孪生技术进行虚拟仿真。 4.5反馈科技需求,实现情报响应情报响应在《情报与文献工作辞典》中被定义为,情报接受者对情报产品的接收情况。在科技情报感知体系中,情报响应既是情报采集、情报扫描、情报刻画、评估的响应,也是将情报产品提供给科技管理部门的响应;既是情报过程的响应也是情报主体间的响应。就情报主体间的响应而言,该过程是情报协同主体根据我国科技决策部门的需求,响应情报感知体系在科技情报采集、扫描、识别、刻画、评估等方面的能力,提前感知“卡脖子”技术问题对我国经济、社会、政治等方面可能造成的影响,形成情报产品并将所生成的情报产品提供给科技决策管理部门,为我国关键核心技术的攻关提供情报需求的过程。通过情报响应,以期加强我国在前沿技术、关键核心技术等方面的科技预测、预测能力,支持我国科技发展决策,避免或减少我国科技安全与发展以及国家整体利益受到侵害。
  • 《情报智能体——面向“十五五”的科技情报工作新范式》

    • 编译者:程冰
    • 发布时间:2025-07-23
    • 0引言 未来发展选择可以从过去的历史中找寻演变逻辑与灵感。纵观情报学发展历程和变革驱动因素可知,其格局的变化通常是由新信息技术的采纳和旧信息技术的淘汰所驱动的。2024年以来,GPT-4o、LLaMA等大模型(Large Language Models,LLMs)以远超人类能力进化的速度和规模分析处理大量数据,具备了达到与人类相当水平的推理和规划能力的潜力。人工智能(Artificial Intelligence,AI)即将成为“执行科学发现的自主研究人员”。 作为当前最先进的AI技术之一,大模型和Agent一直以来被认为是实现通用人工智能(Artificial General Intelligence,AGI)的关键技术,融合了大模型的智能体更是呈现出自主性、具身性和互联性等关键特征,能够承担许多由人类执行的分析、创造和决策职责,提高了广泛情境中的复杂交互和认知决策。将融合大模型的Agent应用于解决科学问题,即科学智能体,正在以革命性的方式改变和颠覆几乎所有科学领域的知识发现模式。对时代的认识不能犯错误,错过时代转变机遇将遭受历史性的降维打击,文献情报工作亟待采纳智能体。 未来的发展路线都是建立在已有知识的基础之上,不同时代背景下的发展理念和技术生产力水平,塑造出文献情报工作鲜明的阶段特征。正确判断并合理选择文献情报工作未来的发展道路,需要全局掌握其来时路、清醒认知脚下路。本文通过梳理总结中国及中国科学院文献情报工作的阶段特征、剖析变革驱动要素,揭示科技情报工作发展转型的核心驱动力量。以AI为立足点,认知其赋能科技情报工作的方式,理解当前AI带来的科技情报工作范式变革,结合前期大量的思考认知积累,分析判断文献情报机构未来的工作模式选择。 1中国科技情报工作的特征和变革驱动要素 1.1 中国科技情报工作发展历程 学者们从情报学研究对象、情报技术、情报服务、情报工作等多个不同视角对中国科技情报工作的发展阶段进行研究划分。从情报工作视角开展的研究,尽管阶段划分之间存在差异,但都认为中国科技情报事业的开端是1956年,即中国科学院科学情报研究所(中国第一个综合性科技情报机构)成立。近70年历程,中国科技情报事业所面临的需求和技术能力都在变迁,科技情报工作的目标定位和发展特点也在逐步变化。中国科技情报工作可以划分为4个阶段:第一阶段是1956至1978年,逐渐建立国家、省、市级的体系化的科技情报机构,主要工作目标是获取国外的科技资料,来支撑中国科技战略规划的制定;第二阶段是1979至1991年,面对科技情报工作现代化问题,发展计算机情报检索技术和系统;第三阶段是1992至2014年,致力于建设电子图书馆、网络图书馆、数字图书馆,使得科技文献和知识广泛流动,以知识服务支撑科技决策,增强政府决策的科学性和战略性;第四阶段是2015年后,科技情报机构开始明确将拓展智库功能作为发展目标(表1)。 表1 中国科技情报工作的发展历程 1.2 中国科学院文献情报工作的发展 中国科学院文献情报系统由院级文献情报中心和研究所所级图书馆组成,采用全院协同的工作模式。中国科学院文献情报工作的开端始于1950年设立的院图书管理处、1956年设立的科学情报研究所、1956年设立的中国科学情报大学,1958年科学情报研究所划转科技部、中国科学情报大学并入中国科学技术大学。1977年中国科学院决定科技情报工作由图书馆承担,不另设科技情报所。中国科学院文献情报中心的发展可以划分为4个阶段:1950—1978年,文献保障服务为主的阶段;1979—2005年,发展信息服务、情报服务的创新阶段;2006—2015年,发展数字服务和知识服务的转型阶段;2016年至今,拓展智能和智库服务的变革阶段(图1)。 图1 中国科学院文献情报工作发展历程 (1)文献保障服务阶段。科技文献服务、图书馆咨询服务(1950—1978年)。从1950年到1978年,中国科学院文献情报中心经历了从无到有的建设,发展成拥有完善服务体系的自然科学图书馆。图书馆服务的主要特征是文献保障,核心能力体现在印本馆藏的建设和参考咨询服务上,建立了一个全面覆盖多学科、多类型、多语言的馆藏体系,编制专题目录、联合目录和文献索引等,构建了较为完整的全国性检索刊物体系,围绕科研和管理需求,开展专题文献、文摘、参考咨询等工作。 (2)信息化发展创新阶段。科技信息与科技情报服务(1979—2005年)。1978年12月,中国科学院文献情报中心确立图书情报一体化体制,率先在图书馆启动计算机应用研发,设立国际联机检索服务终端。2001年组织建设国家科学数字图书馆(CSDL)。数字图书馆主要特征是信息化文献服务和科技信息服务,服务的核心能力,既包含传统的印本馆藏、书目数据库和全文数据库建设,也包括信息服务系统建设,提供个性化的系统门户、虚拟阅览室和网络资源导航,并通过科学计量分析等方式为用户提供服务。 (3)数字化知识服务转型阶段。数字化信息服务与知识服务(2006—2015年)。2006年,中国科学院文献情报系统,按照数字化发展逻辑,提升整体科技情报服务能力,面向一线科研人员开展科技情报研究、信息专报、信息平台与工具建设等工作,文献情报服务从传统图书馆服务向知识服务转化。2006—2015年间中国科学院文献情报工作实施知识服务转型,围绕用科研工作流建设和提供数字化文献情报服务。科技情工作的核心能力是采集数字化文献和网络信息,构建集成检索平台、文献数据库和学科服务网络,提供学科服务、情报服务和集成系统服务,包括情报分析报告、专利分析报告、研发信息平台或工具等。 (4)智能化和智库服务拓展阶段。智能化服务与智库研究(2016年至今)。2015年,国家发布《关于加强中国特色新型智库建设的意见》,中国科技情报机构开始向智库化转型。“十四五”期间,中国科学院文献情报中心建立科技信息大数据体系,发展科技创新知识服务,聚焦科技情报大数据平台,开展数据型文献情报服务。将智能化作为其核心特征,以数据要素、技术要素为重要驱动力,融合文献数据库、学术信息内容、科研信息等多种资源,建立信息集成能力、计量评价工具和情报研究能力,满足用户对于知识服务、态势分析、学术评价等的核心需求。 1.3 驱动中国科技情报工作变革的要素——情报需求与信息技术 中国科技情报工作是伴随适应把握国外科技动态的需求和科技决策服务需求而生,致力于满足不断变化的科技和社会需求,同时,技术发展也不断引领着科技情报工作的变革与突破。纵观中国科技情报工作的发展历程和特征,信息技术发展和应用是主要的演进脉络与驱动要素,智能技术采纳一直是科技情报行业从业人员长期追求的期望,如自动信息采集、机器翻译、多源信息融汇、结构化情报分析等。在需求和技术的双力驱动下(图2),科技情报工作从“对内服务”到“向外服务”,从“现场服务”到“远程服务”,从“文献提供服务”到“情报分析服务”,从“情报分析服务”到“决策情报支撑服务”,从“情报服务”到“智库研究”等,其服务模式和服务内容均已发生巨大变化。中国科学院科技情报工作的长期发展中,采纳信息技术逐步叠加,形成了以信息技术为核心的科技情报布局,满足多层次、多目标的科技情报服务需求。 图2 中国科学院文献情报工作的需求拉动与技术驱动 1.3.1 需求拉动,形成了“文献保障-信息检索-知识服务-智库研究”的多元叠加型情报需求 从情报工作生命周期的视角看,学者一致认为“情报流程始于需求分解、终于情报需求满足,既受决策驱动,又以支持决策为目标”,情报工作的起点是情报需求,基于情报需求的服务场景,情报工作人员以提供政策性的、可选的建议或解决方案为产出目标。情报需求的来源和层次十分多样,可以来自国家战略层面、组织发展层面和个人发展层面等,也可以来源于政府、企业、高校等不同类型的社会主体。20世纪50年代中期,由于中国对国外科技动态和成果的把握不力,直接影响到中国科技和经济的发展。国家对科技情报工作的需求,直接导致了1956年建立综合性的科技情报机构,开始搜集、研究和报道国内外的科技状况和成就,为全国的科学工作服务。随后50年建立了覆盖全国、省、市各个级别的科技情报研究所以及各个行业的情报研究所,基本上形成多层次的科技情报工作系统,保证了科技情报事业发展过程中,为科研创新服务、为经济建设服务、为管理决策服务等需求和目标的落实。1978年,面对国内检索刊物体系受到破坏,急需恢复和进一步发展以支撑科技决策的需求,根据科学技术发展规划,制定了《关于建立健全我国科技文献情报检索刊物体系的方案(草案)》和《1979—1985年全国科技文献检索刊物编译出版规划》,支持中国开始有计划,有组织,有领导地统一建立中国的检索刊物体系。至此,中国科技检索刊物向体系化方向跨出了一大步,开始走向系统建设阶段。2006年,中共中央、国务院召开全国科学技术大会,制定《国家中长期科学和技术发展规划纲要(2006—2020年)》,明确提出了用15年时间把中国建设成为创新型国家的战略目标,并提出发展国家科技创新体系的战略决策。面对国家科研创新的需求,科技情报工作向知识服务的方向演化,建设检索平台和服务网络,为科研一线服务。2015年,在中国特色新型智库建设政策的指示下,中国科技工作进入新发展阶段,也为科技情报工作的发展带来了新的契机。面对管理决策和科研创新需求,中国的科技情报工作发展在延续传统信息服务工作的基础上,拓展以知识组织、知识挖掘为主的智能服务,进一步向人与智能相结合的、以智能计算、智力开发为主的智能服务升华。当前,随着社会对知识和智能服务需求的增加,图书馆和情报机构的工作对象从传统的图书、文献扩展到了数据、信息、知识、情报、思想的全链条,驱动着文献情报工作向更深层次、更广范围、更加智能的方向发展。可以说,科技情报工作应国家科技战略发展的需要而诞生,随着国家科技战略发展和社会经济发展的需要而调整和变革。 1.3.2 技术驱动,形成了“信息检索-大数据集成-数据挖掘分析-情报推断与生成”的替代型模式 科技情报事业的发展受到信息技术和情报技术这两大关键技术动力的推动。科技情报领域始终位于信息技术应用的前沿,情报服务模式的形成和优化在很大程度上会受到信息技术和情报技术发展的影响。信息技术的广泛使用、文献工作的持续标准化、情报存储和分析技术的开发,情报传播平台的建设、信息组织和管理技术的发展,不断推动着情报内容和情报方法的革新,促进服务模式的转变。在信息技术革命的冲击下,科技情报工作经历几大变革,努力创建新型科技情报工作范式。在中国科技情报工作开创初期,科技情报工作以文献为基础,基于科技文献的外部和内部特征,向用户提供检索和利用服务。改革开放后,计算机技术开始出现和应用,中国开始建立论文数据库、专利数据库,打开了联机检索时代的序幕。1994年,中国接入互联网络,网络技术的应用,全面应用数字化技术,形成了以检索技术为核心的情报信息获取,主动推送满足用户需求的“经过加工、提炼与处理之后的情报”。21世纪,云计算、大数据、AI等新一代信息技术快速发展,促使情报工作开始向智能服务转型,情报工作者以智能化手段加工信息、激活知识、运用情报。在互联网新技术和大数据时代的推动下,获取不同来源、不同形式、多个维度的全量数据成为可能,情报研究工作积极探索整合数据分析、智能算法与决策支持等技术,以构建全面利用数据资源并实现智能化的情报服务环境。当前,技术发展带来的影响体现在情报需求分析、数据采集、加工处理和分析挖掘等的方方面面,基于AI的理念,智能化检索等技术为情报用户精准提供情报资源,可视化技术和智能推送技术使情报推送和发布更为便捷。新一代信息技术应用形成了众多的工具、方法、平台等,而新工具与方法应用必然推动图情领域理论范式的演化。2022年11月,美国OpenAI公司发布了生成式AI聊天工具ChatGPT,以人类反馈指导的强化学习算法框架为基础,具有出色的自然语言处理、数据分析、推理推断等能力。以ChatGPT模型为代表的生成式大语言模型技术的出现对各个领域产生了根本性的影响,智能体(AI Agent)已成为AI赋能专业流程的基础形式。以数据驱动为基础的科技情报领域迎来了重要变革,情报智能体将直接影响科技情报领域中的信息组织管理、信息检索查询、情报研究分析、科技监测评估等核心职能和主体业务。 2“十五五”期间中国科技情报工作的战略选择——智能体赋能 生成式AI技术深刻影响几乎所有领域科学研究,正在改变科学研究的过程与模式,科学研究智能体已经展现了巨大的发展潜力。中国科技情报工作已经走过了手工检索工具、计算机检索系统、数字图书馆服务系统、知识集成和知识分析平台等阶段,正朝着知识与情报生成方向迈进。信息技术已经从替代信息采集、信息组织、信息检索,走向替代情报分析、情报生成的情报研究智能化阶段。面向“十五五”时期,中国科技情报工作亟待充分利用大模型等生成式AI技术,搭建情报智能体生态,优化重组已有科技情报工作流程,将智能体与信息采集、信息组织、信息存储、信息检索、信息分析等工作深度融合,以智能体赋能科技情报工作,形成科技情报智能体生态,提升科技情报工作的效率。 2.1 AI赋能科学研究已经改变当代科学研究范式 科学研究的两个中心目标是科学理解和科学发现,形成科学见解和理论的基础是收集、转换和理解数据。近些年来,大数据、AI、高性能计算、混合云等信息技术迅猛发展,为加速数据密集型科学范式下的知识发现创造了条件。尤其是AlphaFold2成功解决了长达50年的蛋白质折叠难题,强有力地证明了AI在解决极具挑战性的科学问题方面拥有巨大潜能。毋庸置疑,AI是数智时代科学研究的利器,充分理解其赋能科学研究的驱动方式不仅必要、而且必需。 理解AI赋能科学研究的驱动方式,首先应该清楚AI的能力特征。根据智能程度和计算特征,业界一般将AI的发展分为4个阶段:计算智能、感知智能、认知智能、自主意识。其中,①计算智能,强调海量数据的存储和高效精准处理,这一阶段为后续发展奠定庞大的数据资源和强劲的计算资源;②感知智能,让机器拥有类人的视觉、听觉和触觉等感官能力,能够识别和理解输入的图像、声音、文字等信息,初步具备与外界交互的能力;③认知智能,这是AI发展的较高阶段,大模型等技术正在加速这一目标的实现速度。让机器具备类人的思考能力,即理解复杂概念、推理分析预测、自主决策行动等能力;④自主意识,则是AI的终极目标,机器真正具有自主意识并产生智慧,目前尚且遥远。 理解AI技术赋能科学研究的驱动方式,还应该清楚现阶段AI能够解决的科学问题边界。科学发现的假设空间是巨大和复杂的,图灵挑战发起人北野宏明将科学探索认知空间表示为图3左侧形式。其中,红色区域表示当前人类已知的科学知识。黄色区域表示基于当前已经积累的知识生成的假设空间,能够根据已有知识对其进行一致性测试和实验验证的人类可发现知识。伴随着假设的复杂性和实验验证的自动化水平,不断扩展假设空间的边界,这就构成了以人为中心的人机协同探索知识区域(蓝色)。当假设空间的范围不断变大,直至超出人类的理解认知能力和现有的知识发现模型,则需要依托借助更智能的工具或发展形成新的科学研究范式(绿色区域,边界无限且不可定义)。为了探索和发现这3个区域的知识,需要使用与之匹配的科学研究模式。 理解AI赋能科学研究的驱动方式,还应该清楚现阶段的科学研究模式。基于本文作者先前的研究结果,数智环境下的科学研究主要遵循3种研究模式:数据驱动知识发现、模型驱动知识发现以及数据与模型协同驱动知识发现,如图3右侧所示。其中,模型驱动知识发现主要是指面对基本科学原理已知的科学问题,变量或维数的增加造成计算复杂度呈指数级增长,AI通过高效解决高维数据计算发现知识。数据驱动知识发现主要是指通过对数据的分析寻找科学规律并解决实际问题,主要用于在缺乏明确原理的场景中解决具体问题。数据与模型协同驱动知识发现则适用于原理模型已有部分探索,但尚有部分并不十分清晰时,可通过原理产生模拟仿真数据,基于数据挖掘出经验性原理,相互协同促进研究发现。 综合以上分析,AI赋能科学研究呈现3种驱动方式:高维数据计算、数据增强和数据理解。高维数据计算在此不作赘述。关于数据增强,当前的AI能够有效解决特征提取、添加语义信息增强数据的多样性和稳健性、合成新数据解决数据系数或保密等问题,核心解决科学研究中的基础数据问题,有效扩展科学研究的边界,提升科学研究的质量。关于数据理解,尤其是GPT-4o、LLaMA等大模型(Large Language Models,LLMs)技术不仅能以远超人类能力的速度和规模处理和分析大量数据,而且呈现出接近人类水平的数据理解、推理和分析能力已日益展现出对自然语言理解的迹象,在达到与人类专家相当水平的推理和规划能力方面展示了显著潜力,未来大模型将在众多认知任务上与人类并驾齐驱,甚至超越人类能力。 图3 AI赋能科学研究的3种驱动方式 2.2 AI赋能科技情报工作的方式 理解情报内涵是认知AI赋能科技情报工作驱动方式的基础前提。情报是激活了、活化了的知识,具有及时性、准确性和针对性特征,是基于客观事实的主观预测。情报是在客观知识的基础上产生的,由于受当事人的认知背景和所处的时代环境等条件约束,情报带有不可否认的主观色彩。情报是通过特定活动产生的知识,具体包括3种知识类型:基本描述类、动态报告类和预测评估类。情报产生的基础不仅有知识,还有信息和数据。基于数据、信息、知识、情报间的逻辑关系学者们构建了Data-Information-Knowledge-Intelligence-Wisdom(DIKIW)模型及Data-Information-Knowledge-Intelligence(DIKI)标准模型。AI不仅能将各种复杂的数据类型(包括人类语言)转换为可互操作的量化语言,而且为复杂高维数据计算提供解决方案,促使情报不仅可以从知识中产生,还可以从海量无序的数据和规范有序的信息中直接产生。数据和智能技术的普及发展,促使DIKI链上各节点间已经从单纯的线性传递关系,扩展至循环迭代关系。科技情报工作需要在充分理解用户需求的基础上,尽可能提升数据、信息和知识等情报基础的客观性。基于AI赋能科学研究的3种方式,结合情报内涵,本文认为AI赋能科技情报工作的驱动方式有两个方面:情报基础建设,即数据生产、信息组织、知识表示,和情报生产,即情报计算,如图4所示。围绕AI赋能情报基础建设,确立了中国科学院文献情报中心“十四五”发展战略目标之一,即构建科技情报智慧数据,倾心打造的数据“收、存、治、管、用”一体化科情数据平台,实现数据生产、信息组织和知识表示等工作流程自动化。受AI认知智能水平限制,之前围绕AI赋能情报计算的过程主要以人为主、AI技术为辅的模式,处于AI赋能科学自动化中的L2层级,仅解决某一环节的自动化。未来,AI赋能科技情报工作将通过情报智能体(Documentation and Information Service Agent,DIS Agent)方式实现,将情报基础建设与情报生成深度融合,有力推动科技情报工作迈向更高水平的自动化与智能化。 图4 DIKI理论与情报类型 3基于情报智能体的科技情报工作新范式 为了进一步认识构建情报智能体的路径,需要厘清情报智能体驱动的科技情报工作新范式、新生态以及构建情报智能体的关键任务与方向。 3.1 人与情报智能体协同的科技情报工作新范式 基于科学自动化和科学智能体的层级划分体系,当前已出现的科学智能体多处于L3层级,即科学家提供问题和初始信息,科学智能体自主调用资源工具完成指定的任务;少部分呈现L4层级水平,即科学家仅提供初始信息,科学智能体自动提出科学假设并探索发现科学规律。结合情报的内涵特征,当前阶段构建的情报智能体主要以L3层级为主,因此在情报智能体赋能科技情报工作过程中,还需要与人类智能合作,如图5所示。其中人类智能,即情报专家,主要负责情报情景感知与解析、情报问题输入和情报监控输出功能。情报智能体主要负责情报情景感知与解析、情报问题理解和计算、情报结果输出和反馈优化功能。当前AI在大量认知任务上尚未完全达成与人类智能同等水平,因此对于情报情境的感知解析能力以及生成情报能力方面还需情报专家的广泛参与,提升情报质量以契合用户需求。相较于传统以人为中心的科技情报工作范式下,情报专家需要花费大量的时间在数据生产、清洗和组织工作中,相关研究表明这些工作占据科学家大约80%的时间,仅有20%的时间用于认知解析等核心活动,人与情报智能体协同的科技情报工作范式下,情报专家可能仅需花费20%的时间评估选择合适的智能体用于数据处理工作,80%的时间专注于高价值情报的生成与决策支持活动。 图5 科技情报工作的范式转型 3.2 基于情报智能体的科技情报工作新生态 基于情报内涵以及情报智能体驱动的科技情报工作新范式,结合单智能体和多智能体框架,本文构建了基于情报智能体的科技情报工作新生态,如图6所示。该生态系统通过智能体的协同工作,集成了数据生产、信息组织、知识表示和情报计算四大核心功能模块,显著提升了科技情报工作的智能化水平和整体效率。以下将从整体架构、智能体构成、技术支撑、基础设施及应用流程5个方面详细阐述该生态的结构和优势。情报智能体驱动的科技情报工作新生态基于多层架构设计,主要包括4个部分:智能体集群、软件工具、基础数据和基础设施。内外协同运行:对内,通过集成调度工具、基础数据和基础设施资源,实现数据生产、信息组织、知识表示和情报计算四大核心功能的高度自动化;对外,通过智能体与情报专家及具体情报场景的交互,形成“人与智能体协同”的工作新范式。软件工具和基础设施为构建情报智能体提供了强有力的技术支撑,确保了智能体在各个工作环节中的稳定运行和高效协同。基础数据则涵盖了科技论文、专利以及社会经济等情报数据,为情报分析提供了丰富的数据源。通过各模块的协同工作,新生态实现了科技情报工作的闭环流程,为情报专家提供了系统化、自动化和智能化的支持。基于情报DIKI理论阐释,在新生态系统中,智能体集群包括4类情报智能体,分别承担数据生产、信息组织、知识表示和情报计算任务。通过这4类情报智能体的协同工作,推动科技情报工作朝向全面自动化和智能化方向发展。4类智能体的功能及作用体现如下。(1)数据生产类智能体,负责采集和生成情报数据。这类智能体可以自动从多种来源获取数据,包括学术文献、专利信息、网络资源等,为情报工作提供丰富的数据支持。通过自动化的数据采集和预处理,数据生产类智能体能够显著提高数据获取效率,并减少人工参与的需求。(2)信息组织类智能体,负责将数据进行分类、整理,形成结构化的信息。信息组织类智能体通过语义分析和分类技术,将原始数据加工为符合情报需求的结构化信息,从而便于后续的知识表示和情报分析。这类智能体可以实现自动的知识图谱构建和主题分类,为情报工作的知识构建打下基础。(3)知识表示类智能体:通过知识图谱、语义网络等方式,将信息转化为可解读的知识。知识表示类智能体在对信息进行进一步抽象和关联的基础上,构建出知识图谱,将数据和信息转化为可视化和结构化的知识体系,为情报计算和分析提供了深度支持。(4)情报计算类智能体:负责运用大模型和其他AI技术,对知识进行计算分析,生成高价值的情报结果。这类智能体可以通过趋势分析、社会网络分析等方法,从数据中挖掘出潜在的情报价值,揭示隐含的关联关系,从而为决策者提供深度的情报支持。 图6 基于情报智能体的科技情报工作新生态 3.3 构建情报智能体的关键任务方向 为了使情报智能体更好地适应未来科技情报工作需求,其构建不仅需要解决当前技术应用的适用性问题,还需前瞻性地考虑后续应用中的安全风险防控,下面具体论述两方面应重点关注的任务方向。就情报智能体的构建方面,需要解决数据和工具技术方面的关键问题,建立一个多模态规范对齐的可靠知识库和全面的工具技术库。由于情报数据来源多样,格式、质量和结构各异,必须开发先进的数据融合和语义对齐技术,确保智能体能够从多源数据中提取有效信息。通过提升特征提取、噪声处理、数据审核和语义对齐技术,构建一个高质量的知识库,支撑智能体在情报分析中的可靠性和适用性。同时,针对情报分析流程中的各类情景需求,需建立开放的工具技术库,包括情报计算工具、AI模型和通用分析工具,规范接口和使用标准,以便智能体在实际应用中可以灵活调用。加强这些关键工具和资源的建设,为智能体在复杂情报任务中的应用奠定技术基础。在情报智能体的应用过程中,安全治理和使用监管至关重要。智能体的高自主性和复杂的推理能力带来了内容生成的不可控风险,因此需要构建强大的验证系统,确保输出内容的准确性和可追溯性。监管任务还需关注智能体在情报分析中的行为合规性,通过严格的同行评议、版本控制、动态更新日志等手段,保持智能体应用的透明度。此外,为避免人类对智能体的过度依赖,需制定清晰的交互指导方案,加强人类用户的意识培训和能力提升,确保“人在环路”的协同机制得以实现。通过对安全、伦理和监管体系的不断完善,推动情报智能体在确保可信和合规的前提下,安全应用于情报分析工作中。 4结  语 科技情报工作每一次变革与发展都围绕着先进信息技术的应用展开,情报技术在科技情报工作范式变革中发挥着核心驱动作用。在大模型与Agent融合技术的推动下,构建与应用情报智能体已成为科技情报工作的必然选择。本文深入剖析了AI赋能科学研究的驱动方式,提出AI技术赋能科技情报工作的主要方式包括情报基础建设(即数据生产、信息组织和知识表示)和情报生成的计算过程,情报智能体能够实现这两种赋能方式的深度融合。在基于情报智能体的科技情报工作新生态中,智能体集群是核心模块,实现数据生产、信息组织、知识表示和情报计算四大核心功能的自动化。未来在情报机构在规划建设未来情报智能体时,为确保情报智能体稳定运行,应重点关注技术适配性以及潜在安全风险的识别与防控,确保系统的高效性、鲁棒性和可持续发展。