中国科学院文献情报中心在长期的科研活动、数据加工、情报服务及网络数据抓取中产生和积累了大量多科技服务领域、多层次的大数据信息,以及与科睿唯安、Springer、Elsevier、维普等数据库商在元数据层面进行合作, 实现对其中的科技创新要素进行采集汇聚、知识抽取与知识计算,从基础数据库、领域知识库与知识图谱3 大层次创建了支撑科技创新的“科技大数据知识资源中心”(https://scholareye.cn/), 为精准服务、知识图谱、智能计算、智能情报提供不同阶段及不同层次的数据支撑。截止到目前(2020年8月),建成了覆盖各类实体数据4亿,建成领域专题数据200多个,人才数据9000万+,机构数据1100万+,重要国家地区项目数据600万+, 知识图谱关系数据60.5亿+。
从科研主体、科研活动、科研成果、科研装置与科学数据五大维度设计了基础数据资源建设模型,已经建成了拥有专家学者、科研机构、学术期刊、资助机构、科研项目、学术会议、情报资讯、科技政策、论文、专利、报告、获奖、专著、标准、软著等10多种基础数据资源。 同时该基础数据资源库也集成了NSTL 研制的STKOS(科技知识组织体系),其中规范概念达到65 万+,规范术语达到230 万+,覆盖理工农医。
建成的基础数据资源,从学科分类、产业分类、主题分类、STKOS 范畴分类进行深度标引,对于知识分类计算提供了基础高质量数据;从机构名称及学者名称进行了自动规范。
通过集团引进开通网络数据库170余个,涵盖1.9万种外文电子期刊,1.8万种中文电子期刊,18.4万卷/册外文电子图书,35万种中文电子图书。数据库包含全文数据库、文摘数据库、数值型数据库和工具型数据库等多种类型。
中国科学院文献情报中心经过长期的积累和建设,提供中国科学引文数据库CSCD(http://sciencechina.cn/)、 中国科学院学位论文知识发现系统(http://dpaper.las.ac.cn/homeNew)、院士文库(https://yswk.csdl.ac.cn/)、 古籍资源、中国科学院档案(https://www.acas.ac.cn/)、中国科学院机构知识库网格(IRGrid)(http://www.irgrid.ac.cn/)、 全球科学基金数据(http://infomonitor.las.ac.cn/skd/analyze)等特色资源服务。
中国科技云认证联盟(CSTCloud)基于Shibboleth/OAuth2双认证体系,实现中国科技云通行证(中国科学院用户即邮箱账号)统一登录认证,访问出版商数据服务平台,中国科学院文献情报中心基于该认证联盟推出文献获取服务,有效支撑了中国科学院科研人员居家科研办公。截止到目前,中国科技云认证联盟已经成功接入了包括中国知网、Web of Science、Elsevier、Springer等多家国内外主要数据库资源,有效支持中国科学院以及其他接入联盟的科研用户突破时间与空间的限制,在居家、差旅等非指定IP范围内,通过ID身份认证方式随时、随地访问本机构订购开通的各类型国内外数据库资源。
中国科学院文献情报中心通过“领域科技情报监测服务云平台”,在领域情报专家的参与下,建成了面向纳米科技、集成电路、重大疾病、水污染、生物安全、先进制造等200多个领域专题门户(http://stmcloud.las.ac.cn/), 有效支撑了市场研究人员、一线科研团队、研究所图书馆员以及战略情报分析人员的快速了解领域最新重要科技动态,掌握同行或竞争对手的科技活动动向,发现领域重点及热点主题, 把握领域发展概貌,辅助科技决策。该领域专题数据资源来自于国内外相关机构网站,自动搜集、遴选、描述、组织和揭示各机构发布的重大新闻、研究报告、预算、资助信息、科研活动等。
国家数字科技文献资源长期保存体系(National Digital Preservation Program, NDPP) 联合国内相关机构,系统、全面实施数字科技文献资源,特别是外采数字科技文献资源的本地化长期可靠保存,有效解决因自然灾害、人为破坏、地缘政治等各种潜在危险导致数字资源在我国无法长期可靠利用等问题,为国家科技信息安全提供战略保障。同时积极参与国家教育文化社会各领域所需的其他数字资源的长期保存。 点击访问>>
NDPP协作保存网络由1个管理节点、若干保存节点构成。
目前已建设3个保存节点:
○ 中国科学院文献情报中心 ○ 中国科学技术信息研究所 ○ 北京大学图书馆
各保存节点分别运行一套完整、独立的保存服务系统,包括数据摄入、保存管理、公共服务等子系统。
各保存节点通过向管理节点注册加入到保存网络中,并定期向管理节点同步数据。保存节点间可互为备份。
联系人:吴振新
联系邮箱:wuzx@mail.las.ac.cn
基于已经构建的学术基础数据库,包括专家学者、科研机构、学术期刊、资助机构、科研项目、学术会议、情报资讯、科技政策、论文、专利、报告、获奖、专著、标准、软著等类型实体, 从学科分类、产业分类、主题分类、STKOS 范畴分类进行深度标引,从21类知识关系进行关联组织,实现了学术知识图谱的构建,其中知识实体达到4亿+、知识关系60.5亿+。 该学术知识图谱已经全面支撑中国科学院文献情报中心新一代知识服务系统,慧眼(https://scholareye.cn/)、慧科研(https://scholarin.cn/ https://inst.scholarin.cn/) 以及科技大数据融合治理云服务(https://data.scholarin.cn/)。
同时基于该学术知识图谱,创建了13个研究方向知识图谱服务场景(http://kgview.las.ac.cn/),以3D可视化的形式揭示知识节点、知识关联路径、核心知识、离群知识点等。
综合利用基于规则、深度学习及预训练模型算法,研发了面向领域知识图谱智能构建的方法体系及系列工具。实现了基于领域专家标注小语料数据集,即可快速智能构建领域知识图谱,突破传统纯人工构建领域知识图谱的工作模式。
从人工智能领域的科技文献中,智能抽取研究问题、研究方法、研究数据与研究指标等细粒度知识,并形成了系列工具集。
从化学键能领域的科技文献全文中,智能抽取科技文献中化学键能科研指纹,包括化合物、溶液、方法、反应、PKA、PKA-VALUE以及关系的指纹自动识别。
面向用户提供科学技术领域词表。包括叙词表、分类表、术语表、词典等素材,涵盖数学、物理、化学、天文、生物、环境等学科。 面向用户提供特定领域知识组织体系建设。根据专业领域人员的需求,分析领域内文献内容及特点,构建支持特定应用的词表或本体。 可用于支撑精准检索、文献实体识别与标注、新知识关联发现、趋势分析与预测等知识服务。
湿地语义知识组织体系知识库。通过数据采集、集成和构建形成湿地地名、植物、动物等的实体数据集,构建动植物、地理位置、研究机构、个人和文献等组成的语义关系网络,用以支撑湿地领域知识环境服务、动植物数据服务、湿地遥感监测服务等。
人工智能领域知识组织体系。通过术语发现与提取、概念关系挖掘与整合等,构建人工智能领域的概念和术语组成的知识网络,用以标记领域学术成果及研究人员,优化学术成果相关平台检索查询、数据挖掘的精准度等。
为大中型企业、研究院所等机构提供知识组织体系构建与优化咨询服务,具体涵盖机构知识组织现状调研、知识组织体系构建方法培训、知识组织解决方案和原型系统建设等内容,可有效支撑机构内部实现各类基于语义的智能化应用,如精准知识推送、语义检索、知识发现、知识抽取、智能问答等。
华为知识组织咨询服务为华为提供知识组织整体解决方案,包括数据逻辑、业务逻辑、工具包、知识组织构建流程等建设方案,以支撑语义检索、智能问答、精准知识推送等基于语义的智能化应用。
大科学装置知识组织体系构建咨询服务为中国科学院文献情报中心提供大科学装置知识组织体系构建解决方案,包括领域实体调研、领域模型构建、数据描述及采集规范设计、数据采集等内容,为大科学装置相关数据资源的结构化存储、语义化检索以及专题情报深度分析提供支持。
面向中国科学院各研究所提供编目服务,具体包括:承接所图编目任务、编目业务培训等相关服务。面向中国科学院内向各研究所所图老师进行馆藏自动化系统培训、答疑解惑等服务。
以API微服务模式,从多维度提供专家学者、科研机构、学术期刊、资助机构、科研项目、学术会议、情报资讯、科技政策、论文、专利、报告、获奖、专著、标准、软著等科技大数据数据资源。目前可以提供近4亿科技大数据实体的实时检索发现服务, 数据从宏观上覆盖理工农医四大领域;微观上支撑从机构、主题及某一人等多个维度的大数据检索发现服务。
面向专家学者、科研机构、学术期刊、资助机构、科研项目、学术会议、情报资讯、科技政策、论文、专利、报告、获奖、专著、标准、软著等多元数据,提供以下数据服务:一是提供用户本地数据集的融合、规范与治理服务; 二是提供机构、学者、项目、期刊等数据的规范与丰富化服务;三是提供多元数据融合、规范与治理服务的工具;
提供按照机构维度进行自动汇聚科研机构科技成果数据、智能计算与描绘机构学术画像以及机构当前布局情况及发展方向。同时可以实时提供该机构的研究人员数据(包括人员清单及对应的研究成果清单)、 科研基金项目数据、发表期刊论文数据(可以实时按照引用级别等维度进行统计)等数据。同时提供与支撑数据管理的云服务平台,自动接收、管理与分析本机构的知识资产。
提供对您关注领域的国内外相关机构网站的自动监测采集、内容提取、自动标签、自动分类、重要度计算、实体抽取与统一知识组织描述,以API、数据集合包或者数据服务平台等多种形式提供数据服务, 让用户快速了解领域专题最新重要科技动态,掌握同行或竞争对手的科技活动动向,发现领域重点及热点主题,把握领域发展概貌,辅助科技决策。目前已经建立了200多个领域专题的实时监测、采集与计算分析服务。
提供基于核心(WOS)论文集、全论文集、专利、基金项目等多类型数据,面向情报分析人员,提供创建专题-专题知识组织-专题数据汇聚-专题数据清洗规范-专题情报分析的流程化与平台化服务,并支持对本地数据集的导入与集成的一体化分析(http://ai.las.ac.cn)。
同时提供面向个性化科技情报需求的数据统计分析、知识内容的提取与计算服务,快速向用户提供情报分析数据。
提供定制化的数据产品服务,根据用户需求,快速分析当前国内外数据状况,并制定数据定制和获取方案,主要擅长的学科领域数据包括生物多样性(植物、动物和菌物)、地学领域(地理和地质)、航空航天和经济产业类数据。数据类型包括期刊文献(HTML和PDF)、图书、音频、视频和科学数据等。
生物多样性领域数据集:全球、亚洲和国内的生物多样性名录、图片、分布、文献和测序数据的快速分析、定制、获取、清洗和分析。
航空航天领域数据集:各国主要航天工程项目和开放技术资料文档;主要航空技术服务公司名单及其产品和技术资料;登月计划和登火计划的样品分析资料;在轨卫星状态和部分运维信息。
经济产业领域数据集:A股上市公司的基本资料和多年度财务数据;科技园区、产业园区和园区企业的全国分布地图;世界各国经济基本统计数据和历年经贸统计数据等。
提供定制化的数据咨询解决方案,提供基于全球现状数据和未来趋势分析的咨询服务。为科研单位、高校、政府机构、NGO组织等提供有关学科领域科学数据管理与应用的咨询服务,具体包括科学数据的评估、科学数据共享服务、知识图谱实践、完整生命周期的科学数据管理流程(规划、爬取、清洗、管理、分析和归档)。学科领域数据包括生物多样性(植物、动物和菌物)、地学领域(地理和地质)、航空航天和经济产业领域的咨询。
中国—东盟环境信息共享平台建设咨询:指导平台设计的框架和主要功能,并对东盟各国的数据源进行遴选和整理,动态跟踪分析环境舆情。
中国工程科技知识中心专业知识服务系统建设和运营咨询:面向中国工程科技知识中心下的战略性新兴产业专业知识服务系统和航天工程专业知识服务系统的建设和指导工作,对科学数据的来源、处理、整合、关联、分析揭示等方面提供长期咨询支撑服务。
联系人:许丽媛
联系电话:010-82626611
联系邮箱:xuly@mail.las.ac.cn