《科技期刊文本与数据挖掘人工智能应用的研究进展》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-09-28
  • 摘 要 【目的】对国内外科技期刊文本与数据挖掘智能化研究进展进行阐述,为科技期刊文本与数据挖掘智能化发展探 寻对策方案。【方法】采用文献分析法,检索2019—2023年英文数据库WebofScience(SCIE、SSCI、ESI)、ScienceDirect、 Elsevier及中国知网数据库中的科技期刊文本与数据挖掘智能化研究,梳理科技期刊文本与数据挖掘智能化的不同方向,并 为科技期刊文本与数据挖掘智能化发展提供对策建议。【结果】目前国外科技期刊文本与数据挖掘智能化研究在选题策 划、预印本、文献评估、同行评议以及模型探索和方法学等方面取得一定进展,我国中文科技期刊在文本与数据挖掘的智能 化方面尚存在技术融合能力不足、出版实践不足、文本数据抓取不精准、智能算法和逻辑不完善等问题。应加强文本与数据 挖掘基础布局,促进融合发展;鼓励出版实践研究,开展文本与数据深度挖掘;进一步构建完整的科技期刊文本与数据挖掘 规则等。【结论】科技期刊文本与数据挖掘智能化发展可帮助科研工作者更快捷、更准确地获取大量的科技文献信息,为科 研工作者提供更深入的思考和研究方向,但其技术应用方案仍需进一步研究探索。

    对策建议

    1. 加强文本与数据挖掘基础布局,促进融合发展

    加强文本与数据挖掘基础布局,促进融合发展, 如:采用自然语言处理技术对科技期刊文本与数据 进行处理和分析,实现对文本的语义理解、情感分析 等功能,提高对文本的理解和处理能力;采用机器学 习技术对科技期刊文本进行分类、聚类、推荐等,实 现对文本的自动化处理和管理,提高信息检索和知 识发现的效率和准确性;采用数据可视化技术将处 理后的数据呈现为直观易懂的图形,帮助期刊更好 地理解和分析数据,发现其中规律和趋势;采用智能 推荐技术将分析的结果反馈给编辑、读者或作者,帮 助他们发现更多有价值的信息和研究成果,提高其 工作效率和科研能力。

    2. 鼓励应用文本与数据挖掘人工智能的出版实践

    鼓励文本与数据挖掘平台或工具的构建,以通 过智能技术对科技文献进行深度挖掘,发现其中信 息和关联,从而促进科技创新和产业发展。鉴于当 前常用的挖掘方法各有优缺点,应鼓励大量根据不 同挖掘目的开展的出版实践,并总结经验。开发优 于现状的新模式、整合优势的智能网络平台也是未 来需要探索的方向。

    3. 提高关键词抓取精准度

    提高关键词抓取精准度,提高高维空间的文本 相似度,提高术语(或词汇)语义相关性,避免“维数 灾难”,深度研究科技期刊语言文字术语的精细标 准[29-30],进一步完善行业标准,促进文本与数据挖 掘的智能化发展。特征选择和降维等方法也可用于 进一步优化特征向量的表示。 

    4. 非结构化文本的归类探索

    科技期刊具有学科交叉性,文本与数据多样。 应借鉴现有经验,探索非结构化文本的特征向量转 换和算法优化方法,如在确定特征向量时,可以综合 使用词袋模型、TF-IDF模型、Word2Vec模型、LDA 模型、N-Gram模型等,选取适合文本任务和数据集 的特征向量表示方式。算法模型也需要根据研究目 的进行优化,如:在使用深度学习模型卷积神经网络 进行文本处理时,应对长文本进行截断或填充以避

    免模型无法处理或丢失关键信息,用迁移学习、预训 练模型提高训练速度,采用正则化技术(如L1、L2 正则化)降低模型复杂度和过拟合风险,结合注意 力机制或空洞卷积(DilatedConvolution)提升模型对 全局上下文的感知能力等。在采用循环神经网络 (RecurrentNeuralNetworks,RNN)进行文本处理时, 可采用门控循环单元(GatedRecurrentUnits,GRU)、 长短时记忆网络(LongShort-TermMemory,LSTM) 或预训练的词嵌入模型(如BERT、GPT等)解决长 期依赖性问题,使用注意力机制(Attention Mechanism)使模型能够更好地处理长序列,利用 Transformer模型并行处理整个序列,对序列进行截 断或采样以减少参数数量和计算量,使用批处理和 GPU加速等技术提高计算效率等。



  • 原文来源:https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C44YLTlOAiTRKu87-SJxoEJu6LL9TJzd50nVr30LUtGoMqCRVx3PmHm-OcLwvjLlw_TtCh397XDvnpNW9lAvYn4w&uniplatform=NZKPT
相关报告
  • 《各地发布新政挖掘人工智能应用潜能》

    • 来源专题:人工智能
    • 编译者:高楠
    • 发布时间:2024-09-20
    • 人工智能(AI)作为前沿技术,在众多技术创新中展现了显著的“头雁效应”。       人工智能不仅推动了从局部探索到全面发展的转变,还实现了从试点应用到赋能各行各业的飞跃。一旦人工智能成功开辟出一条将技术创新转化为实际应用进而真正提高生产效率和生活质量的道路,其他新技术也将能够借鉴或模仿这一模式,共同促成一个积极的发展态势。       当前,打造人工智能应用场景高地已成为各地发展AI产业的重中之重。截至9月18日,年内苏州市、深圳市、杭州市、郑州市等多地均围绕人工智能产业布局发布了新政或新举措。从内容上看,不少地方将拓展应用场景作为关键内容予以安排。例如,苏州市人民政府官网于9月16日发布消息显示,《苏州市加快推动“人工智能+”应用高水平建设“人工智能+”创新发展试验区行动方案》《苏州市关于加快推进“人工智能+制造业”的若干措施》已发布。此前,深圳市工业和信息化局印发的《深圳市加快打造人工智能先锋城市行动方案》提出,“深化全域全时全场景应用,打造场景应用先锋”。 “应用是技术创新改变现实生产生活的必要环节。应用场景的拓展,实际上正是AI技术向各行各业的持续渗透,是人工智能与生产、服务等各类具体场景的融合。当前,人工智能技术在医疗健康、金融服务等领域的运用日渐成熟,不过整体上,其应用仍处于探索阶段,业内企业与从业人员仍在为挖掘应用潜能、探索更多稳定盈利模式而努力。”中国移动通信联合会区块链与数据要素专业委员会主任陈晓华对《证券日报》记者表示。       上述局部与整体的差异性,是人工智能应用潜能释放过程中一个较为鲜明的特征。如何理解这种差异性?中国电子商务专家服务中心副主任、资深人工智能专家郭涛在接受《证券日报》记者采访时表示,行业特性决定了AI技术应用的深度与广度,不同行业对人工智能的接受度和具体应用方向存在差异,因此,人工智能技术在与不同行业融合的时候,其时间线与进度各有不同。“值得关注的是,市场需求是推动AI技术应用发展的关键动力。局部应用往往聚焦特定功能或流程优化,相关需求具体且迫切;整体需求潜能的释放所涉内容则更加宏观,需要长远规划。”       市场需求带动融合走深走实,在制造业领域体现得较明显。伴随我国经济结构转型升级,消费者对多元化和高质量产品的追求日益增加,促使制造业从提供传统加工服务向高端制造转变。制造业企业要向消费者提供更多增值服务,构建差异化竞争优势,就不得不提升制造能力。因此,制造业对人工智能、大数据等前沿技术参与制造全过程的需求持续提升。       与之对应,今年以来,推动AI技术与制造业不断融合是多地挖掘人工智能应用潜能的关键方向之一。例如,天津市人民政府办公厅印发的《天津市工业技术改造行动方案(2024―2027年)》提出,“推动人工智能、5G、边缘计算等新技术在制造环节深度应用,形成一批虚拟试验与调试、工艺数字化设计、智能在线检测等典型场景”。 信息通信专家陈志刚对《证券日报》记者表示,制造业与AI技术融合不仅能提升劳动生产率、促进传统产业升级,还能催生一批新兴产业。在二者深度融合的未来,人工智能将覆盖制造业的设计、生产、管理、服务等全流程,刚性生产可能在AI技术的驱动下更加柔性,智能制造机床将会大规模普及,协助制造业快速响应市场变化,更加高效地满足消费者个性化、多样化需求。       谈及未来,陈志刚表示,除各地政策支持外,企业应发挥好科技创新的主体作用,加强关键核心技术的研发,提升AI技术供给能力,积极参与智能制造标准和规范的制定。此外,建议企业积极与高校、科研机构合作,共同参与智能制造项目课题和调查研究,推动技术创新和产业化落地。 (责编:杨曦、陈键)
  • 《中国科学院海洋研究所首次将人工智能迁移学习技术应用到海洋学研究中并取得重要进展》

    • 来源专题:中国科学院文献情报系统—海洋科技情报网
    • 编译者:liguiju
    • 发布时间:2022-02-23
    • 近日,由中国科学院海洋研究所研究员、IEEE Fellow李晓峰领衔,国内多家海洋科研单位人员组成的人工智能海洋学研究团队,在国际上首次基于多源数据驱动,利用人工智能迁移学习技术融合实验室、浮标和遥感数据,构建了内孤立波振幅反演模型,在内孤立波三维结构重构等方面取得重要进展。相关成果近日发表于遥感权威期刊Remote Sensing of Environment(影响因子10.164)上。 海洋内孤立波在全球海域分布广泛,振幅可达上百米,在海洋传播过程对海洋环境、生态等有重要影响。遥感是海洋内孤立波观测的重要手段,长期以来从遥感图像反演其振幅是一个难点问题,现有方法无法准确描述海洋内孤立波的复杂特征。 该论文基于长期搜集的海洋内孤立波实验室数据、实测数据和匹配遥感图像,构建了基于多源数据驱动的海洋内孤立波振幅反演模型。在模型构建中,利用实测数据与遥感数据建立匹配数据集进行模型训练,但受观测数据量的限制,实测-遥感匹配数据集较小。为解决小训练数据集的问题,该论文使用了实验室数据作为训练数据的补充,并创新性的利用人工智能迁移学习技术来解决不同数据源的问题。基于该论文构建的海洋内孤立波振幅反演模型以遥感图像提取信息为输入,可以准确重构海洋内孤立波三维结构。 该研究表明,在多源大数据背景下,基于人工智能的纯数据驱动海洋信息来构建针对复杂海洋现象的反演模型是可靠的和可行的,具有广阔的应用前景。在模型搭建过程中不仅仅单纯依靠数据训练,而是充分考虑了所研究海洋现象的物理约束和遥感成像机制的指导作用。迁移学习算法为不同数据源的协同建模提供了连接的桥梁。人工智能技术作为一种蓬勃发展的新兴技术,可以在复杂海洋现象的研究中建立快速、直接的映射关系,是复杂海洋现象研究和遥感信息挖掘的一种高效率工具和方法。 上述研究工作得到了中国科学院海洋大科学研究中心、中国科学院先导科技专项、山东省重大创新工程及国家自然科学基金项目等资助。中国科学院海洋所张旭东博士为论文第一作者,李晓峰研究员为通信作者,合作者还包括中国科学院海洋所/青岛科技大学王浩宇、英国伯明翰大学王硕博士、自然资源部第一海洋研究所刘延亮博士、中山大学于卫东教授、中国海洋大学王晶教授和徐青教授。 论文链接: https://www.sciencedirect.com/science/article/pii/S0034425722000542?dgcid=author