摘 要 【目的】对国内外科技期刊文本与数据挖掘智能化研究进展进行阐述,为科技期刊文本与数据挖掘智能化发展探 寻对策方案。【方法】采用文献分析法,检索2019—2023年英文数据库WebofScience(SCIE、SSCI、ESI)、ScienceDirect、 Elsevier及中国知网数据库中的科技期刊文本与数据挖掘智能化研究,梳理科技期刊文本与数据挖掘智能化的不同方向,并 为科技期刊文本与数据挖掘智能化发展提供对策建议。【结果】目前国外科技期刊文本与数据挖掘智能化研究在选题策 划、预印本、文献评估、同行评议以及模型探索和方法学等方面取得一定进展,我国中文科技期刊在文本与数据挖掘的智能 化方面尚存在技术融合能力不足、出版实践不足、文本数据抓取不精准、智能算法和逻辑不完善等问题。应加强文本与数据 挖掘基础布局,促进融合发展;鼓励出版实践研究,开展文本与数据深度挖掘;进一步构建完整的科技期刊文本与数据挖掘 规则等。【结论】科技期刊文本与数据挖掘智能化发展可帮助科研工作者更快捷、更准确地获取大量的科技文献信息,为科 研工作者提供更深入的思考和研究方向,但其技术应用方案仍需进一步研究探索。
对策建议
1. 加强文本与数据挖掘基础布局,促进融合发展
加强文本与数据挖掘基础布局,促进融合发展, 如:采用自然语言处理技术对科技期刊文本与数据 进行处理和分析,实现对文本的语义理解、情感分析 等功能,提高对文本的理解和处理能力;采用机器学 习技术对科技期刊文本进行分类、聚类、推荐等,实 现对文本的自动化处理和管理,提高信息检索和知 识发现的效率和准确性;采用数据可视化技术将处 理后的数据呈现为直观易懂的图形,帮助期刊更好 地理解和分析数据,发现其中规律和趋势;采用智能 推荐技术将分析的结果反馈给编辑、读者或作者,帮 助他们发现更多有价值的信息和研究成果,提高其 工作效率和科研能力。
2. 鼓励应用文本与数据挖掘人工智能的出版实践
鼓励文本与数据挖掘平台或工具的构建,以通 过智能技术对科技文献进行深度挖掘,发现其中信 息和关联,从而促进科技创新和产业发展。鉴于当 前常用的挖掘方法各有优缺点,应鼓励大量根据不 同挖掘目的开展的出版实践,并总结经验。开发优 于现状的新模式、整合优势的智能网络平台也是未 来需要探索的方向。
3. 提高关键词抓取精准度
提高关键词抓取精准度,提高高维空间的文本 相似度,提高术语(或词汇)语义相关性,避免“维数 灾难”,深度研究科技期刊语言文字术语的精细标 准[29-30],进一步完善行业标准,促进文本与数据挖 掘的智能化发展。特征选择和降维等方法也可用于 进一步优化特征向量的表示。
4. 非结构化文本的归类探索
科技期刊具有学科交叉性,文本与数据多样。 应借鉴现有经验,探索非结构化文本的特征向量转 换和算法优化方法,如在确定特征向量时,可以综合 使用词袋模型、TF-IDF模型、Word2Vec模型、LDA 模型、N-Gram模型等,选取适合文本任务和数据集 的特征向量表示方式。算法模型也需要根据研究目 的进行优化,如:在使用深度学习模型卷积神经网络 进行文本处理时,应对长文本进行截断或填充以避
免模型无法处理或丢失关键信息,用迁移学习、预训 练模型提高训练速度,采用正则化技术(如L1、L2 正则化)降低模型复杂度和过拟合风险,结合注意 力机制或空洞卷积(DilatedConvolution)提升模型对 全局上下文的感知能力等。在采用循环神经网络 (RecurrentNeuralNetworks,RNN)进行文本处理时, 可采用门控循环单元(GatedRecurrentUnits,GRU)、 长短时记忆网络(LongShort-TermMemory,LSTM) 或预训练的词嵌入模型(如BERT、GPT等)解决长 期依赖性问题,使用注意力机制(Attention Mechanism)使模型能够更好地处理长序列,利用 Transformer模型并行处理整个序列,对序列进行截 断或采样以减少参数数量和计算量,使用批处理和 GPU加速等技术提高计算效率等。