《全文本视角下的核心引文测度:概念界定、指标体系与识别模型》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2024-12-26
  • 识别施引文献中的核心引文是深入开展科技成果评价的重要基础。为此,本文探讨了全文本视角下的核心引文测度,包括概念界定、指标体系构建及识别模型的优化,从而提供一个更为精准的科学评价工具。首先,明确核心引文的定义,构建包含题录信息和引用信息2个维度、8个子维度及33个引文特征指标的核心引文识别指标体系。其次,通过多种机器学习模型(如随机森林、支持向量机、逻辑回归)对引文特征指标进行遴选与优化,分析其相关性及信息增益,保留21个重要的引文特征指标,并验证识别模型的有效性。研究结果表明,基于引用信息的引文特征指标在识别核心引文时具有更高的重要性和贡献度。机器学习模型在核心引文识别中的表现优异,特别是随机森林、支持向量机、逻辑回归等模型,其ROC(receiver operating characteristic)曲线的AUC(area under curve)值均大于0.85,证明了模型的高效性和鲁棒性。核心引文测度方法及识别模型不仅为科学评价体系提供了更精准的工具,也为深入研究引文分析奠定了坚实的基础。
  • 原文来源:https://qbxb.istic.ac.cn/CN/10.3772/j.issn.1000-0135.2024.10.006,https://qbxb.istic.ac.cn/CN/Y2024/V43/I10/1199
相关报告
  • 《基于特征测度和PhraseLDA模型的领域学科交叉主题识别研究——以纳米技术的农业环境应用领域为例 》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-10-04
    • 摘要:【目的】基于特征测度方法和PhraseLDA模型,对领域学科交叉主题进行识别。【方法】通过主题的学科交叉特征分析,构建学科交叉主题测度指标体系,结合PhraseLDA模型识别领域学科交叉主题,最后在纳米技术的农业环境应用领域进行实证研究。【结果】客观识别出纳米技术的农业环境应用领域包括催化剂制备、土壤生物修复等交叉主题24个,相较于传统识别方法,交叉主题识别率提升71.40%,细粒度主题识别率提升42.86%。【局限】PhraseLDA主题模型的主题数量和学科交叉主题识别指标等阈值是经过反复计算调试而设定,因此,本文方法对相关阈值设定的合理性存在一定依赖性。【结论】本文方法可有效识别领域中的学科交叉主题,为相关领域开展科学决策和科技创新研究提供辅助参考。 关键词:学科交叉主题;主题识别;学科交叉特征;PhraseLDA模型;
  • 《大模型爆火的当下,舆情大模型进展如何?》

    • 来源专题:数智化图书情报
    • 编译者:闫亚飞
    • 发布时间:2023-09-30
    • 数据科技圈从来不缺概念,缺的是概念的落地。从“云计算、大数据、人工智能、AI、算力、元宇宙、到如今的“大模型”,概念是一个接着一个的迭代。其实每家的核心技术也都和之前差不多,只是顺应行业发展的不同阶段而变换不同的产品名称。就像春夏秋冬总得换件不一样的衣服一样,保暖的同时顺便炫耀炫耀,炒概念已经变成了资本和各个企业的战略风向标。电商行业大模型、出行行业大模型、金融行业大模型、支付行业大模型、语音识别行业大模型······各个行业的大模型层出不穷。也都在带领着各自的行业进行一个全新的发展阶段、全新的场景落地阶段、也是全新的技术突破阶段。大模型具优点:处理大规模数据能力强+处理复杂问题能力强+具有更高的准确率和性能。 舆情行业或者叫舆情数据行业,拥有着得天独厚的数据优势,与上述大模型优点完全契合。拥有全网所有公开平台的媒体、网民的发帖信息。即所有报纸、门户网站、论坛贴吧、BBS、短视频、长视频、音频、APP、微博、公众号等全网新闻和社交信息。庞大又复杂的结构化和非机构化数据,形成了最最基础也是最最核心的数据资源,为大模型训练提供了最充足的数据要素,从而训练出来的大模型也最具有稳定性、高性能、精准性等。优化之后的模型应该更成熟、更完善,落地的场景会更多样化。 当下,舆情行业哪些厂商已经开始布局大模型的概念呢? 7月8日。上海企业蜜度在2023世界人工智能大会上发布了“蜜巢”智能舆情分析大语言模型。输入关键词后,它能在2分钟左右自动生成相关新闻的《热点速报》,包含事件概况、数据概况、舆论观点、研判建议4个板块,有望成为政府和相关企事业单位的得力助手。  9月26日,北京企业拓尔思在中关村技术交易与推广推介对接活动——新技术新产品首发推介(人工智能与集成电路)专场上,拓尔思拓天舆情大模型正式发布。 截止目前仅有2家企业在公开上线发布了舆情大模型,其他企业都还未进行相关的品牌漏出和市场宣传。那么舆情数据行业可以有哪些大模型场景呢? 1、消费者画像舆情大模型。该模型可以分出消费者对于品牌的喜好程度、产品的喜好程度(原材料、制作工艺、价格、运输等各环节的评价信息)、产品口味的偏好程度、企业价值的喜好程度、产品售后服务的满意程度等。从而形成品牌用户的核心画像大模型,为企业收集消费者的建议与反馈,反哺企业运营调整与市场健康发展。 2、网民发帖习惯舆情大模型。该模型可以精准分析网民针对不同舆情事件、社会话题的发帖习惯、讨论习惯、联想习惯、转发习惯等等,精准分析和预测未来类似舆论发生后,可能的传播趋势走势、传播观点等,更高效的帮助政府做好社会维稳、区域治理。为企业提供有价值的危机公关预防策略。 3、互联网事件舆情大模型。该模型自带历史N年舆论事件分析库,将按照年份、行业、舆论方向、二次舆论、反转舆论等多维度聚合互联网舆论事件。形成国内权威的舆情智库。为科研机构、高校、新闻传播行业、文本分析行业、公关行业、营销策划行业等提供充足且权威的历史经验借鉴。让舆情不再孤独的沉寂在互联网历史的海洋中,让历史事件的舆情经验效益和社会效益最大化。 4、媒体画像舆情大模型。通过媒体历史多年的报道新闻,利用舆情大模型分析出哪类媒体报道话题的偏好;针对不同行业的客户,媒体的发帖策略、发帖的侧重点、攻击的侧重点、以及揭露新闻事实重要程度等。构建全方位定位媒体标签体系,形成强大的媒体画像大模型。为未来的高效的媒体沟通、真诚沟通、承担企业的社会责任而形成健全的价值参考模型。 5、医药行业舆情大模型。通过分析行业上下游医院、医生、患者、竞品、行业监管部门等全方位信息,形成自身潜在风险提示大模型。同时依据医药行业的竞品新品上市挖掘、专利过期风险提示、药品通过认证、战略合作、捐助捐赠等全方位情报信息为自身提供权威且具有参考意义的舆情决策大模型。【由此各个行业舆情大模型都可以场景化落地】 舆情大模型场景太多了,金融、零售、制造、明星、影视、连锁餐饮等行业都可以包装成细化的大模型。但如此具有数据话语权的舆情行业为何迟迟没有大范围的炒大模型概念呢?推测原因有如下几点: 1、敏感性。舆情大模型很火爆,但内容很敏感。毕竟舆情这个字眼本身就是舆情,难不成我们要明目张胆的告诉消费者我们在全天的监测他们的网络发帖吗?我们能宣告每一次的舆论危机背后都是舆情公司在帮助企业公关部门做辅助新闻信息分析吗?显而易见,答案是否定的。 2、合规性。作为一直隐藏在服务企业市场的背后技术厂商,舆情技术公司从来都很小心翼翼,生怕舆情概念太火,引发不必要的结果。毕竟国内还并没有完全公开承认舆情数据的合法化和市场化。舆情数据采集上也只能依照目前仅有的类似的一些技术标准和一些政策文件进行合规性参照。 3、战略性。或许很多企业都在闷声发大财或是闭门造车。还未意识到应该搭上大模型这趟后疫情时代的首趟列车去宣传、去融资。已经四五年没有听到舆情行业融资的喜讯了。如何更有力的向资方要钱应该是企业掌舵者应该考虑的方向之一。 4、人才性。品牌总监岗位在各个招聘网站的年度人才岗位分析上都是最稀缺岗位之一。品牌总监的专业性对一个企业品牌的阶段性发展作用起着至关重要的影响力,所以舆情企业的品牌总监的稀缺性也是目前的行业现状。舆情这个细分大数据赛道,池子规模显而易见。说白了底层核心技术就一个爬虫,外加中间层一个NLP技术。理论上多大的池子造多大的浪,但经过包装后,这浪可就有可能是海啸了。所以说,技术只是核心立足之本,但名气可就是包装出来了,包装能力才是装B能力。