《ChatGPT中文信息抽取能力测评——以三种典型的抽取任务为例》

  • 来源专题:数智化图书情报
  • 编译者: 闫亚飞
  • 发布时间:2023-09-13
  •  [目的]评估ChatGPT在中文命名实体识别、关系抽取以及事件抽取等典型的中文信息抽取任务中的性能,分析不同任务和领域ChatGPT的表现差异,给出ChatGPT中文场景下的使用建议。
    [方法]采用Prompt提示的方式,分别依据精确匹配和宽松匹配两种方式,测评ChatGPT在3个典型信息抽取任务、共7个数据集上的性能:在MSRA、Weibo、Resume和CCSK2019数据集评估ChatGPT的命名实体识别效果,并与GlyceBERT和ERNIE3.0模型对比;在FinRE和SanWen数据集中测试ChatGPT与ERNIE3.0 Tian的关系抽取效果;在CCKS2020数据集测试ChatGPT与ERNIE3.0 的事件抽取效果。
    [结果] ChatGPT在命名实体识别任务中的表现低于GlyceBERT和ERNIE3.0模型。在关系抽取任务中,ERNIE3.0Tian优于ChatGPT。在事件抽取任务中,ChatGPT在宽松匹配下的表现优于ERNIE3.0。
    [局限]以Prompt提示的方式评估ChatGPT的性能表现存在主观性,不同的Prompt会产生效果差异。
    [结论] ChatGPT在典型的中文信息抽取任务上的表现还有很大的改进空间,用户在使用过程中需选择合适的Prompt和问题。
  • 原文来源:https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2023.0473
相关报告
  • 《MRIGlobal公司通过基因型表型模型展示一种RNA病毒特征抽取算法》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:hujm
    • 发布时间:2020-03-09
    • 3月2日,bioRxiv预印本平台发表了来自MRIGlobal研究团队的题为“Vorpal: A Novel RNA Virus Feature-Extraction Algorithm Demonstrated Through Interpretable Genotype-to-Phenotype Linear Models”的文章。 文章指出,在基因组序列分析中通常选择无比对方法,因为它相比于基于比对的方法具有更快的分析速度,并在距离比较和分类学中应用广泛。这些方法通常依赖于切除输入序列的K长度子串(K-mers)。在机器学习中,基于K-mer的特征向量已成功应用于从扩增子测序分类到抗菌素耐药基因预测模型中。可以将其类比为自然语言处理和计算机视觉中用于文档和图像分类的词袋模型。自然语言处理中的特征提取技术早先已应用于基因组数据。但是,由于高序列间差异和K-mers的精确匹配要求,“词袋”方法在RNA病毒空间数据上的应用并不可靠。 为了使词袋法的简便性与RNA病毒空间变异伴随的复杂性协调一致,本文设计了一种以客观反映潜在生物学现象的方式并解决K-mers不可靠问题的方法。该研究算法Vorpal允许构建以聚类K-mers为输入向量,并通过正则化将二进制表型的稀疏预测因子作为输出的可解释线性模型。在本文中,通过拟合三个单独的RNA病毒进化枝中二元表型的核苷酸水平的基因组基序预测因子来证明Vorpal的有效性;人类病原体与在甲型流感病毒中引起原发性非人类病原体,在埃博拉病毒中引起出血热与非出血性发热以及在甲型流感中人类宿主与非人类宿主的关系。该代码可从https://github.com/mriglobal/vorpal下载。 *注,本文为预印本论文手稿,是未经同行评审的初步报告,其观点仅供科研同行交流,并不是结论性内容,请使用者谨慎使用。
  • 《3月2日_MRIGlobal公司通过基因型表型模型展示一种RNA病毒特征抽取算法》

    • 来源专题:COVID-19科研动态监测
    • 编译者:xuwenwhlib
    • 发布时间:2020-03-04
    • 3月2日_MRIGlobal公司通过基因型表型模型展示一种RNA病毒特征抽取算法 1.时间:2020年3月2日 2.机构或团队:美国MRIGlobal 3.事件概要: 3月2日,bioRxiv预印本平台发表了来自MRIGlobal研究团队的题为“Vorpal: A Novel RNA Virus Feature-Extraction Algorithm Demonstrated Through Interpretable Genotype-to-Phenotype Linear Models”的文章。 文章指出,在基因组序列分析中通常选择无比对方法,因为它相比于基于比对的方法具有更快的分析速度,并在距离比较和分类学中应用广泛。这些方法通常依赖于切除输入序列的K长度子串(K-mers)。在机器学习中,基于K-mer的特征向量已成功应用于从扩增子测序分类到抗菌素耐药基因预测模型中。可以将其类比为自然语言处理和计算机视觉中用于文档和图像分类的词袋模型。自然语言处理中的特征提取技术早先已应用于基因组数据。但是,由于高序列间差异和K-mers的精确匹配要求,“词袋”方法在RNA病毒空间数据上的应用并不可靠。 为了使词袋法的简便性与RNA病毒空间变异伴随的复杂性协调一致,本文设计了一种以客观反映潜在生物学现象的方式并解决K-mers不可靠问题的方法。该研究算法Vorpal允许构建以聚类K-mers为输入向量,并通过正则化将二进制表型的稀疏预测因子作为输出的可解释线性模型。在本文中,通过拟合三个单独的RNA病毒进化枝中二元表型的核苷酸水平的基因组基序预测因子来证明Vorpal的有效性;人类病原体与在甲型流感病毒中引起原发性非人类病原体,在埃博拉病毒中引起出血热与非出血性发热以及在甲型流感中人类宿主与非人类宿主的关系。该代码可从https://github.com/mriglobal/vorpal下载。 *注,本文为预印本论文手稿,是未经同行评审的初步报告,其观点仅供科研同行交流,并不是结论性内容,请使用者谨慎使用。 4.附件: 原文链接https://www.biorxiv.org/content/10.1101/2020.02.28.969782v1