《GSBERT:一种基于可视化解释的数据标注自动检测方法实证》

  • 来源专题:数智化图书情报
  • 编译者: 程冰
  • 发布时间:2025-07-22
  • [目的/意义] 大规模预训练模型的发展开启了人工智能领域的新阶段,越来越多的研究者将BERT、GPT等模型引入到各应用领域,但其复杂性和可解释性的问题给模型通用化带来一定程度的风险,与此同时,分类任务中训练数据的人工标注成本高,其质量直接影响模型的可用性,自动优化数据标注质量往往可以节约资源,提高模型的训练效率和模型的可用性。[方法/过程] 提出GSBERT(Gradient Saliency BERT Model)模型,该模型基于梯度显著度的方法探寻BERT模型决断依据,并通过可视化方式呈现BERT模型决断过程,使模型决策具有可解释性;在通过梯度显著度计算样本特征词的基础上,提取样本特征分布作为GSBERT检测标注的依据。为了检验GSBERT在分析数据一致性上的效果,利用GSBERT模型对新闻分类数据集的“误分类”样本进行重新标注,由于标注质量的提高,使模型在验证集上准确率提升12.55%。[结果/结论] 从大模型可解释性的角度出发,探究一种全新有效的挖掘数据价值的方法,为各领域更广泛地应用深度学习技术提供借鉴思路。
  • 原文来源:https://www.lis.ac.cn/CN/10.13266/j.issn.0252-3116.2025.11.010
相关报告
  • 《苏州医工所戴亚康课题组在颅内动脉瘤自动检测领域取得进展》

    • 来源专题:生物安全知识资源中心—领域情报网
    • 编译者:hujm
    • 发布时间:2023-04-04
    •  颅内动脉瘤高发高危且起病隐匿,早期发现并干预能够预防可能发生的动脉瘤破裂。飞行时间磁共振血管造影(time of flight magnetic resonance angiography,TOF-MRA)是主要的颅内动脉瘤无创筛查方法,但人工筛查存在漏诊、效率低等问题。此外,已有的基于深度学习的自动检测算法平均每例假阳性数较高(2.9~9.0个/例),易导致患者进行有风险且非必要的数字减影血管造影(digital subtraction angiography, DSA)检查,这导致现有的自动检测方法难以在临床应用。   为构建有高敏感度同时有低假阳性数的颅内动脉瘤自动检测算法,中国科学院苏州医工所戴亚康课题组耿辰副研究员与复旦大学附属华山医院放射科合作,提出均衡数据增强策略以及基于轮廓引导的双通道卷积神经网络检测方法(见图1),并将该方法在多中心数据集上进行了验证。该检测方法通过自适应阈值的颅内血管提取算法对完整TOF-MRA数据进行预处理,采用血管树轮廓图像和完整血管树图像作为双通道输入,同时利用通道注意力机制使模型对通道特征实现自适应选择。方法中构建了双通道SE-3D UNet模型,并利用基于均衡数据增强策略的训练数据进行网络训练,进一步提升了模型的检测性能。最终构建的检测方法可读入原始TOF-MRA影像,进行动脉瘤的自动检测,并输出包含动脉瘤位置标注的检测结果。   研究团队使用采集自6家医院的1037例数据作为网络的训练集和验证集,123例作为外部测试集,方法在外部测试集的病例级别检测敏感度(TRP)为82.46%,平均每例假阳性数(FPs/case)为0.88,性能与现有同类方法相比有显著提升,敏感度具有竞争力,且达到了更低的平均每例假阳性数。方法在数据各维度分组上的性能表现如图2所示,经统计分析,各分组检测性能间没有显著差异。   该成果发表于EUROPEAN RADIOLOGY。该项工作得到了国家自然科学基金;上海市科委项目;山东省自然科学基金项目的经费支持。   论文链接:https://link.springer.com/article/10.1007/s00330-022-09385-z
  • 《科学家开发出一种检测CRISPR脱靶效应的新方法》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:huangcui
    • 发布时间:2019-04-25
    • 自从CRISPR基因组编辑技术于2012年发明以来,它已经显示出治疗许多难治性疾病的巨大希望。然而,科学家们一直在努力在治疗相关的细胞类型中鉴定潜在的脱靶效应,这仍然是将治疗方法转移到临床应用的主要障碍。如今,在一项新的研究中,来自美国加州大学伯克利分校、加州大学旧金山分校、格拉德斯通研究所和瑞典阿斯利康公司的研究人员开发出一种可靠的方法来实现这一目标。相关研究结果发表在2019年4月19日的Science期刊上,论文标题为“Unbiased detection of CRISPR off-targets in vivo using DISCOVER-Seq”。论文通讯作者为加州大学伯克利分校的Jacob E. Corn。论文第一作者为加州大学伯克利分校的Beeke Wienert和Stacia Wyman。 CRISPR通过在特定位置切割DNA来编辑人的基因组。所面临的挑战是确保这种工具不会在其他地方进行切割,即一种被称为“脱靶效应”的DNA损伤,这可能会带来无法预料的后果。 Wienert博士表示,当CRISPR进行切割时,DNA会被破坏。因此,为了生存,细胞将许多不同的DNA修复因子募集到基因组中的特定位点上以修复断裂并将切割末端连接在一起。他们认为如果他们能够找到这些DNA修复因子的位置,就可以鉴定出被CRISPR切割的位点。 为了测试这种想法,这些研究人员研究了一组不同的DNA修复因子。他们发现其中的一种称为MRE11的DNA修复因子是DNA切割位点的第一批响应者之一。他们利用MRE11开发了一种名为DISCOVER-Seq的新技术,它可以识别出CRISPR切割基因组的确切位点。 论文共同作者、格拉德斯通研究所高级研究员Bruce R. Conklin博士解释称,人类基因组非常庞大---如果你打印完整的人DNA序列,那么你最终会得到一本高达16层的小说。当想用CRISPR切割DNA时,这就像试图删除这本小说中特定页面上的一个特定单词一样。可以将DNA修复因子视为给这本书添加的不同类型的书签。虽然一些DNA修复因子可能会将整个章节作为书签,但是MRE11却是一个能够精确到这本书中已发生变化的字母。 目前存在检测CRISPR脱靶效应的不同方法。然而,它们具有一些不足之处,比如产生假阳性结果和杀死它们正在检查的细胞。此外,迄今为止最常用的方法仅限于在实验室中用于体外培养的细胞,但不包括它在患者来源的干细胞或动物组织中的使用。 Corn表示,鉴于他们的方法依赖于细胞的自然修复过程来识别切割位点,它经证实是一种侵入性更小、更可靠的方法。他们能够在诱导性多能干细胞、患者细胞和小鼠中测试其新开发的DISCOVER-Seq方法,而且研究结果表明这种方法可潜在地用于任何系统,而不仅仅是在实验室中。 这种正在用于新的细胞类型和系统中的DISCOVER-Seq方法也揭示出对CRISPR编辑基因组机制的新认识,这将导致更好地理解这种工具如何发挥作用的生物学特性。 Conklin指出,这种新方法极大地简化了识别脱靶效应的过程,同时也提高了结果的准确性。这可能更好地预测基因组编辑如何在临床环境中发挥作用。因此,它代表了改善临床前研究和让基于CRISPR的疗法更接近有需要的患者的一个重要步骤。