目的 | 意义_相关法律法规和通信数据行业标准中,将个人通信数据划分为四个等级,但缺失定量研究支撑,本文定量测度通信隐私值,解决该问题。
研究设计 | 方法_首先归纳通信隐私文本类型并建立通信隐私文本库,其次构建通信敏感词表,进行通信数据的敏感性识别,最后通过设计隐私计量模型,对通信隐私进行计量。
结论 | 发现_隐私性从高到低依次为:通信内容数据、统计分析数据、个人相关数据、通信衍生数据、通信地址数据。
创新 | 价值_基于通信隐私文本,识别通信敏感数据,计量通信隐私值,对基于主观的隐私主体敏感性认知测度方法进行补充,为个人通信数据分级保护提供定量依据。
1
引言
国家标准《信息安全技术即时通信服务数据安全要求》将即时通信服务数据划分为用户数据和业务数据,本研究将前者称为个人通信数据,并参考其对即时通信服务数据的定义,将个人通信数据界定为通信服务提供者针对自然人使用主体所采集和制作的通信者个人信息。隐私是自然人对其隐私客体的敏感性认知,故个人通信数据隐私是通信服务使用者对其被采集个人数据的敏感程度认知,也是通信服务提供者对其用户通信数据在生命周期中被采集使用的个人隐私,简称通信隐私。
通信技术进步推动通信业务快速扩展,产生海量具有较高价值的个人通信数据,不仅广泛应用于个性化通信服务以实现服务增值,也被其他领域大量使用以获取高额收益,导致泄露事件时有发生,严重威胁用户隐私安全。比如,2018年圆通10亿条快递信息在暗网兜售,2022年我国电信网络窃密数据传至境外等。确保个人数据隐私安全是通信服务提供者的基本职责,为此通信数据行业标准以及相关法律法规颁布实施,均将个人通信数据分级保护作为基本方法,如《中华人民共和国电信条例》《信息安全技术即时通信服务数据安全要求》等。但仅有《基础电信企业数据分类分级方法》依据“数据的重要敏感程度”和“一旦丢失、泄露、被篡改、被损毁对用户个人利益造成影响的程度”将个人通信数据划分为四个级别(严重、高、中、低),且缺失对分级依据要素的定量测度,致使在通信数据保护实践中难以有效应用。因此,对个人通信数据的敏感性进行识别并对其进行计量,具有一定现实意义。
2
实践进展与研究回顾
_
2.1 实践进展
数字技术快速发展扩展了通信方式,导致个人通信数据急剧增长,致使数据安全日趋突出。通信数据隐私保护已引起通信行业和法律实践界的高度重视,相关成果体现在行业标准和法律法规两个方面。
(1)行业标准。①国内行业标准,如《基础电信企业数据分类分级方法》。在适用范围上,既有国家层面的总体架构,又有不同类型通信业务的具体规范;在内容上,既有通信数据分级分类的原则方法,又有通信数据生命周期隐私安全的保护规则;在作用上,既有对数据采集的管理规制,又有对数据隐私安全的保障措施。②国际行业标准,如《电信组织个人可识别信息保护实用规程》,总结电信大数据生命周期的安全风险,建立通信数据利益相关方的数据安全保护标准。
(2)法律法规。①国内相关法律法规,如专门立法《中华人民共和国电信条例》、综合立法《数据安全法》,主要涉及个人通信数据隐私保护的基本框架和实施主体、个人通信数据开发利用隐私安全的责任划分等内容。②国外相关法律法规,如欧盟《通用数据保护条例》,除强调个人通信数据隐私保护权的主体责任外,还对法律法规结合行业自律的隐私保护机制以及隐私数据披露与使用的权利进行具体界定。
2.2 研究回顾
本研究通过挖掘通信数据隐私相关文本,识别通信敏感数据项,计量通信敏感数据隐私值。因此,文献综述涉及通信数据隐私保护、隐私计量和语义挖掘三个方面。然而,据文献调查,通信数据隐私保护的相关研究较多,少有专门针对通信数据隐私计量和语义挖掘的研究,故本研究将综述其他领域数据隐私计量和语义挖掘的相关研究,为通信数据提供借鉴,相关研究汇总见表1。
通信数据隐私保护方面。相关研究集中在管理和技术两个层面,前者目的在于提升通信数据隐私风险管理水平,后者则降低通信数据隐私风险概率。
相关领域隐私计量方面。已有研究多采用实验经济学方法,度量隐私主体为保护隐私客体而愿意提供的支付金额或为提供隐私客体而愿意接受的赔偿金额,衡量隐私的货币价值。
相关领域语义挖掘方面。相关领域的语义挖掘对象是规范性较强的政策文本,语义挖掘过程包括文本特征提取和标签化处理两个步骤,前者用于文本数据转化为特征向量,后者衡量文本内容语义重要性。实际上,针对政策性文本的语义挖掘方法具有一定普适性,本文将参考文本特征提取方法,探索通信隐私文本中敏感名词、敏感动词及敏感程度词的识别,建立通信敏感词表;借鉴文本标签化方法构建多维标签模型,研究通信隐私文本内容语义的权重,开展通信隐私计量。
2.3 述评
实践进展方面。已有一系列通信数据相关的行业标准和法律法规颁布实施,对通信隐私保护进行制度规制,但缺乏通信数据分级的定量依据,导致通信数据隐私分级保护制度无法有效实施。
学术研究方面。通信数据隐私保护相关研究未涉及分级保护的具体措施,导致通信数据隐私保护缺乏效率;相关领域隐私计量研究大多基于隐私主体认知视角,计量结果的主观性偏强;相关领域语义挖掘方法具有较好的普适性,可为识别通信敏感数据提供方法指引。
基于此,本文沿着“明确识别来源→构建识别模型→开展隐私计量”的思路展开研究。首先,根据主题相关性、类型针对性和内容时效性等原则,筛选通信领域行业标准、法律法规、学术论文和泄露案例构建通信数据隐私文本库,以明确识别来源。其次,分析通信敏感数据单元的结构,基于“词表框架、词汇采集、词表形成”的词表建立过程,形成通信敏感名词表、敏感动词表和敏感程度词表,以构建识别模型。最后,分析通信数据隐私性的影响因素,形成通信数据隐私计量指标,配置指标权重,构建通信隐私计量模型,开展隐私计量。该研究思路通过挖掘通信数据隐私文本,识别通信敏感数据,进行通信隐私计量,计量结果具有客观性,可弥补基于隐私主体调查结果存在主观性的缺憾,以期为个人通信数据分级提供科学的定量依据,完善通信数据行业标准的应用。
_3
构建通信数据隐私文本库
_
基于上述研究思路,首先需要构建通信数据隐私文本库,作为通信敏感数据的识别来源。通信数据隐私文本指主要以通信数据的涵义界定、类型类别、隐私保护、隐私风险、隐私泄露、生命周期、管理规范等为主题的相关文献。隐私文本库的构建分两个步骤:归纳通信数据隐私文本类型、调查每种类型文本。
3.1 归纳隐私文本类型
隐私是隐私主体对隐私客体的敏感性认知,故隐私文本体现隐私主体的认知结果,不同主体的认知结果呈现方式不同。其中,通信数据行业标准是通信管理部门指导通信运营服务商处理通信数据的行动指南,统计分析其涉及通信敏感数据的内容,可反映通信管理实践界对通信数据重要性的行业认知;个人数据保护的相关法律法规政策设置有保护通信敏感数据的条款,统计其保护内容,可反映法学理论界对通信数据隐私安全的关注程度;通信隐私保护领域的学术论文主要涉及现行法律未规定但学术界关注的隐私保护内容,可反映领域专家学者对通信数据隐私的专业认知;通信数据泄露案例是对通信数据泄露事件的真实报道,隐私泄露的驱动来自社会需求,需求越强,表明隐私价值越大,导致泄露越多,统计泄露案例文本中的泄露内容,可反映隐私侵犯相关者对通信数据价值的认知。
上述通信领域的四类主体活动分别对应四类隐私文本:(1)行业标准,包括通信数据保护的技术需求与管理指南、不同类型通信方式采集数据的管理规定、通信制作数据的技术规范等。(2)法律法规,包括法律、行政法规、部门规章及通信数据隐私管理的相关条例等。(3)学术论文,包括探索通信数据及其隐私管理理论、保护技术、权属治理、风险识别等热点问题的学术成果。(4)泄露案例,包括最高司法机关发布的指导性案例、各级司法机关发布的典型案例、司法类出版物报道的经典案例、其它普通案例等。
3.2 建立隐私文本库
基于通信数据隐私文本内容,构建文本筛选原则;设置检索词,针对每类文本,选择数据库,浏览筛选检索结果,建立文本库。
文本筛选原则:(1)主题相关性,限定在通信数据领域,包括即时通信、邮政和快递、固话和移动通信、电子邮件等业务。(2)文献类型针对性,限定在行业标准、法律法规、学术论文、泄露案例。(3)内容时效性,限定在现行有效的行业标准及相关法律法规,选择近十年学术论文和官方发布案例。
检索词设置:通信数据、通信隐私、个人通信、邮件数据、快递数据、移动通信数据、网络通信数据、即时通信、即时信息等。
文本库形成:(1)行业标准,选择中国知网、北大法宝、CSDN、工业和信息化部规章库、全国标准信息公共服务平台等标准平台检索,筛选23篇。(2)法律法规,使用北大法宝,选择“中央法规”主题检索,筛选法律17篇、党内法规6篇、行政法规20篇、部门规章60篇、司法解释21篇,共计124篇。(3)学术论文,使用CNKI的“高级检索”,限定“主题”检索,年度限定“ 2012-2022 ”,来源为核心期刊,筛选120 篇。(4)泄露案例,使用北大法宝,限定“司法案例”“类案检索”进行案例检索,筛选各类泄露案例共计60篇。上述文本检索时间为2022年12月。
_4
通信数据敏感词表构建
_
首先,通信敏感数据单元是词表构建的基础,需要进行概念界定和识别流程设计;其次,通信敏感词表建立过程分为若干步骤,需要设计构建流程进行过程规范;最后,构建结果形成三个不同类型的词表,作为通信敏感数据识别模型。
4.1 通信敏感数据单元
通信敏感数据单元是通信数据项语义结构的最小单位,句法上可被界定为包含通信数据项的句子,该句子还可能包含对通信数据项进行操作的动词以及直接或间接修饰通信数据项的程度词。
识别流程。一是清洗通信隐私文本,对各类文献进行纯文本格式化、行文规范化、内容逻辑化、标点符号标准化等处理,形成规范的纯文本文档。二是建立敏感数据语句集,析出上述纯文本文档中内含敏感数据项的语句,汇集敏感数据语句。三是识别敏感数据单元,分析敏感数据语句的语义构成,人工标注其中敏感名词(数据项)、敏感动词及程度词等语义元素,生成敏感数据单元,示例见表2。
_表2 敏感数据语句&单元(示例)
_
4.2 通信敏感词表构建流程
采用宏观上的词表框架建构与微观上的隐私词汇采集相结合方法。宏观上,依据隐私内涵分析通信数据敏感性识别的基本需求,调查通信数据分类的标准规范,构建词表框架,统筹构建过程。微观上,依据词表框架控制词汇采集,根据句法结构分析通信隐私构成要素,挖掘文本中数据项形成语义词汇,进行敏感词汇的聚类归类建立完整的通信数据敏感词表。
词表框架建立。通信数据行业标准由权威机构发布,具有制定过程的业界广泛参与性、解决现实问题的最佳实用性、领域内科学技术的权威性、业务使用的推荐性和强制性。因此,可以基于行业标准中的通信数据分类规范构建通信敏感名词框架,基于通信数据生命周期规范构建通信敏感动词框架,基于通信敏感数据单元构建通信敏感程度词框架。
敏感词汇采集。依据行业标准中通信服务业务数据规范,获得的通信敏感名词(数据项)具有权威性;通信服务提供者是个人通信数据的采集者和使用者,对其调查获得的采集内容具有现实的客观性;故综合上述两个维度收集的敏感名词具有完整性。通信隐私文本是通信数据领域理论研究成果和实践操作经验总结,从中挖掘敏感动词和程度词具有科学性。
敏感词表形成。处理采集的通信敏感词汇,识别等同等级关系,归纳同义多义关系,扩展和筛选通信敏感词汇,构建通信敏感语义网络,建立通信敏感词表。词表建立流程如下图1所示。
_
__图1 通信敏感词表构建流程图_
4.3 通信敏感词表构建结果
依据敏感数据单元的构成,通信敏感词表构建结果包含通信敏感名词表、通信敏感动词表、通信敏感程度词表。
4.3.1 通信敏感名词表
词表框架。通信敏感词表框架即个人通信数据项类型。通信方式主要有网络、固话与移动、邮政与快递,现行通信数据行业标准中均有涉及,梳理归纳其中个人通信数据类型如下:①个人相关数据,开通和注册通信服务时,用户需提供的个人身份信息,包括身份标识、身份鉴别、用户资料等。②通信地址数据,通信双方的位置信息,包括直接地址和间接地址。③通信内容数据,用户使用通信服务传递的内容,包括电信通信内容和网络通信内容,但不含寄递服务中寄递信件内容,因为寄递服务提供者无法采集。④通信衍生数据,服务于通信业务,记录通信过程,间接参与通信活动的用户服务使用数据,包括服务日志、消费账单、违规记录。⑤统计分析数据,基于对采集个人通信数据的统计分析,服务提供者制作的反映用户个人特质的数据,目的在于个性化营销推送,包括用户使用习惯、上网行为等分析数据。
构建结果。依据通信数据行业标准、关联个人通信数据的其他标准以及通信业务收集的个人数据,进行词汇采集,再基于上述通信敏感名词框架,进行同义词的聚类、多义词的归类、词义含糊的注释等规范化处理,形成通信敏感名词表,见表3。
_表3 通信敏感名词表
_
表3中,前两类数据的敏感数据项均限定在通信服务提供者采集的用户数据项,不涉及其他场景采集的数据项。后三类数据均为通信数据独有。
4.3.2 通信敏感动词表
词表框架。基于行业标准《信息安全技术 即时通信服务数据安全要求》,析出通信数据的生命周期,归纳每个阶段的操作活动:①收集阶段,服务提供者人工和自动方式对用户数据进行采集的操作。②存储阶段,服务提供者对收集的用户数据进行安全保存的操作。③传输阶段,服务提供者对用户数据在不同介质不同系统之间安全接转传递的操作。④使用与加工阶段,服务提供者对用户信息进行展示浏览、加工处理、内容推荐、用户画像等各项操作。⑤提供与共享阶段,服务提供者向第三方提供转移、共享转让、委托处理用户数据的操作。⑥删除阶段,服务提供者清除和销毁用户个人通信数据的操作。另外,每个阶段的操作都可能导致隐私风险的产生,并由此进行隐私保护的活动,故需增加两类操作动词:⑦隐私风险的产生、⑧隐私保护的活动。
构建结果。依据通信敏感名词表,从通信数据隐私文本库识别通信敏感数据单元,进行词汇采集,再基于通信敏感动词框架,进行点互信息算法(PMI)的词汇扩展、语义相似度筛选等操作,形成通信敏感动词表,见表4。
_表4 通信敏感动词表
_
表4中,前六类动词是间接对通信隐私操作,后两类动词是直接对通信隐私操作,故前者的操作强度要弱于后者,分别赋值为1和2。
4.3.3 通信敏感程度词表
词表框架。通信敏感程度词表框架是通信敏感数据单元中直接和间接限定(或修饰)敏感数据项的语义元素,作用是提升敏感数据项的敏感程度。可分为:①直接修饰的语义元素,直接增强敏感数据项的敏感程度,常为形容词;②间接修饰的语义元素,通过提高敏感动词的敏感程度而间接提升敏感数据项的敏感性,即修饰敏感动词的程度词,常为副词。
构建结果。依据通信敏感名词表,从通信数据隐私文本库识别通信敏感数据单元,进行词汇采集,再基于通信敏感程度词框架,进行点互信息算法(PMI)词汇扩展、语义相似度筛选等操作,形成通信敏感程度词表,见表5。
_表5 通信敏感程度词表
_
参考已有研究中对敏感程度词进行情感评价的结果,表5前两类程度词的强度值分别设为“1”、“4”,第三类划分为四个等级。
_5
通信数据隐私计量
_
基于通信数据敏感词表构建结果,开展通信数据隐私计量。首先,分析通信数据隐私的影响因素,形成计量指标。其次,配置指标权重,建立通信隐私计量模型。最后,实施通信隐私计量,分析计量结果。
5.1 通信数据隐私性的影响因素分析
通信数据项的语义环境为敏感数据单元和隐私文本,敏感数据单元包含通信数据项以及提升其敏感程度的操作和修饰。因此,通信数据项的敏感性、操作动词与修饰程度词对数据项产生的语义强度、隐私文本的力度构成了通信数据隐私性的影响因素。
通信数据项的敏感性。隐私文本中通信数据项出现的频率越高,重要性越大,隐私性越强。包含通信数据项的文本占比越大,被关注的范围越广,隐私性越强。故出现频率和文本占比构成其敏感性的影响因素。
通信数据项的语义强度。敏感动词的强度越大,在敏感数据单元中出现的频次越高,说明对数据项操作的程度越高,价值也越大。同样,敏感程度词的强度越大,在敏感数据单元中出现的频率越高,说明对数据项的修饰程度越高,修饰次数越多,重要性也越显著。故通信敏感动词的操作强度和敏感程度词的修饰强度构成其语义强度的影响因素。
通信数据项的文本力度。不同类型文本的作用不同,即使是同类文本,不同特征文本也可能存在区别,致使对数据项的影响力度产生差异。例如,法律法规的颁布机构、泄露案例的类型和发布渠道、专家论文的下载和引用次数等特性,导致对文本中数据项的作用力度不一样。故四类隐私文本的力度构成了通信数据项文本力度的影响因素。
5.2 通信隐私计量模型
依据上述分析,建立隐私计量模型如图2。
_
__图2 通信隐私计量模型_
权重配置。本研究邀请3位通信数据领域专家和2位数据隐私领域专家采用1~9标度法(“ 1 ”代表同等重要,“ 9 ”代表绝对重要),对通信隐私计量模型中需加权融合的指标两两对比打分,打分形式采用三角模糊数。
基于专家打分结果,构建模糊判断矩阵,运行基于三角模糊数改进的模糊层次分析算法步骤,计算指标权重分别为:{A,B,C} 的权重为(0.49,0.23,0.28),{A1,A2} 的权重为(0.44, 0.56),{B1,B2} 的权重为(0.58,0.42),{C1,C2,C3,C4} 的权重为(0.40, 0.30, 0.20,0.10)。
5.3 通信隐私计量结果
(1)计量结果呈现
计量实验按照四个文本库依次实施,计算结果如表6所示。
_表6 计量结果(取前3名)
_
(2)结果分析:基于数据类型维度
通信内容数据的隐私性最高(151.82)。这类数据仅以通信方式划分为固话、移动和即时通信的内容以及邮件内容和手机短信彩信等,并未界定数据的内容本身。现实中,通信内容除一般性交流外,大量涉及私聊,具有很高的秘密性,常常可能关乎通信者的财产属性和人格属性,这两类属性信息正是隐私客体的核心,充分展示隐私基本内涵。此外,在多类型的个人数据隐私计量文献中,个人通信数据的隐私值也很高,而这些文献中通信数据的涵义等同于本文的通信内容数据,故本研究结论也支撑已有的研究结果。
统计分析数据位列第二(120.64)。这类数据大都是通信服务提供者基于其采集的个人通信内容数据及其衍生服务生成的记录与消费信息等,进行数据挖掘生成的用户个人标签。这类数据形成的核心目的是商业营销,反映通信数据主体的财产属性,属于隐私客体的一种,具有较高隐私性,但由于很少涉及个人人格属性,故其隐私性位列通信内容数据之后。
个人相关数据位列第三(107.83)。该类数据中只有身份鉴别数据的隐私性较高,其他三类均较低,导致隐私值整体不高。通过密码及其关联保护答案的网络身份鉴别信息可直接进入用户通信账号,访问用户通信内容,而通信内容的隐私性最高,但此类通过鉴别数据的访问属于间接访问,故隐私性低于对通信内容的直接访问。同样,越来越多场景使用个人生物鉴别信息直接登录用户通信账号,故其作用与密码相同,隐私性也较高。但其他三类数据现实中都有不同程度的公开或半公开化,意味着数据主体的人格伤害和财产损失的程度较低。
通信衍生数据位列第四(37.42)。该类数据中只有违规记录的隐私性较高,其他均较低。但该违规记录仅涉及不良的通信行为,黑名单和灰名单仅局限在通信领域,其泄露对信息主体的伤害不大。其他两类数据是用户使用通信服务的形式记录,与通信内容无关,隐私性较低。总体上,这类数据不涉及通信内容,故隐私性低于个人相关数据,位居第四具有合理性。
通信地址数据的隐私性最低(26.88)。直接地址中物理地址几乎都是公开的,虽然可能给数据主体带来困扰,但对人格和财产的损害很小;网络地址更是网络中个人被识别的直接标签,广而告之更有助于增加个人的价值。间接地址中的通信设备识别信息仅反映用户使用的通信工具,个人位置仅涉及个人使用通信服务的空间场所,与隐私关联的显著性较低。
计量结果与行业标准中数据分级大体一致,但在通信内容数据和身份鉴别数据上存在差异。在《基础电信企业数据分类分级方法》中,这两类数据的隐私级别分别为中间级别(2级)和最高级别(4级),但本文计量结果正好相反。行业标准中没有对分级依据要素进行定量计算,仅凭定性估测。本文认为,身份鉴别数据是访问通信内容的身份认证信息,属于间接访问,但通信内容是用户通信的实际内容,体现用户个人私密特质(财产和人格属性)的客观性和真实性,无需通过身份鉴定即可直接访问。现实中,网络通信服务提供者泄露用户个人信息时有发生的事实就是最好的例证。故本文的计量结果可能更科学。
累加包含的所有数据项隐私值可以求出通信数据条目的隐私值,故通信数据类型的隐私值与所含数据项的数量及其敏感程度相关。总体上,个人相关数据的数据项数量最多,但隐私值位列第三;通信衍生数据的数据项数量次之,但隐私值位列倒数第二;其他三类数据的数据项较少且差异不大,但通信内容数据、统计分析数据的数据项隐私值最大,通信地址的数据项隐私值最小。所以,累加产生的数据类型隐私值都会提高,但提高幅度不一。通信地址数据类型的隐私值增幅最小,其他四类数据的隐私值增幅较大。
(3)结果分析:基于文本类型维度
行业标准。主要目的是建立通信数据生命周期,进行通信数据分类分级,规范通信数据的操作,构建通信数据保护制度,确保通信数据安全。因此,关注重点在通信内容数据和统计分析数据。
法律法规。主要目的是构建通信数据及其隐私保护体系,规避数据隐私风险。因此,关注重点是与通信数据主体关联的隐私客体,包括用户的人格属性和财产属性,前者如黑名单、白名单和信用等级,后者如消费记录和通信账单。
学术论文。主要目的是探索通信服务新工具、新方式涉及的通信数据隐私问题,弥补法律的滞后性缺陷。关注重点在新通信方式产生的隐私问题,但同时在其他类型数据中隐私值稍高的数据项也有较多存在,故研究主题较为分散,说明讨论问题多,深度研究少。
泄露案例。多有报道,常以窃取用户私密财产为目的,故关注重点在以密码和生物特征为主要内容的鉴别数据上,通过该类数据可进入用户通信账户,窃取用户信息,进而掠财骗财。
累加单类文本包含的所有数据项隐私值可以求出该类文本的通信隐私值。一类文本的通信隐私值越高,表明在通信隐私及其保护方面的重要程度越大,包含的通信数据价值越高,对通信隐私度量的贡献越大。累加结果显示:行业标准的隐私性最强(110.46),法律法规(88.23)和泄露案例(84.76)次之,学术论文最低(63.27)。表明行业标准的切题性最强、专业性最高;相关法律法规较多,但通信数据专门法律有待补充完善;泄露案例虽广,但通信数据的针对性案例不多;通信数据学术论文的专业性较低,质量也有待提升。
_6
结语
_
本文沿着通信敏感数据“明确识别来源→构建识别模型→开展隐私计量”的逻辑开展研究,首先,依据隐私的基本内涵,扩展敏感性认知主体的类型,获得这些主体活动所产生的行业标准、法律法规、学术论文、泄露案例,以明确通信敏感数据的识别来源。其次,基于通信敏感数据单元,建立通信敏感名词表、敏感动词表和敏感程度词表,作为通信敏感数据识别模型。最后,分析通信数据隐私性的影响因素,建立敏感词汇的敏感性、语义强度和文本力度的度量指标,开展通信隐私计量。
本研究的不足之处主要体现在通信敏感词表和通信隐私文本库的质量。针对前者,目前缺失一部科学权威的通信数据敏感词表,本文建立的词表作为探索性研究可以满足需要,但若实际应用于个人通信数据分级的敏感性识别基础工具,其质量还需提升。隐私文本库方面,最理想的文本主题应该聚焦在通信数据及其隐私保护领域,但文本库中符合主题针对性的文本不多,探讨相关问题者居多,可能影响计量结果的准确度。随着通信技术进步和管理标准化,该领域隐私文本也将逐步规范,本研究将持续跟进。