文本脱敏方法与装置、设备及介质与流程

未命名 09-03 阅读:101 评论:0


1.本技术涉及人工智能技术领域,具体而言,涉及一种文本脱敏方法与装置、设备及介质。


背景技术:

2.病例报告表(case report form,crf)中临床试验受试者的个人信息是受到保护的,保护措施包括对个人信息进行脱敏。相关技术中,可以实现的是,例如,地址信息中市级后的字符整体被脱敏,无法进行有选择的脱敏,然而,在进行一些流行病学调查时,往往需要基于比市更具体的区级的医疗信息,由于市级后的字符整体被脱敏,区级的医疗信息都被隐藏,无法实现精准的脱敏。


技术实现要素:

3.第一方面,本发明的实施例提供了一种文本脱敏方法,包括:获取原始文本,所述原始文本包括受试者的医疗信息;将所述原始文本输入训练好的分层脱敏模型进行命名实体识别,得到所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签;基于所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签,根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本;其中,所述脱敏任务指定了目标实体和所述目标实体所属的类别和层级,所述目标实体为所述脱敏任务对应的所述原始文本中应当被隐藏内容,所述目标实体所属的类别和层级作为目标类别和目标层级。
4.根据本发明的实施例,所述方法还包括:构建分层脱敏模型;获取训练集,使用所述训练集对所述分层脱敏模型进行预训练,得到训练好的分层脱敏模型。
5.根据本发明的实施例,所述训练集中包括多个字序列;在所述使用所述训练集对所述分层脱敏模型进行预训练之前,所述方法还包括:针对每一字序列,对所述字序列进行乱序处理,得到乱序处理后的字序列;将所述乱序处理后的字序列与所述乱序处理前的字序列合并成一个扩充后的字序列;将所述扩充后的字序列补充到所述训练集中。
6.根据本发明的实施例,所述对所述字序列进行乱序处理,得到乱序处理后的字序列包括:获取预设比例;将所述字序列的字数中占所述预设比例的字改变排列顺序,得到乱序处理后的字序列。
7.根据本发明的实施例,所述预设比例为大于等于10%,且小于等于20%。
8.根据本发明的实施例,所述预设比例为大于等于10%,且小于等于15%。
9.根据本发明的实施例,所述预设比例为15%。
10.根据本发明的实施例,所述使用所述训练集对所述分层脱敏模型进行预训练,所述分层脱敏模型包括lert层、嵌入层、bilstm神经网络和crf层,包括:将所述训练集中的所述字序列输入所述lert层,得到所述字序列中每个字的字向量;将所述字向量输入所述嵌入层,进行对抗训练,得到更新的字向量;将所述更新的字向量输入到预设的bilstm神经网络中,得到所述字序列的特征向量;将所述字序列的特征向量输入所述crf层,确定命名实
体的类型,对所述字序列的类别标签进行约束,得到命名实体和对应的类别标签。
11.根据本发明的实施例,所述将所述字向量输入嵌入层,进行对抗训练,得到更新的字向量,包括:将所述字向量输入所述嵌入层,基于所述字向量生成扰动向量;将每个所述字向量与对应的扰动向量相加,得到更新的字向量。
12.根据本发明的实施例,根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本,包括:根据预设的脱敏任务,确定所述目标类别和所述目标层级;在识别得到的所述原始文本的命名实体对应的类别标签中,匹配所述目标类别和所述目标层级,定位所述目标实体;将所述目标实体隐藏,得到脱敏后的文本。
13.根据本发明的实施例,所述将所述目标实体隐藏,得到脱敏后的文本包括:通过正则匹配将所述目标实体隐藏,得到脱敏后的文本;其中,通过正则匹配实现至少如下隐藏方式之一:去标识化、泛化编码、随机替代、屏蔽抑制,从而隐藏所述目标实体。
14.根据本发明的实施例,在根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本之后,所述方法还包括:展示所述脱敏后的文本。
15.根据本发明的实施例,所述方法还包括:对所述脱敏后的文本中未被隐藏的实体进行数据分析。
16.第二方面,本发明的实施例提供了一种文本脱敏装置,包括获取模块,用于获取原始文本,所述原始文本包括受试者的医疗信息;识别模块,用于将所述原始文本输入训练好的分层脱敏模型进行命名实体识别,得到所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签;处理模块,用于基于所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签,根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本;其中,所述脱敏任务指定了目标实体和所述目标实体所属的类别和层级,所述目标实体为所述脱敏任务对应的所述原始文本中应当被隐藏内容,所述目标实体所属的类别和层级作为目标类别和目标层级。
17.根据本发明的实施例,所述文本脱敏装置,还包括:构建模块,用于构建分层脱敏模型;预训练模块,用于获取训练集,使用所述训练集对所述分层脱敏模型进行预训练,得到训练好的分层脱敏模型。
18.第三方面,本发明的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上所述的方法。
19.第四方面,本发明的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。
20.基于上述方案,本技术实施例提供的文本脱敏方法中,对包括电子病例中记录的受试者的医疗信息的原始文本,通过已经训练好的分层脱敏模型进行命名实体识别,抽取命名实体,根据预设脱敏任务目标实体所属的类别和层级,实现有选择的脱敏,分层脱敏,精准地按照目标实体所属的类别和层级进行脱敏,隐藏目标实体,从而解决了相关技术中无法进行精准脱敏的技术问题,并取得极好的脱敏效果,为实际应用场景中医疗信息的精准脱敏的实现提供了效果极佳的解决方案,极大地有利于实际应用。
附图说明
21.本技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
22.图1示意性示出了根据本发明一实施例的文本脱敏方法的流程图;
23.图2示意性示出了根据本发明一实施例的文本脱敏方法的子操作的流程图;
24.图3示意性示出了根据本发明一实施例的文本脱敏方法的子操作的流程图;
25.图4示意性示出了根据本发明又一实施例的文本脱敏方法的流程图;
26.图5示意性示出了根据本发明另一实施例的文本脱敏方法的流程图;
27.图6示意性示出了根据本发明实施例的文本脱敏方法的一个实例;
28.图7示意性示出了本发明一实施例提供的文本脱敏装置的结构框图;
29.图8示意性示出了本发明另一实施例提供的文本脱敏装置的结构框图;以及
30.图9示意性示出了本发明实施例提供的电子设备的结构框图。
具体实施方式
31.为了能够更清楚地理解本技术的上述目的、特征和优点,下面结合附图和具体实施方式对本技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
32.在下面的描述中阐述了很多具体细节以便于充分理解本技术,但是,本技术还可以采用其他不同于在此描述的其他方式来实施,因此,本技术的保护范围并不受下面公开的具体实施例的限制。
33.下面参照图1至图9描述本技术一些实施例的文本脱敏方法与文本脱敏装置、电子设备以及可读存储介质。
34.图1示意性示出了根据本发明一实施例的文本脱敏方法的流程图;如图1所示,本技术第一方面的实施例提供了一种文本脱敏方法包括以下操作s102~s106:
35.s102:获取原始文本,所述原始文本包括受试者的医疗信息;
36.s104:将所述原始文本输入训练好的分层脱敏模型进行命名实体识别,得到所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签;
37.s106:根据预设脱敏任务,对所述实体进行脱敏处理,得到脱敏后的文本;其中,所述脱敏任务包括应当被脱敏的目标实体所属的类别和层级,所述脱敏后的文本中所述目标实体是被隐藏的,所述目标实体所属的类别和层级分别为目标类别和目标层级。
38.具体的,根据国家的相关规定,受试者的个人隐私需要被保护,因此,在临床试验的应用场景下,病例报告表(case report form,crf)中临床试验受试者的个人信息是受到保护的,保护措施包括对个人信息进行脱敏。
39.在根据本发明一实施例的文本脱敏方法中,s102中,原始文本可以是脱敏处理的对象,原始文本可以包括电子病例中记录的受试者的医疗信息,具体的,获取的原始文本可以是中文电子病历文本,电子病例中记录的受试者的医疗信息等,例如,受试者的姓名、诊疗信息、住址等。
40.在s104中,将上述原始文本输入分层脱敏模型,通过命名实体识别,得到原始文本的实体和实体对应的类别标签,该分层脱敏模型用于对实体按不同层级进行脱敏,即,用于
实现精准脱敏。
41.图6示意性示出了根据本发明实施例的文本脱敏方法的一个实例。
42.例如,在图6所示的实施例中,“李海海的户籍是上海市杨浦区”为原始文本,分层脱敏模型可以为bert-bilstm-crf命名实体识别模型,通过步骤1将原始文本输入该模型进行命名实体识别,随后在步骤2中得到实体和实体对应的标签,即,实体类别标签,例如,[

name’,

李海海’],[

location’,

上海市杨浦区’]。
[0043]
在s106中,基于所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签,根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本;其中,所述脱敏任务指定了目标实体和所述目标实体所属的类别和层级,所述目标实体为所述脱敏任务对应的所述原始文本中应当被隐藏内容,所述目标实体所属的类别和层级作为目标类别和目标层级。
[0044]
具体的,设定的脱敏任务中,给定需要被脱敏的实体,作为目标实体,该目标实体是具备所属类别和所属层级的,即目标类别和目标层级,可以理解为,脱敏任务指定的目标实体表示使用该文本脱敏方法后,应当被脱敏,即,被隐藏的内容,而目标类别和目标层级表示应当被脱敏的文本从语义上所属的类别和层级。进一步的,脱敏任务可以包括多个目标实体,即,一个脱敏任务可以包括对多个目标实体进行脱敏。不同的目标实体可以属于不同的类别和层级。
[0045]
例如,在图6所示的实施例中,如图所示步骤3中,预设脱敏任务可以为图中所示的默认脱敏项目,目标实体可以为姓名中第二个字,因此,在通过该分层脱敏模型识别后,得到的所述原始文本的实体对应的标签中,根据该脱敏任务包含的目标类别和目标层级,目标类别为name,通过正则匹配检索实体,定位到标签“name”,从而定位该标签对应的目标实体“李海海”,再基于目标层级隐藏第二个字,得到脱敏后的文本“李*海”。
[0046]
例如,在图6所示的实施例中,如图所示步骤3中,预设脱敏任务还可以为图中所示的个性化脱敏项目,目标类别可以为地址类别,目标层级可以为区这一层级,因此,在通过该分层脱敏模型识别后,得到的所述原始文本的实体对应的标签中,根据该脱敏任务包含的目标类别和目标层级,目标类别为location,通过正则匹配检索实体,定位到标签“location”,从而定位该标签对应的目标实体“上海市杨浦区”,再基于目标层级隐藏区这一级别实体,得到脱敏后的文本“上海市***”。
[0047]
如图6所示,随后在步骤4中,输出为“李*海的户籍是上海市***”。
[0048]
基于上述操作,本技术实施例提供的文本脱敏方法中,对包括电子病例中记录的受试者的医疗信息的原始文本,通过已经训练好的分层脱敏模型进行命名实体识别,抽取命名实体,根据预设脱敏任务目标实体所属的类别和层级,实现有选择的脱敏,分层脱敏,精准地按照目标实体所属的类别和层级进行脱敏,隐藏目标实体,从而解决了相关技术中无法进行精准脱敏的技术问题,并取得极好的脱敏效果,为实际应用场景中医疗信息的精准脱敏的实现提供了效果极佳的解决方案,极大地有利于实际应用。
[0049]
进一步地,在较为复杂的地址信息分层脱敏的场景下,例如,对于不被大众所熟知的地区、县、旗、村、镇、乡等层级的地址信息,上述方案能够产生极佳的技术效果,例如,“内蒙古自治区乌兰察布市察哈尔右翼中旗巴音塔拉镇”这类地址,地址信息较为生僻,对于现有技术,若要实现精准脱敏需人工手动标记、识别、脱敏,而本技术的技术方案中,使用数据
量充足、准确的数据集得到的训练好的分层脱敏模型,则可以快速准确地完成识别,且识别得到的不同层级的信息是规范化,不会出现误识别,进而实现高效、精准地识别。
[0050]
在一种可能的实施方式中,根据本发明一实施例的文本脱敏方法还包括,构建分层脱敏模型;获取训练集,使用所述训练集对所述分层脱敏模型进行预训练,得到训练好的分层脱敏模型。
[0051]
具体的,训练好的所述分层脱敏模型可以用于对原始文本进行命名实体识别。构建的分层脱敏模型可以是如上所述的bert-bilstm-crf-ner模型,还可以是如图5所示的深度学习ner模型,图5示意性示出了根据本发明另一实施例的文本脱敏方法的流程图。
[0052]
在使用已训练的分层脱敏模型对原始文本进行命名实体识别之前,可以使用训练集对分层脱敏模型进行预训练,训练集中包括多个字序列。例如,在临床试验受试者的医疗信息分层脱敏的应用场景下,训练集可以是omaha七巧板医学术语集。
[0053]
图2示意性示出了根据本发明一实施例的文本脱敏方法的子操作的流程图。
[0054]
如图2所示,在一种可能的实施方式中,在所述使用所述训练集对所述分层脱敏模型进行预训练之前,根据本发明一实施例的文本脱敏方法还包括s202-s206。
[0055]
在s202中,针对每一字序列,对所述字序列进行乱序处理,得到乱序处理后的字序列。
[0056]
在s204中,将所述乱序处理后的字序列与所述乱序处理前的字序列合并成一个扩充后的字序列。
[0057]
具体的,结合图4所示的实施例,图4示意性示出了根据本发明又一实施例的文本脱敏方法的流程图,例如,字序列可以是“李海住在上海杨浦区”,经过乱序处理,得到“海李住在上海浦杨区”,乱序处理后的字序列与乱序处理前的字序列合并成一个扩充后的字序列,即,“李海住在上海杨浦区海李住在上海浦杨区”。
[0058]
在s206中,将所述扩充后的字序列补充到所述训练集中。
[0059]
具体的,扩充后的字序列包含在训练集中,然后,使用训练集对分层脱敏模型进行预训练。
[0060]
结合图4所示的实施例,预训练可以采用lert模型,基于上述操作,在预训练之前,通过对字序列进行乱序处理,实现了数据增强,从而有效避免由于电子病历训练集文本不充足、样本量不够大而影响训练效果以及模型的识别能力,该乱序数据增强的处理步骤,一方面可以进行样本扩增,另一方面一定程度的乱序文本不影响理解。
[0061]
在一种可能的实施方式中,对所述字序列进行乱序处理,得到乱序处理后的字序列还可以实施为包括:获取预设比例;将所述字序列的字数中占所述预设比例的字改变排列顺序,得到乱序处理后的字序列。例如,以10%为乱序比例,进行乱序处理,其表示将包含n个字的某一个样本字序列,其中n*10%个字进行乱序处理。
[0062]
在图4所示的实施例中,乱序处理后的字序列与乱序处理前的字序列合并成一个扩充后的字序列,即,“李海住在上海杨浦区海李住在上海浦杨区”,该字序列作为lert预训练模型的输入。lert使用一种简单但有效的方法来学习预训练语言模型的语言特征。根据三种类型的语言特征dep(实体之间关系)、ner(命名实体标签)、pos(词性,例如动词名词)以及原始mlm预训练任务进行训练,输入步骤中乱序增强的句子,输出为句子中每个字的字向量e。
[0063]
具体的,改变排列顺序是指对于原始输入文本进行一定的词序调换,从而形成乱序文本。本发明人在实施上述操作进行预训练时,分别进行了预设比例为如下数值的实验,50%,25%,10%至20%,通过实验对比,当预设比例为大于等于10%,且小于等于20%时,模型的识别效果很好,当预设比例为大于等于10%,且小于等于15%,也可以取得较好的效果,且不影响模型的识别。尤其是在预设比例为15%时,能够取得最佳的效果。因此,也可以理解为,当预设比例为大于等于10%,且小于等于15%时,能够取得较好的效果。
[0064]
具体的,可以通过设置一定的乱序比例,来实施乱序操作。
[0065]
可选的,预设比例为大于等于10%,且小于等于20%。
[0066]
可选的,预设比例为大于等于10%,且小于等于15%。
[0067]
图3示意性示出了根据本发明一实施例的文本脱敏方法的子操作的流程图。在一种可能的实施方式中,分层脱敏模型可以包括lert层、嵌入层、bilstm神经网络和crf层,使用所述训练集对所述分层脱敏模型进行预训练的操作具体可以实施为包括如下操作s301~s304:
[0068]
s301,将所述训练集中的所述字序列输入lert层,得到所述字序列中每个字的字向量;
[0069]
s302,将所述字向量输入嵌入层,进行对抗训练,得到更新的字向量;
[0070]
s303,将所述更新的字向量输入到预设的bilstm神经网络中,得到所述字序列的特征向量;
[0071]
s304,将所述字序列的特征向量输入crf层,确定命名实体的类型,对所述字序列的标签进行约束,得到命名实体和对应的类别标签。
[0072]
具体的,在s301中,基于前述操作得到的乱序处理后的字序列作为扩充的样本与原字序列合并成一个扩充后的字序列,作为训练样本输入lert层,即,预训练模块;例如,“李海住在上海杨浦区,海李住在上海浦杨区”[0073]
在s302中,将扩充后的字序列作为输入通过至lert,输出为字序列中每个字的字向量e。具体的,结合图4,根据三种类型的语言特征dep(实体之间关系)、ner(命名实体标签)、pos(词性,例如动词名词)以及原始mlm预训练任务进行训练,输入步骤一中乱序增强的句子,输出为句子中每个字的字向量e。
[0074]
在一种可能的实施方式中,s302还可以实施为包括:将所述字向量输入所述嵌入层,基于所述字向量生成扰动向量;将每个所述字向量与对应的扰动向量相加,得到更新的字向量。具体的,扰动向量可以是扰动噪声,在通过前述方案将分字后的增强文本经预训练语言模型lert转换为对应的字向量表示之后,每个字都被处理为字向量,将对抗训练的扰动噪声与字向量相加得到对抗样本。通常,在实际应用场景下,扰动噪声处理包括在一段文本上进行字符添加、删除、顺序修改等扰动方式,且扰动后的文本符合自然语言场景。
[0075]
结合图5所示,深度学习ner模型中,字序列经过步骤一处理后进入预训练模块,经过步骤二处理后,输入embedding层,步骤三表示embedding层中的处理步骤,步骤四表示bilstm模块中的处理步骤,步骤五表示crf模块中的处理步骤,其中,字向量输入embedding层(嵌入层),e为输入离散的字转换为连续的字向量表示,如图中e
c1
、e
c2
、e
c3
...e
ct
。n为字向量层的扰动噪声,如图中n1、n2、n3...n
t
。输出为每个字的对抗向量c',如图中c'1、c'2、c'3...c'
t
,然后,对抗向量经过前向lstm处理、后向lstm处理以及合并层,h1、h2、h3...hn表示
特征向量。
[0076]
在s303中,将s302得到的对抗样本送到bilstm神经网络中。经前向传播和反向传播获取序列的特征h'。
[0077]
在s304中,将得到的特征输入crf层,得到样本序列的命名实体,和实体对应的标签。通过crf层学习序列标签的约束信息,最后得到正确的序列标签。具体的,crf层实现的是在最终结果上做了一定的约束,保证了输出标签之间的关系,在神经网络中crf层的发射矩阵来自之前的模型的预测的序列各个单词的种类的概率值,而crf的转移矩阵通过梯度下降来学习,如果学得不够好也会出现转移矩阵不合理的情况。crf限制序列标签之间的关系是一种显示的知识镶嵌。
[0078]
例如,结合图5所示,向深度学习ner模型中输入“张三自述于2013年居于杭州市余杭区”,即可输出对应标签:“person_name-张三”、“time-2013年”、“location-杭州市余杭区”,即,得到实体以及对应标签,实体以及对应标签可以用于例如电子病历脱敏等任务。示例性的,图中c1、c2、c3、...c
t
表示字序列,
[0079]
本技术的另一实施例中,将所述目标实体隐藏,得到脱敏后的文本可以包括:通过正则匹配对所述目标实体隐藏,得到脱敏后的文本;其中,通过正则匹配实现至少如下隐藏方式之一:去标识化、泛化编码、随机替代、屏蔽抑制,从而隐藏所述目标实体。
[0080]
本技术的又一实施例中,在根据预设脱敏任务,对所述实体进行脱敏处理,得到脱敏后的文本之后,根据本发明实施例的文本脱敏方法还可以包括:基于对所述脱敏后的文本,展示所述脱敏后的文本中未被隐藏的实体。
[0081]
具体的,结合图6所示的实施例,文本“李海海的户籍是上海市杨浦区”通过分层脱敏模型的处理后,隐藏了目标实体,展示的为未被隐藏的实体,即,“李*海的户籍是上海市***”。
[0082]
可选的,根据本技术实施例的文本脱敏方法还可以包括:对所述脱敏后的文本中未被隐藏的实体进行数据分析。具体的,在实际应用场景下,例如,对于临床试验的受试者的电子病例中的诊疗信息,为满足业务需要,通常会对受试者的各方面信息、数据进行分析,通过本技术实施例的文本脱敏方法得到的分层脱敏后的文本,可以满足个性化的数据统计需求,使得精准数据的获取成为可能,而现有技术中业务不希望被隐藏的仍有统计价值的层级的信息可能全部被脱敏。例如,对于一电子病例中的地址信息“某市某区某街道”,通过个性化的脱敏任务设置,可以将地址中街道层级的信息脱敏,精准脱敏至街道这一层级,从而保留了区这一层级的信息,可以进一步用于业务上对不同区的受试者信息进行有效统计和数据分析。
[0083]
本发明的一个示例性实施例提供了一种文本脱敏装置。
[0084]
图7示意性示出了本发明一实施例提供的文本脱敏装置的结构框图。
[0085]
参照图7所示,本发明实施例提供的文本脱敏装置10,包括获取模块110,识别模块120,处理模块130:
[0086]
获取模块110,用于获取原始文本,所述原始文本包括受试者的医疗信息;
[0087]
识别模块120,用于将所述原始文本输入训练好的分层脱敏模型进行命名实体识别,得到所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签;
[0088]
处理模块130,用于基于所述原始文本中的各个命名实体,以及所述命名实体对应
的类别标签,根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本;其中,所述脱敏任务指定了目标实体和所述目标实体所属的类别和层级,所述目标实体为所述脱敏任务对应的所述原始文本中应当被隐藏内容,所述目标实体所属的类别和层级作为目标类别和目标层级。
[0089]
示例性的,原始文本可以是脱敏处理的对象,原始文本可以包括电子病例中记录的受试者的医疗信息,具体的,获取的原始文本可以是中文电子病历文本,电子病例中记录的受试者的医疗信息等,例如,受试者的姓名、诊疗信息、住址等。
[0090]
具体的,设定的脱敏任务中,给定需要被脱敏的实体,作为目标实体,该目标实体是具备所属类别和所属层级的,即目标类别和目标层级,可以理解为,脱敏任务指定的目标实体表示使用该文本脱敏方法后,应当被脱敏,即,被隐藏的内容,而目标类别和目标层级表示应当被脱敏的文本从语义上所属的类别和层级。进一步的,脱敏任务可以包括多个目标实体,即,一个脱敏任务可以包括对多个目标实体进行脱敏。不同的目标实体可以属于不同的类别和层级。
[0091]
本技术实施例提供的文本脱敏装置,对包括电子病例中记录的受试者的医疗信息的原始文本,识别模块通过已经训练好的分层脱敏模型进行命名实体识别,抽取命名实体,处理模块根据预设脱敏任务目标实体所属的类别和层级,实现有选择的脱敏,分层脱敏,精准地按照目标实体所属的类别和层级进行脱敏,隐藏目标实体,从而解决了相关技术中无法进行精准脱敏的技术问题,并取得极好的脱敏效果,为实际应用场景中医疗信息的精准脱敏的实现提供了效果极佳的解决方案,极大地有利于实际应用。
[0092]
进一步地,在较为复杂的地址信息分层脱敏的场景下,例如,对于不被大众所熟知的地区、县、旗、村、镇、乡等层级的地址信息,上述文本脱敏装置实现能够产生极佳的技术效果,例如,“内蒙古自治区乌兰察布市察哈尔右翼中旗巴音塔拉镇”这类地址,地址信息较为生僻,对于现有技术,若要实现精准脱敏需人工手动标记、识别、脱敏,而本技术的技术方案中,使用数据量充足、准确的数据集得到的训练好的分层脱敏模型,则可以快速准确地完成识别,且识别得到的不同层级的信息是规范化,不会出现误识别,进而实现高效、精准地识别。
[0093]
在一种可能的实现方式中,本发明实施例提供的文本脱敏装置10,还可以包括获取模块110、识别模块120、处理模块130、构建模块140和预训练模块150。其中,获取模块110、识别模块120、处理模块130如以上所述,在此不再重复叙述。
[0094]
构建模块140用于构建分层脱敏模型;
[0095]
预训练模块150用于获取训练集,使用所述训练集对所述分层脱敏模型进行预训练,得到训练好的分层脱敏模型。
[0096]
可选的,在预训练模块使用所述训练集对所述分层脱敏模型进行预训练之前,文本脱敏装置还可以包括乱序处理模块,用于执行如下操作:对所述字序列进行乱序处理,得到乱序处理后的字序列;将所述乱序处理后的字序列与所述乱序处理前的字序列合并成一个扩充后的字序列;将所述扩充后的字序列补充到所述训练集中。其中,对所述字序列进行乱序处理,得到乱序处理后的字序列包括:获取预设比例;将所述字序列的字数中占所述预设比例的字改变排列顺序,得到乱序处理后的字序列。
[0097]
可选的,所述预设比例为大于等于10%,且小于等于20%。
[0098]
可选的,所述预设比例为大于等于10%,且小于等于15%。
[0099]
可选的,所述预设比例为15%。
[0100]
可选的,在预训练模块中,使用所述训练集对分层脱敏模型进行预训练,分层脱敏模型可以包括lert层、嵌入层、bilstm神经网络和crf层,预训练模块150还可以包括如下子模块:
[0101]
第一子模块,用于将所述训练集中的所述字序列输入lert层,得到所述字序列中每个字的字向量;
[0102]
第二子模块,用于将所述字向量输入嵌入层,进行对抗训练,得到更新的字向量;
[0103]
第三子模块,用于将所述更新的字向量输入到预设的bilstm神经网络中,得到所述字序列的特征向量;
[0104]
第四子模块,用于将所述字序列的特征向量输入所述crf层,确定命名实体的类型,对所述字序列的类别标签进行约束,得到命名实体和对应的类别标签。
[0105]
本发明的一个示例性实施例提供了一种电子设备。
[0106]
图9示意性示出了本发明实施例提供的电子设备的结构框图。
[0107]
参照图9所示,本发明实施例提供的电子设备1200包括处理器1201、通信接口1202、存储器1203和通信总线1204,其中,处理器1201、通信接口1202和存储器1203通过通信总线1204完成相互间的通信;存储器1203,用于存放计算机程序;处理器1201,用于执行存储器上所存放的程序时,实现如上所述的文本脱敏方法。
[0108]
本发明的又一个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的文本脱敏方法。
[0109]
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的文本脱敏方法。
[0110]
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0111]
本技术的描述中,需要理解的是,术语“上”、“下”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或模块必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本技术的限制。
[0112]
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0113]
以上仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种文本脱敏方法,其特征在于,包括:获取原始文本,所述原始文本包括受试者的医疗信息;将所述原始文本输入训练好的分层脱敏模型进行命名实体识别,得到所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签;基于所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签,根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本;其中,所述脱敏任务指定了目标实体和所述目标实体所属的类别和层级,所述目标实体为所述脱敏任务对应的所述原始文本中应当被隐藏内容,所述目标实体所属的类别和层级作为目标类别和目标层级。2.根据权利要求1所述的文本脱敏方法,其特征在于,还包括:构建分层脱敏模型;获取训练集,使用所述训练集对所述分层脱敏模型进行预训练,得到训练好的分层脱敏模型。3.根据权利要求2所述的文本脱敏方法,其特征在于,所述训练集中包括多个字序列;在所述使用所述训练集对所述分层脱敏模型进行预训练之前,所述方法还包括:针对每一字序列,对所述字序列进行乱序处理,得到乱序处理后的字序列;将所述乱序处理后的字序列与所述乱序处理前的字序列合并成一个扩充后的字序列;将所述扩充后的字序列补充到所述训练集中。4.根据权利要求3所述的文本脱敏方法,其特征在于,所述对所述字序列进行乱序处理,得到乱序处理后的字序列包括:获取预设比例;将所述字序列的字数中占所述预设比例的字改变排列顺序,得到乱序处理后的字序列。5.根据权利要求4所述的文本脱敏方法,其特征在于,所述预设比例为大于等于10%,且小于等于20%。6.根据权利要求4所述的文本脱敏方法,其特征在于,所述预设比例为15%。7.根据权利要求3所述的文本脱敏方法,其特征在于,所述使用所述训练集对所述分层脱敏模型进行预训练,所述分层脱敏模型包括lert层、嵌入层、bilstm神经网络和crf层,包括:将所述训练集中的所述字序列输入所述lert层,得到所述字序列中每个字的字向量;将所述字向量输入所述嵌入层,进行对抗训练,得到更新的字向量;将所述更新的字向量输入到预设的bilstm神经网络中,得到所述字序列的特征向量;将所述字序列的特征向量输入所述crf层,确定命名实体的类型,对所述字序列的类别标签进行约束,得到命名实体和对应的类别标签。8.根据权利要求7所述的文本脱敏方法,其特征在于,所述将所述字向量输入所述嵌入层,进行对抗训练,得到更新的字向量,包括:将所述字向量输入所述嵌入层,基于所述字向量生成扰动向量;将每个所述字向量与对应的扰动向量相加,得到更新的字向量。9.根据权利要求1所述的文本脱敏方法,其特征在于,根据预设的脱敏任务,对各个所
述命名实体进行脱敏处理,得到脱敏后的文本,包括:根据预设的脱敏任务,确定所述目标类别和所述目标层级;在识别得到的所述原始文本的命名实体对应的类别标签中,匹配所述目标类别和所述目标层级,定位所述目标实体;将所述目标实体隐藏,得到脱敏后的文本。10.根据权利要求9所述的文本脱敏方法,其特征在于,所述将所述目标实体隐藏,得到脱敏后的文本包括:通过正则匹配将所述目标实体隐藏,得到脱敏后的文本;其中,通过正则匹配实现至少如下隐藏方式之一:去标识化、泛化编码、随机替代、屏蔽抑制,从而隐藏所述目标实体。11.根据权利要求1至9中任一项所述的文本脱敏方法,其特征在于,在根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本之后,所述方法还包括:展示所述脱敏后的文本。12.根据权利要求1至9中任一项所述的文本脱敏方法,其特征在于,所述方法还包括:对所述脱敏后的文本中未被隐藏的实体进行数据分析。13.一种文本脱敏装置,其特征在于,包括:获取模块,用于获取原始文本,所述原始文本包括受试者的医疗信息;识别模块,用于将所述原始文本输入训练好的分层脱敏模型进行命名实体识别,得到所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签;处理模块,用于基于所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签,根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本;其中,所述脱敏任务指定了目标实体和所述目标实体所属的类别和层级,所述目标实体为所述脱敏任务对应的所述原始文本中应当被隐藏内容,所述目标实体所属的类别和层级作为目标类别和目标层级。14.根据权利要求13所述的文本脱敏装置,其特征在于,还包括:构建模块,用于构建分层脱敏模型;预训练模块,用于获取训练集,使用所述训练集对所述分层脱敏模型进行预训练,得到训练好的分层脱敏模型。15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1至12中任一项所述的方法。16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法。

技术总结
本申请提供了一种文本脱敏方法,涉及人工智能技术领域,该方法包括获取原始文本,所述原始文本包括受试者的医疗信息;将所述原始文本输入训练好的分层脱敏模型进行命名实体识别,得到所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签;基于所述原始文本中的各个命名实体,以及所述命名实体对应的类别标签,根据预设的脱敏任务,对各个所述命名实体进行脱敏处理,得到脱敏后的文本;其中,所述脱敏任务指定了目标实体和所述目标实体所属的类别和层级,所述目标实体为所述脱敏任务对应的所述原始文本中应当被隐藏内容,所述目标实体所属的类别和层级作为目标类别和目标层级。标层级。标层级。


技术研发人员:王铮 王理 郝亚杰 陈宇 操詹魁
受保护的技术使用者:杭州璞睿生命科技有限公司
技术研发日:2023.05.31
技术公布日:2023/8/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐