敏感数据识别方法、装置、电子设备及可读存储介质与流程

未命名 09-29 阅读:80 评论:0


1.本技术涉及数据处理技术领域,尤其涉及一种敏感数据识别方法、装置、电子设备及可读存储介质。


背景技术:

2.在互联网企业的数据资产管理中,随着业务的发展和用户活跃度的提升,大量有价值的业务数据会沉淀在数据库表或文本中。这些业务数据中往往包含很多敏感数据,为了防止敏感数据泄露,应用中,企业会在业务数据中识别敏感数据并进行标记,以方便对这些敏感数据进行管理和维护,从而避免敏感数据泄露,保证数据安全。目前,对于敏感数据的识别和定位,一般是基于关键词匹配、规则匹配、字典匹配等技术手段。
3.然而,利用目前这些技术手段对敏感数据进行识别,存在准确率低的问题。


技术实现要素:

4.为了解决上述技术问题,本技术提供了一种敏感数据识别方法、装置、电子设备及可读存储介质。
5.第一方面,本技术实施例提供一种敏感数据识别方法,包括:
6.获取待识别数据;
7.利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型;
8.针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型;
9.利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型;
10.基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。
11.在一个可能的实施方式中,所述基于所述候选字段对应的初步识别类型确定类型识别模型,包括:
12.基于所述初步识别类型,确定所述候选字段对应的数据安全度和数据分类标签;
13.在预设识别模型库中,查找与所述数据安全度和所述数据分类标签对应的识别模型,作为所述类型识别模型。
14.在一个可能的实施方式中,所述类型识别模型的数量有至少两个,所述利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型,包括:
15.确定每个所述类型识别模型对应的权重值;
16.分别利用每个所述类型识别模型对所述候选字段进行识别处理,得到至少一个参考识别类型;
17.基于每个所述类型识别模型对应的权重值,在至少一个所述参考识别类型中确定所述目标识别类型。
18.在一个可能的实施方式中,所述基于每个所述类型识别模型对应的权重值,在至少一个所述参考识别类型中确定所述目标识别类型,包括:
19.从所有所述权重值中确定对应数值最大的第一权重值,并在除所述第一权重值以外的其他权重值中确定对应数值最大的第二权重值;
20.确定所述第一权重值和所述第二权重值之间的差值;
21.在所述差值大于或等于预设阈值的情况下,将对应所述第一权重值的类型识别模型识别出的参考识别类型确定为所述目标识别类型。
22.在一个可能的实施方式中,所述方法还包括:
23.在所述差值小于预设阈值的情况下,针对每个参考识别类型,确定识别结果为所述参考识别类型的每个类型识别模型的权重值;
24.对所有所述权重值进行求和运算,得到所述参考识别类型对应的类型分数;
25.将对应类型分数最高的参考识别类型确定为所述目标识别类型。
26.在一个可能的实施方式中,所述确定每个所述类型识别模型对应的权重值,包括:
27.针对每个类型识别模型,确定所述类型识别模型对应的置信度,将所述置信度作为所述类型识别模型对应的权重值。
28.在一个可能的实施方式中,所述基于所述目标识别类型确定所述候选字段对应的目标敏感级别,包括:
29.按照预设的识别类型与敏感级别的对应关系,确定所述目标识别类型对应的敏感级别,为所述候选字段对应的目标敏感级别。
30.第二方面,本技术实施例提供一种敏感数据识别装置,包括:
31.数据获取模块,用于获取待识别数据;
32.第一识别模块,用于利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型;
33.模型确定模块,用于针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型;
34.第二识别模块,用于利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型;
35.字段确定模块,用于基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。
36.在一个可能的实施方式中,所述模型确定模块,用于:
37.基于所述初步识别类型,确定所述候选字段对应的数据安全度和数据分类标签;
38.在预设识别模型库中,查找与所述数据安全度和所述数据分类标签对应的识别模型,作为所述类型识别模型。
39.在一个可能的实施方式中,所述类型识别模型的数量有至少两个,所述第二识别模块,用于:
40.确定每个所述类型识别模型对应的权重值;
41.分别利用每个所述类型识别模型对所述候选字段进行识别处理,得到至少一个参考识别类型;
42.基于每个所述类型识别模型对应的权重值,在至少一个所述参考识别类型中确定
所述目标识别类型。
43.在一个可能的实施方式中,所述第二识别模块,还用于:
44.从所有所述权重值中确定对应数值最大的第一权重值,并在除所述第一权重值以外的其他权重值中确定对应数值最大的第二权重值;
45.确定所述第一权重值和所述第二权重值之间的差值;
46.在所述差值大于或等于预设阈值的情况下,将对应所述第一权重值的类型识别模型识别出的参考识别类型确定为所述目标识别类型。
47.在一个可能的实施方式中,所述第二识别模块,还用于:
48.在所述差值小于预设阈值的情况下,针对每个参考识别类型,确定识别结果为所述参考识别类型的每个类型识别模型的权重值;
49.对所有所述权重值进行求和运算,得到所述参考识别类型对应的类型分数;
50.将对应类型分数最高的参考识别类型确定为所述目标识别类型。
51.在一个可能的实施方式中,所述第二识别模块,还用于:
52.针对每个类型识别模型,确定所述类型识别模型对应的置信度,将所述置信度作为所述类型识别模型对应的权重值。
53.在一个可能的实施方式中,所述字段确定模块,用于:
54.按照预设的识别类型与敏感级别的对应关系,确定所述目标识别类型对应的敏感级别,为所述候选字段对应的目标敏感级别。
55.第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
56.存储器,用于存放计算机程序;
57.处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
58.第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
59.第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的敏感数据识别方法。
60.本技术实施例有益效果:
61.本技术实施例提供了一种敏感数据识别方法、装置、电子设备及可读存储介质,本技术实施例中,首先,获取待识别数据,并利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型,然后,针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型,并利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型,最后,基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。通过本方案,在利用预设规则引擎对待识别数据中的字段进行初步识别的基础上,利用识别模型对其进行进一步识别处理,得到待识别数据中的敏感字段,从而提高对敏感字段的识别准确率。
62.当然,实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
63.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
64.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
65.图1为本技术实施例提供的一种敏感数据识别方法的流程图;
66.图2为本技术实施例提供的另一种敏感数据识别方法的流程图;
67.图3为本技术实施例提供的一种敏感数据识别装置的结构示意图;
68.图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
69.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
70.下面结合附图以具体实施例对本技术提供的敏感数据识别方法做出解释说明,实施例并不构成对本技术实施例的限定。
71.参见图1,为本技术实施例提供的一种敏感数据识别方法的实施例流程图。如图1所示,该流程可包括以下步骤:
72.s101,获取待识别数据。
73.待识别数据,指包含至少一个字段的业务数据,如用户数据,包含姓名字段、性别字段、年龄字段、职业字段、电话字段、身份证号码字段等。
74.在一实施例中,可以将业务数据库中的每条数据作为一条待识别数据。
75.在另一实施例中,可以接收用户上传的业务数据作为待识别数据。
76.应用中,可以通过api(application programming interface,应用程序编程接口)获取待识别数据,也可以通过kafka(消息发布和订阅系统)获取待识别数据。
77.s102,利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型。
78.预设规则引擎中预定义了规则集,这些规则集可以是基于关键词、正则表达式或其他规则逻辑来定义的。
79.基于此,本技术实施例中,在获取待识别数据后,可以通过预设规则引擎中预定义的规则集,对待识别数据的文本进行规则匹配和判定,初步确定文本中包含的字段(即,候选字段)及每个字段对应的字段类型(即,初步识别类型,例如,个人基本信息、财产信息、教育信息、工作信息、设备信息,等等)。
80.s103,针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型。
81.本技术实施例中,预先设置了安全度识别库、tag库(自定义标签库)及识别模型库。其中,安全度识别库,用于结合境内,境外,公网、专网、安全协议、安全治理等级等信息,
根据字段的类型对其安全度进行量化。tag库中依据国际标准、行业标准、企业内标准等预置多套信息分类分级标签定义,用于对字段进行分类。
82.识别模型库中包含多个用于进一步识别字段的类型的识别模型,例如,llm(large language model,大型语言模型)。其中,不同识别模型的安全等级不同,擅长识别的字段不同。预先根据识别模型的安全等级设置每个识别模型与安全度的对应关系,以及,根据擅长识别的字段设置每个识别模型与tag库中标签的对应关系。
83.基于此,所述基于所述候选字段对应的初步识别类型确定类型识别模型的具体实现可包括:基于所述初步识别类型,确定所述候选字段对应的数据安全度和数据分类标签,在预设识别模型库中,查找与所述数据安全度和所述数据分类标签对应的识别模型,作为所述类型识别模型。
84.如此,可以为每个候选字段匹配与其对应安全度相符,且,擅长处理该候选字段对应分类的识别模型,对该候选字段进行识别处理,从而提高处理过程中的安全性,以及,提高识别的准确性。
85.此外,在另一实施例中,还可以确定识别模型库中每个识别模型的置信度,在基于数据安全度和数据分类标签从识别模型库中确定对应的识别模型后,进一步,选择置信度高于预设置信度的识别模型,作为类型识别模型。从而,保证类型识别模型识别的准确性。
86.应用中,可以按照上述方案根据数据安全度、数据分类标签、每个识别模型的置信度,构造工程化prompt及设置system_set(系统设置)参数,组织quary(查询词),发送识别模型库的查询接口,调用相应识别模型。
87.s104,利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型。
88.本技术实施例中,针对每个候选字段,在确定其对应的类型识别模型后,可以利用该候选字段对应的数据分类标签对其进行规范化处理,使其符合类型识别模型的输入要求。
89.进而,利用该候选字段对应的类型识别模型对该候选字段进行进一步的识别处理,最终确定该候选字段对应的目标识别类型。
90.由于,识别模型具备更好的上下文识别能力和更好的语义理解能力,如此,可以更准确得识别出候选字段对应的目标识别类型。
91.应用中,一个候选字段的目标识别类型可以是与初步识别类型同层级的分类,也可以是相对于初步识别类型而言更细的分类。
92.s105,基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。
93.以下对s104和s105进行统一说明:
94.本技术实施例中,预先设置了不同识别类型与不同敏感级别的对应关系,例如,识别类型为“性别”,对应的敏感级别为一级(较低),识别类型为“身份证号码”,对应的敏感级别为三级(较高)。
95.基于此,基于目标识别类型确定候选字段对应的目标敏感级别的具体实现可包括:按照预设的识别类型与敏感级别的对应关系,确定所述目标识别类型对应的敏感级别,为所述候选字段对应的目标敏感级别。如此,可以通过预设的对应关系,根据候选字段的目
标识别类型快速定位对应的目标敏感级别。
96.预设级别,可以由用户根据实际需求设置,用于区分敏感字段。
97.本技术实施例中,在确定目标敏感级别之后,即可将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。由此,实现对敏感字段的识别确定。
98.本技术实施例中,首先,获取待识别数据,并利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型,然后,针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型,并利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型,最后,基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。通过本方案,在利用预设规则引擎对待识别数据中的字段进行初步识别的基础上,利用识别模型对其进行进一步识别处理,得到待识别数据中的敏感字段,从而提高对敏感字段的识别准确率。
99.参见图2,为本技术实施例提供的另一种敏感数据识别方法的实施例流程图。该图2所示流程在上述图1所示流程的基础上,描述如何利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型。
100.如图2所示,该流程可包括以下步骤:
101.s201,确定每个所述类型识别模型对应的权重值。
102.s202,分别利用每个所述类型识别模型对所述候选字段进行识别处理,得到至少一个参考识别类型。
103.s203,基于每个所述类型识别模型对应的权重值,在至少一个所述参考识别类型中确定所述目标识别类型。
104.以下对s201-s203进行统一说明:
105.应用中,为了使模型具备一定的容错性和鲁棒性。对于每种数据安全度和数据分类标签可以设置至少两个对应的识别模型。如此,在s103中确定出的类型识别模型的数量有至少两个。
106.基于此,本技术实施例中,首先,确定每个类型识别模型对应的权重值,以及,分别利用每个类型识别模型对候选字段进行识别处理,得到至少一个参考识别类型,然后,基于每个类型识别模型对应的权重值,在至少一个参考识别类型中确定目标识别类型。
107.在一实施方式中,所述确定每个所述类型识别模型对应的权重值的实现可包括:针对每个类型识别模型,确定所述类型识别模型对应的置信度,将所述置信度作为所述类型识别模型对应的权重值。
108.其中,置信度可以根据模型的准确度或者f1分数确定,准确度或者f1分数越高,对应的置信度越高。
109.应用中,准确度=真正例数/(真正例数+假正例数+假负例数);f1分数=2*(精确度*召回率)/(精确度+召回率),而精确度=真正例数/(真正例数+假正例数),召回率=真正例数/(真正例数+假负例数)。
110.在另一实施方式中,所述基于每个所述类型识别模型对应的权重值,在至少一个所述参考识别类型中确定所述目标识别类型的实现可包括以下步骤:
111.步骤a1,从所有所述权重值中确定对应数值最大的第一权重值,并在除所述第一
权重值以外的其他权重值中确定对应数值最大的第二权重值。
112.步骤a2,确定所述第一权重值和所述第二权重值之间的差值。
113.步骤a3,在所述差值大于或等于预设阈值的情况下,将对应所述第一权重值的类型识别模型识别出的参考识别类型确定为所述目标识别类型。
114.步骤a4,在所述差值小于预设阈值的情况下,针对每个参考识别类型,确定识别结果为所述参考识别类型的每个类型识别模型的权重值。
115.步骤a5,对所有所述权重值进行求和运算,得到所述参考识别类型对应的类型分数。
116.步骤a6,将对应类型分数最高的参考识别类型确定为所述目标识别类型。
117.该实施方式中,最高权重值(即第一权重值)和次高权重值(即第二权重值)的差值较大时,意味着,在至少两个参考识别类型中,存在一个类型识别模型的权重值远高于其他模型,此时,认为该类型识别模型识别的结果相对于其他类型识别模型而言是可信的,可以直接将最高权重值对应的类型识别模型识别出的参考识别类型确定为目标识别类型。
118.而在最高权重值和次高权重值的差值较小时,意味着,在至少两个参考识别类型中,不存在一个参考识别模型的权重值远高于其他模型,此时,如果直接根据某一个类型识别模型识别的结果确定候选字段的类型,容易出现识别结果不准确的情况,因此,针对每个参考识别类型,将识别结果为该参考识别类型的所有类型识别模型的权重值进行求和运算,得到参考识别类型对应的类型分数,将对应类型分数最高的参考识别类型确定为目标识别类型。如此,可以基于多个类型识别模型识别的结果确定最终的目标识别类型,从而提高识别准确度。
119.通过图2所示流程,可以确定每个所述类型识别模型对应的权重值,以及,分别利用每个所述类型识别模型对所述候选字段进行识别处理,得到至少一个参考识别类型,然后,基于每个所述类型识别模型对应的权重值,在至少一个所述参考识别类型中确定所述目标识别类型。如此,可以基于至少两个类型识别模型识别的结果确定最终的目标识别类型,从而使模型具备一定的容错性和鲁棒性。
120.基于相同的技术构思,本技术实施例还提供了一种敏感数据识别装置,如图3所示,该装置包括:
121.数据获取模块301,用于获取待识别数据;
122.第一识别模块302,用于利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型;
123.模型确定模块303,用于针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型;
124.第二识别模块304,用于利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型;
125.字段确定模块305,用于基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。
126.在一个可能的实施方式中,所述模型确定模块,用于:
127.基于所述初步识别类型,确定所述候选字段对应的数据安全度和数据分类标签;
128.在预设识别模型库中,查找与所述数据安全度和所述数据分类标签对应的识别模
型,作为所述类型识别模型。
129.在一个可能的实施方式中,所述类型识别模型的数量有至少两个,所述第二识别模块,用于:
130.确定每个所述类型识别模型对应的权重值;
131.分别利用每个所述类型识别模型对所述候选字段进行识别处理,得到至少一个参考识别类型;
132.基于每个所述类型识别模型对应的权重值,在至少一个所述参考识别类型中确定所述目标识别类型。
133.在一个可能的实施方式中,所述第二识别模块,还用于:
134.从所有所述权重值中确定对应数值最大的第一权重值,并在除所述第一权重值以外的其他权重值中确定对应数值最大的第二权重值;
135.确定所述第一权重值和所述第二权重值之间的差值;
136.在所述差值大于或等于预设阈值的情况下,将对应所述第一权重值的类型识别模型识别出的参考识别类型确定为所述目标识别类型。
137.在一个可能的实施方式中,所述第二识别模块,还用于:
138.在所述差值小于预设阈值的情况下,针对每个参考识别类型,确定识别结果为所述参考识别类型的每个类型识别模型的权重值;
139.对所有所述权重值进行求和运算,得到所述参考识别类型对应的类型分数;
140.将对应类型分数最高的参考识别类型确定为所述目标识别类型。
141.在一个可能的实施方式中,所述第二识别模块,还用于:
142.针对每个类型识别模型,确定所述类型识别模型对应的置信度,将所述置信度作为所述类型识别模型对应的权重值。
143.在一个可能的实施方式中,所述字段确定模块,用于:
144.按照预设的识别类型与敏感级别的对应关系,确定所述目标识别类型对应的敏感级别,为所述候选字段对应的目标敏感级别。
145.本技术实施例中,首先,获取待识别数据,并利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型,然后,针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型,并利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型,最后,基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。通过本方案,在利用预设规则引擎对待识别数据中的字段进行初步识别的基础上,利用识别模型对其进行进一步识别处理,得到待识别数据中的敏感字段,从而提高对敏感字段的识别准确率。
146.基于相同的技术构思,本技术实施例还提供了一种电子设备,如图4所示,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
147.存储器113,用于存放计算机程序;
148.处理器111,用于执行存储器113上所存放的程序时,实现如下步骤:
149.获取待识别数据;
150.利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型;
151.针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型;
152.利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型;
153.基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。
154.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
155.通信接口用于上述电子设备与其他设备之间的通信。
156.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
157.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
158.在本技术提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一敏感数据识别方法的步骤。
159.在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一敏感数据识别方法。
160.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
161.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之
间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
162.以上所述仅是本技术的具体实施方式,使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种敏感数据识别方法,其特征在于,所述方法包括:获取待识别数据;利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型;针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型;利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型;基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。2.根据权利要求1所述的方法,其特征在于,所述基于所述候选字段对应的初步识别类型确定类型识别模型,包括:基于所述初步识别类型,确定所述候选字段对应的数据安全度和数据分类标签;在预设识别模型库中,查找与所述数据安全度和所述数据分类标签对应的识别模型,作为所述类型识别模型。3.根据权利要求1所述的方法,其特征在于,所述类型识别模型的数量有至少两个,所述利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型,包括:确定每个所述类型识别模型对应的权重值;分别利用每个所述类型识别模型对所述候选字段进行识别处理,得到至少一个参考识别类型;基于每个所述类型识别模型对应的权重值,在至少一个所述参考识别类型中确定所述目标识别类型。4.根据权利要求3所述的方法,其特征在于,所述基于每个所述类型识别模型对应的权重值,在至少一个所述参考识别类型中确定所述目标识别类型,包括:从所有所述权重值中确定对应数值最大的第一权重值,并在除所述第一权重值以外的其他权重值中确定对应数值最大的第二权重值;确定所述第一权重值和所述第二权重值之间的差值;在所述差值大于或等于预设阈值的情况下,将对应所述第一权重值的类型识别模型识别出的参考识别类型确定为所述目标识别类型。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在所述差值小于预设阈值的情况下,针对每个参考识别类型,确定识别结果为所述参考识别类型的每个类型识别模型的权重值;对所有所述权重值进行求和运算,得到所述参考识别类型对应的类型分数;将对应类型分数最高的参考识别类型确定为所述目标识别类型。6.根据权利要求3所述的方法,其特征在于,所述确定每个所述类型识别模型对应的权重值,包括:针对每个类型识别模型,确定所述类型识别模型对应的置信度,将所述置信度作为所述类型识别模型对应的权重值。7.根据权利要求1所述的方法,其特征在于,所述基于所述目标识别类型确定所述候选字段对应的目标敏感级别,包括:按照预设的识别类型与敏感级别的对应关系,确定所述目标识别类型对应的敏感级
别,为所述候选字段对应的目标敏感级别。8.一种敏感数据识别装置,其特征在于,所述装置包括:数据获取模块,用于获取待识别数据;第一识别模块,用于利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型;模型确定模块,用于针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型;第二识别模块,用于利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型;字段确定模块,用于基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。

技术总结
本申请提供了一种敏感数据识别方法、装置、电子设备及可读存储介质。包括:获取待识别数据;利用预设规则引擎对所述待识别数据中的每个字段进行初步识别处理,得到至少一个候选字段及每个所述候选字段对应的初步识别类型;针对每个候选字段,基于所述候选字段对应的初步识别类型确定类型识别模型;利用所述类型识别模型对所述候选字段进行识别处理,得到对应的目标识别类型;基于所述目标识别类型确定所述候选字段对应的目标敏感级别,并将对应目标敏感级别高于预设级别的候选字段确定为敏感字段。通过本方案,可以提高对敏感字段的识别准确率。准确率。准确率。


技术研发人员:童永祥
受保护的技术使用者:北京奇艺世纪科技有限公司
技术研发日:2023.06.26
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐