数据识别策略的更新方法及相关装置与流程
未命名
10-21
阅读:56
评论:0
1.本发明涉及数据处理技术领域,特别涉及一种数据识别策略的更新方法及相关装置。
背景技术:
2.随着数据安全问题的种类日益增多,对数据识别策略的要求越来越高,数据识别策略为对确定待识别数据的类别的。例如,将待识别数据输入至数据识别策略中,可以得到该数据对应的识别类别,识别类别可以为“涉黄”、“安全”以及“非法入侵”等识别类别。以确定该数据的安全性。但是,数据安全单纯指望固有的数据识别策略已经不能保证数据的安全。必须更加注重数据识别策略的灵活性与定制化(例如,用户可以要求在数据识别策略中增加识别类别和/或对识别类别进行进一步分类)。以便能根据需求高效地检测出数据的安全问题。
3.现有技术中对数据识别策略的更新主要是依靠人工对数据识别更新内容进行分析,然后人工手动的根据分词出的更新要求对数据识别策略进行更新的,但是,这种方式需要浪费大量的时间,导致数据识别策略的更新的效率较低。
技术实现要素:
4.本公开示例性的实施方式中提供一种数据识别策略的更新方法及相关装置,用于基于数据识别策略更新指令自动对待更新的数据识别策略进行更新,节省数据识别策略的更新时间,提高数据识别策略的更新效率。
5.本公开的第一方面提供一种数据识别策略的更新方法,所述方法包括:
6.响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;
7.对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;
8.针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;
9.根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。
10.本实施例中通过数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略,然后对数据识别策略更新内容进行识别,得到核心词语,并将核心词语与待更新的数据识别策略中的目标词语集合进行匹配,得到核心词语的识别类别以及类别置信度,最后根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。由此,本技术实施例中可以基于数据识别策略更新指令自动更新数据识别策略,并不需要人工对数据识别策略更新内容进行分词,更不需要人工对数据识别策略进行更新,可以节省时间,提高数据识别策略的更新效
率。
11.在一个实施例中,所述对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语,包括:
12.利用预设算法对所述数据识别策略更新内容进行分词处理,得到多个分词词语;
13.针对任意一个分词词语,将所述分词词语与预设的各核心词语进行比对;
14.若所述预设的各核心词语中存在所述分词词语,则将所述分词词语确定为核心词语。
15.本实施例通过先对数据识别策略更新内容进行分词,然后将分词词语与预设的核心词语进行比对,以识别出数据识别策略更新内容中的核心词语。由此,保证了识别出的核心词语的准确性。
16.在一个实施例中,所述核心词语的类型包括第一类型的核心词语和/或第二类型的核心词语,所述目标词语集合包括多个识别类别的目标词语集合,且任意一个识别类别的目标词语集合包括关键词语集合和样本词语集合,且所述样本词语集合包含所述关键词语集合,以及所述样本词语集合包括词语和/或语句;
17.所述将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度,包括:
18.针对所述第一类型的各核心词语,若所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词语,且所述目标核心词语的数量大于指定数量,则针对任意一个目标核心词语,将与所述目标核心词语相同的关键词语的识别类别确定为所述目标核心词语的识别类别,并将所述目标核心词语的类别置信度确定为指定置信度,以及将所述第一类型的各核心词语中除各目标核心词语之外的其他核心词语的类型确定为第二类型;或,
19.若所述第一类型的各核心词语中不存在与所述各识别类别的关键词语集合中的各关键词语相同的目标核心词语,或所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词,且所述目标核心词语的数量不大于指定数量,则将所述第一类型的各核心词语的类型均确定为第二类型;
20.将所述第二类型的各核心词语与所述待更新的数据识别策略中的各识别类别的样本词语集合分别进行匹配,得到所述各识别类别分别与所述第二类型的各核心词语之间的匹配度;
21.根据所述各识别类别分别与所述第二类型的各核心词语之间的匹配度,得到所述第二类型的各核心词语的识别类别以及类别置信度。
22.本实施例中将不同类型的核心词语使用不同的方式来确定各核心词语的识别类别以及类别置信度,由此,提高了确定出的各核心词语的识别类别以及类别置信度的准确度。
23.在一个实施例中,所述将所述第二类型的各核心词语与所述待更新的数据识别策略中的各识别类别的样本词语集合分别进行匹配,得到所述各识别类别分别与所述第二类型的各核心词语之间的匹配度,包括:
24.将所述第二类型的各核心词语进行向量化处理,得到与所述第二类型的各核心词语相对应的目标向量,其中,所述目标向量中向量参数的数量与所述第二类型的各核心词
语的数量相同,且所述第二类型的各核心词语对应一个目标向量;
25.针对所述待更新的数据识别策略中的任意一个识别类别,根据所述识别类别的样本词语集合对应的向量以及所述目标向量,得到所述第二类型的各核心词语与所述识别类别之间的匹配度。
26.本实施例通过将第二类型的各核心词语进行向量化处理,得到与第二类型的各核心词语相对应的目标向量,然后通过目标向量确定出与各识别类别的样本词语集合对应的向量的匹配度。由此,保证了确定出的匹配度的准确率。
27.在一个实施例中,所述待更新的数据识别策略包括关键词识别策略和/或人工智能ai识别策略,且所述关键词识别策略为对待识别数据进行关键词识别,并基于识别出的各关键词在所述待识别数据中出现的次数以及所述各关键词的识别权重确定所述待识别数据的识别类别,所述ai识别策略为将所述待识别数据输入至预先训练好的ai算法中,得到所述待识别数据的识别类别。
28.本技术实施例中的待更新的数据识别策略包括一种或多种数据识别策略,以便能根据不同的需求来使用对应的数据识别策略进行数据识别,提高了数据识别的准确率。
29.在一个实施例中,若所述待更新的数据识别策略包括关键词识别策略;
30.所述根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略,包括:
31.若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;或,
32.若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。
33.本技术实施例中对待更新的数据识别策略进行更新可以在待更新的数据识别策略中增加一个识别类别以及对待更新的数据识别策略中的某一个识别类别再进行细分类,由此,本技术实施例中可以根据用户需求对待更新的数据识别策略进行自动的定制化更新,保证了数据识别的准确度以及提高了数据识别策略的更新效率。
34.在一个实施例中,若所述待更新的数据识别策略包括ai识别策略;
35.所述根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更
新的数据识别策略进行更新,得到更新后的数据识别策略,包括:
36.针对所述核心词语的各识别类别中的任意一个识别类别,基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量,得到所述识别类别对应的目标样本词语数量;并,
37.在所述识别类别的样本词语集合中随机抽取目标样本词语数量的样本词语,得到目标样本词语集合;
38.若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略;或,
39.若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
40.本技术实施例中对待更新的数据识别策略进行更新可以在待更新的数据识别策略中增加一个识别类别以及对待更新的数据识别策略中的某一个识别类别再进行细分类,由此,本技术实施例中可以根据用户需求对待更新的数据识别策略进行自动的定制化更新,保证了数据识别的准确度以及提高了数据识别策略的更新效率。
41.在一个实施例中,若所述待更新的数据识别策略包括ai识别策略和关键词识别策略;
42.所述根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略,包括:
43.若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;
44.并将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略,其中,所述目标样本词语集合是在所述识别类别的样本词语集合随机抽取目标样本词语数量的词语样本得到的,且所述目标样本词语数量为基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量得到的;或,
45.若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别标类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确
定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略;
46.并将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
47.本技术实施例中对待更新的数据识别策略进行更新可以在待更新的数据识别策略中增加一个识别类别以及对待更新的数据识别策略中的某一个识别类别再进行细分类,并且若待更新的数据识别策略中包括多种策略时,需要对每一种策略都进行更新。由此,进一步提高了数据识别的准确率。
48.本公开第二方面提供一种数据识别策略的更新装置,所述装置包括:
49.更新内容确定模块,用于响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;
50.核心词语确定模块,用于对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;
51.匹配模块,用于针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;
52.策略更新模块,用于根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。
53.在一个实施例中,所述核心词语确定模块,具体用于:
54.利用预设算法对所述数据识别策略更新内容进行分词处理,得到多个分词词语;
55.针对任意一个分词词语,将所述分词词语与预设的各核心词语进行比对;
56.若所述预设的各核心词语中存在所述分词词语,则将所述分词词语确定为核心词语。
57.在一个实施例中,所述核心词语的类型包括第一类型的核心词语和/或第二类型的核心词语,所述目标词语集合包括多个识别类别的目标词语集合,且任意一个识别类别的目标词语集合包括关键词语集合和样本词语集合,且所述样本词语集合包含所述关键词语集合,以及所述样本词语集合包括词语和/或语句;
58.所述匹配模块,具体用于:
59.针对所述第一类型的各核心词语,若所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词语,且所述目标核心词语的数量大于指定数量,则针对任意一个目标核心词语,将与所述目标核心词语相同的关键词语的识别类别确定为所述目标核心词语的识别类别,并将所述目标核心词语的类别置信度确定为指定置信度,以及将所述第一类型的各核心词语中除各目标核心词语之外的其他核心词语的类型确定为第二类型;或,
60.若所述第一类型的各核心词语中不存在与所述各识别类别的关键词语集合中的各关键词语相同的目标核心词语,或所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词,且所述目标核心词语的数量不大于指定数量,则将所述第一类型的各核心词语的类型均确定为第二类型;
61.将所述第二类型的各核心词语与所述待更新的数据识别策略中的各识别类别的样本词语集合分别进行匹配,得到所述各识别类别分别与所述第二类型的各核心词语之间的匹配度;
62.根据所述各识别类别分别与所述第二类型的各核心词语之间的匹配度,得到所述第二类型的各核心词语的识别类别以及类别置信度。
63.在一个实施例中,所述匹配模块,还用于:
64.将所述第二类型的各核心词语进行向量化处理,得到与所述第二类型的各核心词语相对应的目标向量,其中,所述目标向量中向量参数的数量与所述第二类型的各核心词语的数量相同,且所述第二类型的各核心词语对应一个目标向量;
65.针对所述待更新的数据识别策略中的任意一个识别类别,根据所述识别类别的样本词语集合对应的向量以及所述目标向量,得到所述第二类型的各核心词语与所述识别类别之间的匹配度。
66.在一个实施例中,所述待更新的数据识别策略包括关键词识别策略和/或人工智能ai识别策略,且所述关键词识别策略为对待识别数据进行关键词识别,并基于识别出的各关键词在所述待识别数据中出现的次数以及所述各关键词的识别权重确定所述待识别数据的识别类别,所述ai识别策略为将所述待识别数据输入至预先训练好的ai算法中,得到所述待识别数据的识别类别。
67.在一个实施例中,若所述待更新的数据识别策略包括关键词识别策略;
68.所述策略更新模块,具体用于:
69.若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;或,
70.若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。
71.在一个实施例中,若所述待更新的数据识别策略包括ai识别策略;
72.所述策略更新模块,具体用于:
73.针对所述核心词语的各识别类别中的任意一个识别类别,基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量,得到所述识别类别对应的目标样本词语数量;并,
74.在所述识别类别的样本词语集合中随机抽取目标样本词语数量的样本词语,得到目标样本词语集合;
75.若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略;或,
76.若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
77.在一个实施例中,若所述待更新的数据识别策略包括ai识别策略和关键词识别策略;
78.所述策略更新模块,具体用于:
79.若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;
80.并将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略,其中,所述目标样本词语集合是在所述识别类别的样本词语集合随机抽取目标样本词语数量的词语样本得到的,且所述目标样本词语数量为基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量得到的;或,
81.若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别标类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及
所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略;
82.并将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
83.根据本公开实施例的第三方面,提供一种电子设备,包括:
84.至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有被所述至少一个处理器执行的指令;所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法。
85.根据本公开实施例提供的第四方面,提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序用于执行如第一方面所述的方法。
附图说明
86.为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
87.图1为根据本公开一个实施例中的适用场景示意图;
88.图2为根据本公开一个实施例的数据识别策略的更新方法的流程示意图之一;
89.图3为根据本公开一个实施例的确定核心词语的识别类别以及类别置信度的流程示意图;
90.图4为根据本公开一个实施例的待更新的数据识别策略中的识别类别示意图;
91.图5为根据本公开一个实施例的确定各识别类别与第二类型的核心词语之间的匹配度的流程示意图;
92.图6为根据本公开一个实施例的增加识别类别的示意图;
93.图7为根据本公开一个实施例的对识别类别进行细分类的示意图;
94.图8为根据本公开一个实施例的对ai识别策略进行更新的流程示意图;
95.图9为根据本公开一个实施例的数据识别策略的更新方法的流程示意图之二;
96.图10为根据本公开一个实施例的数据识别策略的更新装置;
97.图11为根据本公开一个实施例的电子设备的结构示意图。
具体实施方式
98.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
99.本公开实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一
般表示前后关联对象是一种“或”的关系。
100.本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
101.现有技术中对数据识别策略的更新主要是依靠人工对数据识别更新内容进行分析,然后人工手动的根据分词出的更新要求对数据识别策略进行更新的,但是,这种方式需要浪费大量的时间,导致数据识别策略的更新的效率较低。
102.因此,本公开提供一种数据识别策略的更新方法,通过数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略,然后对数据识别策略更新内容进行识别,得到核心词语,并将核心词语与待更新的数据识别策略中的目标词语集合进行匹配,得到核心词语的识别类别以及类别置信度,最后根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。由此,本技术实施例中可以基于数据识别策略更新指令自动更新数据识别策略,并不需要人工对数据识别策略更新内容进行分词,更不需要人工对数据识别策略进行更新,可以节省时间,提高数据识别策略的更新效率。下面,结合附图对本公开的方案详细的进行介绍。
103.如图1所示,一种数据识别策略的更新方法的应用场景,该应用场景中包括终端设备110和服务器120,服务器120可以通过单个服务器实现,也可以通过多个服务器实现。服务器120可以通过实体服务器实现,也可以通过虚拟服务器实现。
104.在一种可能的应用场景中,用户通过终端设备110向服务器120发送数据识别策略更新指令,服务器120接收到所述数据识别策略更新指令后,响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;并对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;然后服务器120针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;最后服务器120根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。
105.其中,图1中的服务器120与终端设备110之间可通过通信网络进行信息交互,其中,通信网络采用的通信方式可分为无线通信方式或有线通信方式。
106.示例性的,服务器120可通过蜂窝移动通信技术接入网络,分别与终端设备110进行通信,其中,所述蜂窝移动通信技术,比如,包括第五代移动通信(5th generation mobile networks,5g)技术。
107.可选的,服务器120可通过短距离无线通信方式接入网络,分别与终端设备110进行通信,其中,所述短距离无线通信方式,比如,包括无线保真(wireless fidelity,wi-fi)技术。
108.其中,本技术中的描述中仅就一个终端设备110和一个服务器120加以详述,但是本领域技术人员应当理解的是,示出的终端设备以及服务器旨在表示本技术的技术方案涉及的终端设备以及服务器的操作。而非暗示对终端设备以及服务器的数量、类型或是位置等具有限制。应当注意,如果向图示环境中添加附加模块或从其中去除个别模块,不会改变
本技术的示例实施例的底层概念。
109.需要说明的是,本技术提出的数据识别策略的更新方法不仅适用于图1所示的应用场景,还适用于任何有数据识别策略的更新装置。
110.下面结合上述描述的应用场景,参考附图来描述本技术示例性实施方式数据识别策略的更新的方法,需要注意的是,上述应用场景仅是为了便于理解本技术的方法和原理而示出,本技术的实施方式在此方面不受任何限制。
111.如图2所示,为本公开的数据识别策略的更新方法的流程示意图,可包括以下步骤:
112.步骤201:响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;
113.本技术实施例中的数据识别策略更新指令中包括所述数据识别策略更新内容和待更新的数据识别策略。其中,数据识别策略可以包括多个领域的数据识别策略,例如,金融领域的数据识别策略、教育领域的数据识别策略、政治领域的数据识别策略等。本技术实施例中具体更新哪一个数据识别策略是用户来进行选择的。且所述数据识别策略更新内容为一段语句,例如,可以为“在金融领域的数据识别策略中增加“银行”的识别类别”。该数据识别更新内容是用户根据需求进行设置的,本技术实施例在此并不对数据识别策略更新内容进行限定。
114.步骤202:对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;
115.在一个实施例中,步骤202可具体实施为:利用预设算法对所述数据识别策略更新内容进行分词处理,得到多个分词词语;针对任意一个分词词语,将所述分词词语与预设的各核心词语进行比对;若所述预设的各核心词语中存在所述分词词语,则将所述分词词语确定为核心词语。
116.本技术实施例中的预设算法为分词算法,具体的分词算法可为字符匹配分词算法、最短路径分词法以及词语分词法等方法。具体的分词算法可根据实际情况来进行设置,本技术实施例在此并不对分词算法进行限定。
117.为了调高核心词语的识别效率,在一个实施例中,在将所述分词词语与预设的各核心词语进行比对之前,将所述分词词语中的停用词语进行删除。
118.本技术实施例中的停用词语包括对应的停用词语库,将分词词语与停用词语库中的停用词语进行比对,确定出分词词语中的停用词语,并将停用词语进行删除。
119.步骤203:针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;
120.其中,所述核心词语的类型包括第一类型的核心词语和/或第二类型的核心词语,所述目标词语集合包括多个识别类别的目标词语集合,且任意一个识别类别的目标词语集合包括关键词语集合和样本词语集合,且所述样本词语集合包含所述关键词语集合,以及所述样本词语集合包括词语和/或语句。
121.本技术实施例中预先设置了第一类型的核心词语库。本技术实施例中的第一类型为与识别分类相关的类型。可通过以下方式确定各核心词语的类型:
122.将各核心词语与第一类型的核心词语库中的各词语进行比对,将各核心词语中与
所述第一类型的核心词语库中的词语相同的各核心词语确定为第一类型的核心词语。并将所述各核心词语中除所述第一类型的各核心词语之外的其他核心词语确定为第二类型的各核心词语。
123.下面,对步骤203中确定核心词语的识别类别以及类别置信度的方式进行详细的介绍,如图3所示,可包括以下步骤:
124.步骤301:针对所述第一类型的各核心词语,判断所述第一类型的各核心词语中是否存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词语,且所述目标核心词语的数量大于指定数量,若是,则执行步骤302,若否,则执行步骤304;
125.在一个实施例中,通过以下方式确定目标核心词语:针对所述第一类型的各核心词语中的任意一个核心词语,将所述核心词语与所述各识别类别的关键词语集合的并集中的各关键词语进行比对,若确定所述并集中存在与所述核心词语相同的关键词语,则将所述核心词语确定为所述目标核心词语。
126.本技术实施例中的待更新的数据识别策略中任意一个识别类别的关键词语集合是可以直接获取到的,为提前预置好的。本技术实施例中的指定数量的范围为大于0,且小于核心词语的总数量。本技术实施例中的指定数量可根据实际情况来进行设置,本技术实施例并不对指定数量的具体值进行限定。
127.步骤302:针对任意一个目标核心词语,将与所述目标核心词语相同的关键词语的识别类别确定为所述目标核心词语的识别类别,并将所述目标核心词语的类别置信度确定为指定置信度;
128.本技术实施例中的指定置信度为1。但是,本技术实施例并不对指定置信度进行限定。本技术实施例中的指定置信度可根据具体的实际情况来进行设置。
129.步骤303:将所述第一类型的各核心词语中除各目标核心词语之外的其他核心词语的类型确定为第二类型;
130.例如,如图4所示,为待更新的数据识别策略中的识别类别,从图中可以看出,该待更新的数据识别策略的识别类别包括识别类别1、识别类别2、识别类别3和识别类别4。该示例中是以字母代替词语的,但是并不对关键词语和核心词语进行限定,本技术实施例中的核心词语以及关键词语可以汉字、字母、数字以及符号等,可根据实际情况来进行设置,本技术实施例中并不对关键词语以及核心词语进行限定。
131.若识别类别1的关键词语集合为(a,b,c,d)。识别类别2的关键词语集合为(m,n,l,k)。识别类别3的关键词语集合为(d,e,h,g)。识别类别4的关键词语集合为(x,o,r)。若第一类型的各核心词语为(a,d,s,p,r)。且指定数量为2,得到各识别类别的关键词语的并集为(a,b,c,d,m,n,l,k,d,e,h,g,x,o,r)。则确定目标核心词语为:a、d和r。且确定目标核心词语的数量大于指定数量,以及确定目标核心词语a的识别类别为识别类别1。确定目标核心词语d的识别类别为识别类别1。确定目标核心词语r的识别类别为识别类别4。并将核心词语s和核心词语p的类型确定为第二类型。
132.步骤304:将所述第一类型的各核心词语的类型均确定为第二类型;
133.步骤305:将所述第二类型的各核心词语与所述待更新的数据识别策略中的各识别类别的样本词语集合进行匹配,得到所述各识别类别分别与所述第二类型的各核心词语之间的匹配度;
134.如图5所示,为确定各识别类别与第二类型的核心词语之间的匹配度的流程示意图,包括以下步骤:
135.步骤501:将所述第二类型的各核心词语进行向量化处理,得到与所述第二类型的各核心词语相对应的目标向量,其中,所述目标向量中向量参数的数量与所述第二类型的各核心词语的数量相同,且所述第二类型的各核心词语对应一个目标向量;
136.本技术实施例中的向量化处理的方式为tf-idf(term frequency
–
inverse document frequency,词频-逆文本频率指数)。即将第二类型的核心词语输入至所述tf-idf算法中,得到与所述第二类型的各核心词语对应的目标向量。但是,本技术实施例并不对向量化处理的方式进行限定,可根据实际情况来进行设置。
137.步骤502:针对所述待更新的数据识别策略中的任意一个识别类别,根据所述识别类别的样本词语集合对应的向量以及所述目标向量,得到所述第二类型的各核心词语与所述识别类别之间的匹配度。
138.在一个实施例中,步骤502可具体实施为:针对任意一个识别类别,将所述识别类别的样本词语集合对应的向量与所述目标向量的乘积确定为所述第二类型的各核心词语与所述识别类别之间的匹配度。
139.本技术实施例中的样本词语集合对应的向量为预先配置好的。若识别类别的样本词语集合不存在对应的向量,则可以基于tf-idf算法确定出,该方式为现有技术中的方式,本技术实施例在此不再进行赘述。
140.步骤306:根据所述各识别类别分别与所述第二类型的各核心词语之间的匹配度,得到所述第二类型的各核心词语的识别类别以及类别置信度。
141.在一个实施例中,步骤306可具体实施为:将所述匹配度按照从大到小的顺序进行排序,得到排序后的各匹配度;若所述排序后的各匹配度中前预设数量的各匹配度大于指定匹配度,则将所述排序后的各匹配度中前预设数量的各匹配度对应的识别类别确定为所述第二类别的各核心词语的识别类别;若所述排序后的各匹配度的数量不大于预设数量,且各匹配度均大于指定匹配度,则将排序后的各匹配度对应的识别类别确定为所述第二类别的各核心词语的识别类别;若所述排序后的各匹配度中前预设数量的各匹配度中存在不大于指定匹配度的匹配度,则将前预设数量的各匹配度大于所述指定匹配度的匹配度对应的识别类别确定为所述第二类别的各核心词语的识别类别。当确定出各核心词语的识别类别之后,针对任意一个识别类别,将所述识别类别的匹配度确定为所述识别类别对应的类别置信度。
142.本技术实施例中的预设数量为3,但是,并不对本技术实施了中的预设数量进行限定。本技术实施例中的预设数量可根据实际情况来进行设置。本技术实施例中指定匹配度可为0.6。但是,并不对本技术实施例中的指定匹配度进行限定,本技术实施例中的指定匹配度可根据实际情况来进行设置。
143.例如,第二类型的各核心词对应的目标向量与识别类别1的匹配度为0.11,与识别类别2的匹配度为0.62,与识别类别3的匹配度为0.65,与识别类别4的匹配度为0.24,与识别类别5的匹配度为0.71。则按照从大到小的顺序进行排序后的各识别类别为:识别类别5、识别类别3、识别类别2、识别类别4、识别类别1。若指定数量为3,且指定匹配度可为0.6。则将识别类别5、识别类别3、识别类别2确定为第二类型的各核心词对应的识别类别,即每个
第二类型的核心词存在三个对应的识别类别,即识别类别5、识别类别3、识别类别2。以及每个识别类别对应的类别置信度依次为:0.71、0.65和0.62。
144.步骤204:根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。
145.本技术实施例中的所述待更新的数据识别策略包括关键词识别策略和/或人工智能ai识别策略,下面,对关键词词识别策略以及ai识别策略进行介绍:
146.关键词识别策略:针对待更新的数据识别策略中的任意一个识别类别,利用所述识别类别的关键词语集合对待识别数据进行关键词语识别,得到待识别数据中的各关键词语以及各关键词语在所述待识别数据中出现的次数;针对任意一个关键词语,将所述关键词语在所述待识别数据中出现的次数以及所述关键词语在所述待更新的数据识别策略中的识别权重相乘,得到所述关键词语对应的乘积,将各关键词语对应的乘积相加后,得到所述待识别数据属于所述识别类别的置信度,将待更新的数据识别策略的各识别类别中置信度最高的识别类别确定为所述待识别数据的识别类别。
147.ai识别策略:将待识别数据输入至预先训练好的ai算法中,得到待识别数据的识别类别。
148.下面,对步骤204中对待更新的安全识别策略的更新方式进行详细介绍,包括以下三种情况:
149.情况一:若所述待更新的数据识别策略包括关键词识别策略。
150.(1)若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则通过以下方式对所述待更新的数据识别策略进行更新:
151.将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略。
152.本技术实施例中将目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度相乘,得到所述目标关键词的更新后的识别权重。
153.在一个实施例中,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略可具体实施为:
154.在所述待更新的数据识别策略中增加所述第一指定识别类别,并将所述各目标关键词对应的集合设置为所述第一指定识别类别的关键词语集合,以及将所述各目标关键词的更新后的识别权重分别设置为所述各目标关键词在所述更新后的数据识别策略中的识别权重,得到所述更新后的数据识别策略。
155.如图6所示,为在待更新的识别策略中新增了一个识别类别n。
156.(2)若所述数据识别策略更新指令为对所述待更新的数据识别策略中的指定识别类别进行细分类,则通过以下方式对所述待更新的数据识别策略进行更新:
157.将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。
158.本技术实施例中针对任意一个目标识别类别的关键词语集合中的任意一个关键词语,将所述关键词语在待更新的数据识别策略中的识别权重与所述目标识别类别对应的类别置信度相乘,得到所述关键词语更新后的识别权重。
159.在一个实施例中,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略可具体实施为:
160.在所述待更新的数据识别策略中的第二指定识别类别中增加各目标识别类别,并针对任意一个目标识别类别,将所述目标识别类别在待更新的数据识别策略中的关键词语集合设置为该目标识别类别在更新后的数据识别策略中的关键词语集合,以及将所述目标识别类别对应的各关键词语更新后的识别权重设置为各关键词语在更新后的数据识别策略中的识别权重。
161.例如,如图7所示,第二指定识别类别为识别类别1,确定的目标识别类别为识别类别n和识别类别m,则将识别类别1进行再分类,包括识别类别n和识别类别m,并基于识别类别n以及识别类别m的关键词语集合对识别类别1中的识别类别n和识别类别m进行关键词语集合的设置,以及将识别类别n和识别类别m中各关键词语对应的识别权重设置为各关键词语更新后的识别权重。
162.情况二:若所述待更新的数据识别策略包括ai识别策略。如图8所示,包括以下步骤:
163.步骤801:针对所述核心词语的各识别类别中的任意一个识别类别,基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量,得到所述识别类别对应的目标样本词语数量;
164.在一个实施例中,步骤801可具体实施为:将所述识别类别的类别置信度与所述识别类别的样本词语的总数量相乘,得到所述目标样本词语数量。
165.步骤802:在所述识别类别的样本词语集合中随机抽取目标样本词语数量的样本词语,得到目标样本词语集合;
166.步骤803:若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略;
167.本技术实施例中ai识别模型可根据实际具体的实际情况来进行设置,本技术实施例在此并不对ai识别模型进行限定。并且对ai识别模型的训练方式也可根据实际情况来进
行设置,本技术实施例在此并不对训练方式进行限定。
168.步骤804:若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
169.情况三:若所述待更新的数据识别策略包括ai识别策略和关键词识别策略。
170.(1)若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加指定识别类别,则通过以下方式对所述数据识别策略进行更新:
171.将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;并将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略,其中,所述目标样本词语集合是在所述识别类别的样本词语集合随机抽取目标样本词语数量的词语样本得到的,且所述目标样本词语数量为基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量得到的。
172.(2)若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别标类别进行细分类,则通过以下方式对所述待更新的数据识别策略进行更新:
173.将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略;并将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
174.需要说明的是:当数据识别策略包括ai识别策略和关键词识别策略时,可以先更新ai识别策略,也可以先更新关键词识别策略,也可以同时更新两种策略,本技术实施例在此并不对识别侧路的顺序进行限定。并且ai识别策略和关键词识别策略更新方式与情况一和情况二中所述的更新方式相同,本技术实施例在此不再进行赘述。
175.为了进一步的了解本公开的技术方案,下面结合图9进行详细的说明,可包括以下步骤:
176.步骤901:响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;
177.步骤902:利用预设算法对所述数据识别策略更新内容进行分词处理,得到多个分词词语;
178.步骤903:针对任意一个分词词语,将所述分词词语与预设的各核心词语进行比对;
179.步骤904:若所述预设的各核心词语中存在所述分词词语,则将所述分词词语确定为核心词语;
180.步骤905:针对所述第一类型的各核心词语,判断所述第一类型的各核心词语中是否存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词语,且所述目标核心词语的数量大于指定数量,若是,则执行步骤906,若否,则执行步骤907;
181.步骤906:针对任意一个目标核心词语,将与所述目标核心词语相同的关键词语的识别类别确定为所述目标核心词语的识别类别,并将所述目标核心词语的类别置信度确定为指定置信度,以及将所述第一类型的各核心词语中除各目标核心词语之外的其他核心词语的类型确定为第二类型;
182.步骤907:将所述第一类型的各核心词语的类型均确定为第二类型;
183.步骤908:将所述第二类型的各核心词语进行向量化处理,得到与所述第二类型的各核心词语相对应的目标向量,其中,所述目标向量中向量参数的数量与所述第二类型的各核心词语的数量相同;
184.步骤909:针对所述待更新的数据识别策略中的任意一个识别类别,根据所述识别类别的样本词语集合对应的向量以及所述目标向量,得到所述第二类型的各核心词语与所述识别类别之间的匹配度;
185.步骤910:根据所述各识别类别分别与所述第二类型的各核心词语之间的匹配度,得到所述第二类型的各核心词语的识别类别以及类别置信度;
186.步骤911:若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;
187.步骤912:将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略,其中,所述目标样本词语集合是在所述识别类别的样本词语集合随机抽取目标样本词语数量的词语样本得到的,且所述目标样本词语数量为基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量得到的;
188.步骤913:若所述数据识别策略更新指令为对所述待更新的数据识别策略中的指定识别标类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别
进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略;
189.步骤914:将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
190.基于相同的公开构思,本公开如上所述的数据识别策略的更新方法还可以由一种数据识别策略的更新装置实现。该数据识别策略的更新装置的效果与前述方法的效果相似,在此不再赘述。
191.图10为根据本公开一个实施例的数据识别策略的更新装置的结构示意图。
192.如图10所示,本公开的随数据识别策略的更新装置1000可以包括更新内容确定模块1010、核心词语确定模块1020、匹配模块1030和策略更新模块1040。
193.更新内容确定模块1010,用于响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;
194.核心词语确定模块1020,用于对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;
195.匹配模块1030,用于针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;
196.策略更新模块1040,用于根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。
197.在一个实施例中,所述核心词语确定模块1020,具体用于:
198.利用预设算法对所述数据识别策略更新内容进行分词处理,得到多个分词词语;
199.针对任意一个分词词语,将所述分词词语与预设的各核心词语进行比对;
200.若所述预设的各核心词语中存在所述分词词语,则将所述分词词语确定为核心词语。
201.在一个实施例中,所述核心词语的类型包括第一类型的核心词语和/或第二类型的核心词语,所述目标词语集合包括多个识别类别的目标词语集合,且任意一个识别类别的目标词语集合包括关键词语集合和样本词语集合,且所述样本词语集合包含所述关键词语集合,以及所述样本词语集合包括词语和/或语句;
202.所述匹配模块1030,具体用于:
203.针对所述第一类型的各核心词语,若所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词语,且所述目标核心词语的数量大于指定数量,则针对任意一个目标核心词语,将与所述目标核心词语相同的关键词语的识别类别确定为所述目标核心词语的识别类别,并将所述目标核心词语的类别置信度确定为
指定置信度,以及将所述第一类型的各核心词语中除各目标核心词语之外的其他核心词语的类型确定为第二类型;或,
204.若所述第一类型的各核心词语中不存在与所述各识别类别的关键词语集合中的各关键词语相同的目标核心词语,或所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词,且所述目标核心词语的数量不大于指定数量,则将所述第一类型的各核心词语的类型均确定为第二类型;
205.将所述第二类型的各核心词语与所述待更新的数据识别策略中的各识别类别的样本词语集合分别进行匹配,得到所述各识别类别分别与所述第二类型的各核心词语之间的匹配度;
206.根据所述各识别类别分别与所述第二类型的各核心词语之间的匹配度,得到所述第二类型的各核心词语的识别类别以及类别置信度。
207.在一个实施例中,所述匹配模块1030,还用于:
208.将所述第二类型的各核心词语进行向量化处理,得到与所述第二类型的各核心词语相对应的目标向量,其中,所述目标向量中向量参数的数量与所述第二类型的各核心词语的数量相同,且所述第二类型的各核心词语对应一个目标向量;
209.针对所述待更新的数据识别策略中的任意一个识别类别,根据所述识别类别的样本词语集合对应的向量以及所述目标向量,得到所述第二类型的各核心词语与所述识别类别之间的匹配度。
210.在一个实施例中,所述待更新的数据识别策略包括关键词识别策略和/或人工智能ai识别策略,且所述关键词识别策略为对待识别数据进行关键词识别,并基于识别出的各关键词在所述待识别数据中出现的次数以及所述各关键词的识别权重确定所述待识别数据的识别类别,所述ai识别策略为将所述待识别数据输入至预先训练好的ai算法中,得到所述待识别数据的识别类别。
211.在一个实施例中,若所述待更新的数据识别策略包括关键词识别策略;
212.所述策略更新模块1040,具体用于:
213.若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;或,
214.若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所
述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略
215.在一个实施例中,若所述待更新的数据识别策略包括ai识别策略;
216.所述策略更新模块1040,具体用于:
217.针对所述核心词语的各识别类别中的任意一个识别类别,基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量,得到所述识别类别对应的目标样本词语数量;并,
218.在所述识别类别的样本词语集合中随机抽取目标样本词语数量的样本词语,得到目标样本词语集合;
219.若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略;或,
220.若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
221.在一个实施例中,若所述待更新的数据识别策略包括ai识别策略和关键词识别策略;
222.所述策略更新模块1040,具体用于:
223.若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;
224.并将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略,其中,所述目标样本词语集合是在所述识别类别的样本词语集合随机抽取目标样本词语数量的词语样本得到的,且所述目标样本词语数量为基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量得到的;或,
225.若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别标类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重
以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略;
226.并将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
227.在介绍了本公开示例性实施方式的一种数据识别策略的更新方法及装置之后,接下来,介绍根据本公开的另一示例性实施方式的电子设备。
228.所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
229.在一些可能的实施方式中,根据本公开的电子设备可以至少包括至少一个处理器、以及至少一个计算机存储介质。其中,计算机存储介质存储有程序代码,当程序代码被处理器执行时,使得处理器执行本说明书上述描述的根据本公开各种示例性实施方式的数据识别策略的更新方法中的步骤。例如,处理器可以执行如图2中所示的步骤201-204。
230.下面参照图11来描述根据本公开的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
231.如图11所示,电子设备1100以通用电子设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理器1101、上述至少一个计算机存储介质1102、连接不同系统组件(包括计算机存储介质1102和处理器1101)的总线1103。
232.总线1103表示几类总线结构中的一种或多种,包括计算机存储介质总线或者计算机存储介质控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
233.计算机存储介质1102可以包括易失性计算机存储介质形式的可读介质,例如随机存取计算机存储介质(ram)1121和/或高速缓存存储介质1122,还可以进一步包括只读计算机存储介质(rom)1123。
234.计算机存储介质1102还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125,这样的程序模块1124包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
235.电子设备1100也可以与一个或多个外部设备1104(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备1100交互的设备通信,和/或与使得该电子设备1100能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1105进行。并且,电子设备1100还可以通过网络适配器1106与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器1106通过总线1103与用于电子设备1100的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括
但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
236.在一些可能的实施方式中,本公开提供的一种数据识别策略的更新方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的数据识别策略的更新方法中的步骤。
237.程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取计算机存储介质(ram)、只读计算机存储介质(rom)、可擦式可编程只读计算机存储介质(eprom或闪存)、光纤、便携式紧凑盘只读计算机存储介质(cd-rom)、光计算机存储介质件、磁计算机存储介质件、或者上述的任意合适的组合。
238.本公开的实施方式的数据识别策略的更新的程序产品可以采用便携式紧凑盘只读计算机存储介质(cd-rom)并包括程序代码,并可以在电子设备上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
239.可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
240.可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
241.可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络包括局域网(lan)或广域网(wan)连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
242.应当注意,尽管在上文详细描述中提及了装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
243.此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个
步骤分解为多个步骤执行。
244.本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘计算机存储介质、cd-rom、光学计算机存储介质等)上实施的计算机程序产品的形式。
245.本公开是参照根据本公开的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
246.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读计算机存储介质中,使得存储在该计算机可读计算机存储介质中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
247.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
248.显然,本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样,倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。
技术特征:
1.一种数据识别策略的更新方法,其特征在于,所述方法包括:响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。2.根据权利要求1所述的方法,其特征在于,所述对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语,包括:利用预设算法对所述数据识别策略更新内容进行分词处理,得到多个分词词语;针对任意一个分词词语,将所述分词词语与预设的各核心词语进行比对;若所述预设的各核心词语中存在所述分词词语,则将所述分词词语确定为核心词语。3.根据权利要求1所述的方法,其特征在于,所述核心词语的类型包括第一类型的核心词语和/或第二类型的核心词语,所述目标词语集合包括多个识别类别的目标词语集合,且任意一个识别类别的目标词语集合包括关键词语集合和样本词语集合,且所述样本词语集合包含所述关键词语集合,以及所述样本词语集合包括词语和/或语句;所述将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度,包括:针对所述第一类型的各核心词语,若所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词语,且所述目标核心词语的数量大于指定数量,则针对任意一个目标核心词语,将与所述目标核心词语相同的关键词语的识别类别确定为所述目标核心词语的识别类别,并将所述目标核心词语的类别置信度确定为指定置信度,以及将所述第一类型的各核心词语中除各目标核心词语之外的其他核心词语的类型确定为第二类型;或,若所述第一类型的各核心词语中不存在与所述各识别类别的关键词语集合中的各关键词语相同的目标核心词语,或所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词,且所述目标核心词语的数量不大于指定数量,则将所述第一类型的各核心词语的类型均确定为第二类型;将所述第二类型的各核心词语与所述待更新的数据识别策略中的各识别类别的样本词语集合分别进行匹配,得到所述各识别类别分别与所述第二类型的各核心词语之间的匹配度;根据所述各识别类别分别与所述第二类型的各核心词语之间的匹配度,得到所述第二类型的各核心词语的识别类别以及类别置信度。4.根据权利要求3所述的方法,其特征在于,所述将所述第二类型的各核心词语与所述待更新的数据识别策略中的各识别类别的样本词语集合分别进行匹配,得到所述各识别类别分别与所述第二类型的各核心词语之间的匹配度,包括:将所述第二类型的各核心词语进行向量化处理,得到与所述第二类型的各核心词语相
对应的目标向量,其中,所述目标向量中向量参数的数量与所述第二类型的各核心词语的数量相同,且所述第二类型的各核心词语对应一个目标向量;针对所述待更新的数据识别策略中的任意一个识别类别,根据所述识别类别的样本词语集合对应的向量以及所述目标向量,得到所述第二类型的各核心词语与所述识别类别之间的匹配度。5.根据权利要求1所述的方法,其特征在于,所述待更新的数据识别策略包括关键词识别策略和/或人工智能ai识别策略,且所述关键词识别策略为对待识别数据进行关键词识别,并基于识别出的各关键词在所述待识别数据中出现的次数以及所述各关键词的识别权重确定所述待识别数据的识别类别,所述ai识别策略为将所述待识别数据输入至预先训练好的ai算法中,得到所述待识别数据的识别类别。6.根据权利要求5所述的方法,其特征在于,若所述待更新的数据识别策略包括关键词识别策略;所述根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略,包括:若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;或,若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。7.根据权利要求5所述的方法,其特征在于,若所述待更新的数据识别策略包括ai识别策略;所述根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略,包括:针对所述核心词语的各识别类别中的任意一个识别类别,基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量,得到所述识别类别对应的目标样本词语数量;并,在所述识别类别的样本词语集合中随机抽取目标样本词语数量的样本词语,得到目标样本词语集合;
若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略;或,若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。8.根据权利要求5所述的方法,其特征在于,若所述待更新的数据识别策略包括ai识别策略和关键词识别策略;所述根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略,包括:若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;并将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略,其中,所述目标样本词语集合是在所述识别类别的样本词语集合随机抽取目标样本词语数量的词语样本得到的,且所述目标样本词语数量为基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量得到的;或,若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别标类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略;并将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。
9.一种数据识别策略的更新装置,其特征在于,所述装置包括:更新内容确定模块,用于响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;核心词语确定模块,用于对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;匹配模块,用于针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;策略更新模块,用于根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。10.根据权利要求9所述的装置,其特征在于,所述核心词语确定模块,具体用于:利用预设算法对所述数据识别策略更新内容进行分词处理,得到多个分词词语;针对任意一个分词词语,将所述分词词语与预设的各核心词语进行比对;若所述预设的各核心词语中存在所述分词词语,则将所述分词词语确定为核心词语。11.根据权利要求9所述的装置,其特征在于,所述核心词语的类型包括第一类型的核心词语和/或第二类型的核心词语,所述目标词语集合包括多个识别类别的目标词语集合,且任意一个识别类别的目标词语集合包括关键词语集合和样本词语集合,且所述样本词语集合包含所述关键词语集合,以及所述样本词语集合包括词语和/或语句;所述匹配模块,具体用于:针对所述第一类型的各核心词语,若所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词语,且所述目标核心词语的数量大于指定数量,则针对任意一个目标核心词语,将与所述目标核心词语相同的关键词语的识别类别确定为所述目标核心词语的识别类别,并将所述目标核心词语的类别置信度确定为指定置信度,以及将所述第一类型的各核心词语中除各目标核心词语之外的其他核心词语的类型确定为第二类型;或,若所述第一类型的各核心词语中不存在与所述各识别类别的关键词语集合中的各关键词语相同的目标核心词语,或所述第一类型的各核心词语中存在与各识别类别的关键词语集合中的各关键词语相同的目标核心词,且所述目标核心词语的数量不大于指定数量,则将所述第一类型的各核心词语的类型均确定为第二类型;将所述第二类型的各核心词语与所述待更新的数据识别策略中的各识别类别的样本词语集合分别进行匹配,得到所述各识别类别分别与所述第二类型的各核心词语之间的匹配度;根据所述各识别类别分别与所述第二类型的各核心词语之间的匹配度,得到所述第二类型的各核心词语的识别类别以及类别置信度。12.根据权利要求11所述的装置,其特征在于,所述匹配模块,还用于:将所述第二类型的各核心词语进行向量化处理,得到与所述第二类型的各核心词语相对应的目标向量,其中,所述目标向量中向量参数的数量与所述第二类型的各核心词语的数量相同,且所述第二类型的各核心词语对应一个目标向量;针对所述待更新的数据识别策略中的任意一个识别类别,根据所述识别类别的样本词语集合对应的向量以及所述目标向量,得到所述第二类型的各核心词语与所述识别类别之
间的匹配度。13.根据权利要求9所述的装置,其特征在于,所述待更新的数据识别策略包括关键词识别策略和/或人工智能ai识别策略,且所述关键词识别策略为对待识别数据进行关键词识别,并基于识别出的各关键词在所述待识别数据中出现的次数以及所述各关键词的识别权重确定所述待识别数据的识别类别,所述ai识别策略为将所述待识别数据输入至预先训练好的ai算法中,得到所述待识别数据的识别类别。14.根据权利要求13所述的装置,其特征在于,若所述待更新的数据识别策略包括关键词识别策略;所述策略更新模块,具体用于:若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;或,若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。15.根据权利要求13所述的装置,其特征在于,若所述待更新的数据识别策略包括ai识别策略;所述策略更新模块,具体用于:针对所述核心词语的各识别类别中的任意一个识别类别,基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量,得到所述识别类别对应的目标样本词语数量;并,在所述识别类别的样本词语集合中随机抽取目标样本词语数量的样本词语,得到目标样本词语集合;若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略;或,若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别类别进行细分类,则将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分
类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。16.根据权利要求13所述的装置,其特征在于,若所述待更新的数据识别策略包括ai识别策略和关键词识别策略;所述策略更新模块,具体用于:若所述数据识别策略更新指令为在所述待更新的数据识别策略中添加第一指定识别类别,则将所述各核心词语的识别类别分别对应的关键词语集合中的各关键词语确定为所述第一指定识别类别的各目标关键词语,并针对任意一个目标关键词语,利用所述目标关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标关键词语的识别类别对应的类别置信度,得到所述目标关键词的更新后的识别权重,通过所述各目标关键词以及所述各目标关键词的更新后的识别权重对所述待更新的数据识别策略进行更新,得到所述更新后的数据识别策略;并将各识别类别对应的目标样本词语集合确定为所述第一指定识别类别的样本词语集合,并基于所述第一指定识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略,其中,所述目标样本词语集合是在所述识别类别的样本词语集合随机抽取目标样本词语数量的词语样本得到的,且所述目标样本词语数量为基于所述识别类别的类别置信度以及所述识别类别的样本词语集合中的样本词语的总数量得到的;或,若所述数据识别策略更新指令为对所述待更新的数据识别策略中的第二指定识别标类别进行细分类,则将所述各核心词语的识别类别确定为所述第二指定识别类别进行细分类后的各目标识别类别,并将所述各核心词语的识别类别分别对应的关键词语集合确定为所述各目标识别类别各自的关键词语集合,针对任意一个目标识别类别,利用所述目标识别类别的关键词语集合中的各关键词语在所述待更新的数据识别策略中的识别权重以及与所述目标识别类别对应的类别置信度,得到所述目标识别类别的关键词语集合中各关键词语更新后的识别权重,通过所述目标识别类别的关键词语集合中的各关键词语以及所述各关键词语更新后的识别权重对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略;并将所述各核心词语的各识别类别确定为所述第二指定识别类别进行细分类后的识别类别,并将所述各识别类别对应的目标样本词语集合分别确定为所述各识别类别的样本词语集合,根据所述各识别类别的样本词语集合对所述ai识别模型进行再训练,得到所述更新后的数据识别策略。17.一种电子设备,其特征在于,包括至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令;所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1-8中任一项所述的方法。18.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序用于执行根据权利要求1-8中任一项所述的方法。
技术总结
本公开提供数据识别策略的更新方法及相关装置。用于提高数据识别策略的更新效率。该方法包括:在响应于用户发送的数据识别策略更新指令,基于所述数据识别策略更新指令确定数据识别策略更新内容和待更新的数据识别策略;对所述数据识别策略更新内容进行识别,得到所述数据识别策略更新内容中的至少一个核心词语;针对任意一个核心词语,将所述核心词语与所述待更新的数据识别策略中的目标词语集合进行匹配,得到所述核心词语的识别类别以及类别置信度;根据各核心词语的识别类别以及所述各核心词语的类别置信度对所述待更新的数据识别策略进行更新,得到更新后的数据识别策略。略。略。
技术研发人员:任华 王铮 汪少敏 田毓嘉 马兆铭
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.07.07
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/