数据分类方法、设备、存储介质及程序产品与流程
未命名
10-08
阅读:70
评论:0

1.本发明涉及数据处理技术领域,尤其涉及一种数据分类方法、设备、存储介质及程序产品。
背景技术:
2.目前各类app应用软件和公众号应用频繁,且大部分都具有留言功能。对于用户在app应用软件和公众号发布的大量留言数据,一般都需要进行语义识别及分类。
3.目前在对留言数据进行识别分类时,一般是采用bert、lstm等机器学习的方式进行,但是由于留言数据缺少原始标签,留言数据的留言类别众多,许多分类的历史留言数据量很少等问题,导致在对留言数据进行识别分类时,其分类的覆盖率较低。
技术实现要素:
4.本发明的主要目的在于提供一种数据分类方法、设备、存储介质及程序产品,旨在解决如何提高对留言数据分类的覆盖率的技术问题。
5.为实现上述目的,本发明提供一种数据分类方法,所述方法包括以下步骤:
6.依据预设关键词的维度构建关键词框架,以及依据所述关键词框架构建关键词库,其中,所述关键词框架中多个维度所对应的关键词权重不同,所述关键词库包括不同分类类别分别在所述多个维度下的第一关键词;
7.针对待分类的目标留言数据,依据所述关键词框架提取所述目标留言数据在所述多个维度下的第二关键词;
8.针对所述关键词库中每个分类类别,若各所述第一关键词中存在与所述第二关键词匹配的第一关键词,则依据匹配的所述第一关键词对应的关键词权重计算匹配分数;
9.依据最大的匹配分数对应的分类类别对所述目标留言数据进行分类。
10.可选地,依据所述关键词框架构建关键词库的步骤,包括:
11.依据所述关键词框架提取预设的分类类别中留言数据在多个维度下的第三关键词;
12.针对每个预设的分类类别,对每个维度下的所述第三关键词进行语义分析,得到语义分析结果,依据所述语义分析结果进行拓展得到第四关键词,将所述第三关键词和所述第四关键词作为第一关键词;
13.依据每个预设的分类类别分别在多个维度下的第一关键词构建关键词库。
14.可选地,依据预设关键词的维度构建关键词框架的步骤,包括:
15.对预设关键词进行维度划分,得到多个维度,并设置每个所述维度对应的关键词权重,其中,每个所述维度对应的关键词权重不同;
16.依据设置所述关键词权重的维度构建关键词框架。
17.可选地,依据所述关键词框架提取所述目标留言数据在所述多个维度下的第二关键词的步骤之后,包括:
18.针对每个维度下的第二关键词,将所述第二关键词与所述关键词库中每个分类类别分别在第一维度下的第一关键词进行匹配,其中,所述第一维度与所述第二关键词对应的维度相同;
19.依据匹配结果确定与所述第二关键词匹配的第一关键词,并确定所述匹配的第一关键词对应的分类类别。
20.可选地,依据匹配的所述第一关键词对应的关键词权重计算匹配分数的步骤之前,包括:
21.若在所有匹配的所述第一关键词中包括特殊维度关键词,则设置所述特殊维度关键词对应的分类类别与所述目标留言数据之间的匹配分数为最低分数,其中,所述特殊维度关键词包括剔除词维度下的第一关键词。
22.可选地,依据匹配的所述第一关键词对应的关键词权重计算匹配分数的步骤之前,还包括:
23.若在第一分类类别中,所有匹配的所述第一关键词中不包含目标维度关键词,则设置所述第一分类类别与所述目标留言数据之间的匹配分数为最低分数,其中,所述第一分类类别为所述关键词库中所有分类类别中的一个分类类别。
24.可选地,依据所述关键词框架构建关键词库的步骤,包括:
25.将最大的匹配分数对应的分类类别作为第一匹配分类类别;
26.将所述第一匹配分类类别和预设的分类词库中所有分类类别的最末级分类类别进行匹配,得到第二匹配分类类别,其中,所述分类词库包括依据预设的分类框架设置的不同层级的分类类别;
27.确定所述分类词库中所述第二匹配分类类别对应的目标分类类别,将所述目标留言数据分类至所述目标分类类别。
28.此外,为实现上述目的,本发明还提供一种数据分类设备,所述数据分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据分类程序,所述数据分类程序被所述处理器执行时实现如上所述的数据分类方法的步骤。
29.此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据分类程序,所述数据分类程序被处理器执行时实现如上所述的数据分类方法的步骤。
30.此外,为实现上述目的,本发明还提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的数据分类方法的步骤。
31.本发明实施例中,通过根据预设关键词的维度构建关键词框架,依据关键词框架构建关键词库,并且由于关键词框架中多个维度所对应的关键词权重不同,关键词库包括不同分类类别分别在多个维度下的第一关键词,因此关键词库中,不同分类类别分别在多个维度下的第一关键词所对应的关键词权重不同。从而可以实现通过构建包含多个维度的关键词框架,帮助业务人员进行准确构建和拓展关键词库。
32.并且通过针对待分类的目标留言数据,依据关键词框架提取目标留言数据在多个维度下的第二关键词,并且针对关键词库中每个分类类别,在确定各个第一关键词中存在与第二关键词匹配的第一关键词时,依据匹配的第一关键词对应的关键词权重计算匹配分数,选择最大的匹配分数对应的分类类别对目标留言数据进行分类。从而可以实现通过关
键词框架对任一个目标留言数据都是进行多个维度的第二关键词提取,再通过与关键词库中的第一关键词进行关键词匹配的方式进行分类,而不用考虑目标留言数据整体。也能实现在用户针对同一个问题采用不同的表达方式进行留言,产生多个留言数据时,能根据各个留言数据所包含的第二关键词进行分类,避免了缺少原始标签的留言数据无法进行分类的现象发生,提高了对留言数据分类的覆盖率。
附图说明
33.图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
34.图2为本发明数据分类方法第一实施例的流程示意图;
35.图3为本发明数据分类方法第二实施例的流程示意图;
36.图4为本发明数据分类方法第三实施例的流程示意图;
37.图5为本发明数据分类装置的装置模块示意图。
38.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
39.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
40.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
41.需要说明的是,本发明实施例数据分类设备可以是智能手机、个人计算机和服务器等设备,在此不做具体限制。
42.如图1所示,该数据分类设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
43.本领域技术人员可以理解,图1中示出的设备结构并不构成对数据分类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
44.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据分类程序。操作系统是管理和控制设备硬件和软件资源的程序,支持数据分类程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的数据分类程序,并执行以下本发明数据分类方法各实施例所述的操作。
45.基于上述的结构,提出数据分类方法的各个实施例。
46.参照图2,图2为本发明数据分类方法第一实施例的流程示意图。
47.本发明实施例提供了数据分类方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,数据分类方法可以在设备中进行,设备可以是智能手机、个人计算机、服务器
等设备,在本实施例中并不做限制。在本实施例中,数据分类方法包括:
48.步骤s10,依据预设关键词的维度构建关键词框架,以及依据所述关键词框架构建关键词库,其中,所述关键词框架中多个维度所对应的关键词权重不同,所述关键词库包括不同分类类别分别在所述多个维度下的第一关键词;
49.在本实施例中,预设关键词可以是用户提前设置的关键词。
50.由于用户留言数据的多样性,同样一个问题,表达的方式、用词都可以有很多种,因此可以通过构建关键词框架和关键词库来对留言数据进行分类。
51.可选地,在构建关键词框架时,可以是将预设关键词划分为多个维度,并根据具体业务场景的需求,设置各个维度对应的关键词权重。在关键词框架中多个维度所对应的关键词权重不同。也可以依据实际需求设置至少两个维度对应的权重相同,其他的维度对应的权重不同,在此不做限制。可选地,预设关键词的维度可以包括业务、主体、子主体、动作、状态和剔除词维度。因此依据预设关键词的维度构建的关键词框架也可以包括业务、主体、子主体、动作、状态和剔除词维度。
52.可选地,在依据关键词框架构建关键词库时,可以先获取确定好训练样本,训练样本中设置有多个留言数据,以及每个留言数据对应的分类类别。在构建关键词库时,可以通过关键词框架提取每个分类类别中留言数据对应的多个维度的第一关键词,然后依据每个分类类别下多个维度的第一关键词构建关键词库。可选地,在一个分类类别中,每个维度下的第一关键词可以是一个、或者零个,也可以是多个,在此不做限制。并且同一个第一关键词可以同时出现在多个分类多个维度下,在此不做限制。
53.可选地,在关键词库中各个维度下的第一关键词可以包括业务维度下的业务关键词、主体维度下的主体关键词、子主体维度下的子主体关键词、动作维度下的动作关键词、状态维度下的状态关键词和剔除词维度下的剔除词关键词中的至少一个。可选地,业务关键词可以是分类中能明确归属具体经营业务的关键词。主体关键词可以是分类称述的核心主体。子主体关键词可以是表示对主体的条件限制或归属。动作关键词可以是表示对主体做的操作或者主体的表现行为。状态关键词可以是表示分类的情景,用于区分主谓结构,用于表示确认事实(如什么是)、确认理由(如为什么)、确认方式(比如如何)等情景。剔除词可以是明确该分类不能含有的词语。
54.可选地,在关键词库中,对不同维度下的第一关键词不做限制,可以是多个第一关键词中存在分类类别不同、维度不同、语义信息相同的关键词。还可以是多个第一关键词中存在分类类别相同、维度不同、语义信息相同的关键词。还可以是多个第一关键词中存在分类类别不同、维度相同、语义信息相同的关键词。
55.可选地,依据关键词框架构建的关键词库,可以如下表1所示,但不局限于如下表1。并且在表1中,对于每个分类类别,都可以按照关键词框架(包括业务、主体、子主体、动作、状态和剔除词等维度)对留言中的关键词进行划分。
56.[0057][0058]
表1
[0059]
步骤s20,针对待分类的目标留言数据,依据所述关键词框架提取所述目标留言数据在所述多个维度下的第二关键词;
[0060]
可选地,在构建好关键词库后,就可以在app应用软件或公众号中获取用户输入的各个留言数据,并将其作为待分类的目标留言数据,然后再根据关键词库对待分类的目标留言数据进行分类。
[0061]
可选地,若检测到待进行分类的目标留言数据,可以通过关键词框架对目标留言数据进行关键词提取,并且在进行关键词提取时,可以依据关键词框架包含的各个维度对目标留言数据进行不同维度的关键词提取,并将提取的关键词作为第二关键词。可选地,对于目标留言数据,依据关键词框架提取的不同维度的第二关键词的数量至少为一个。
[0062]
步骤s30,针对所述关键词库中每个分类类别,若各所述第一关键词中存在与所述第二关键词匹配的第一关键词,则依据匹配的所述第一关键词对应的关键词权重计算匹配分数;
[0063]
可选地,在对目标留言数据进行分类时,可以计算关键词库中每个分类类别与目标留言数据包含的各个维度下的第二关键词之间的匹配分类,以便根据匹配分数确定最终的目标分类类别。
[0064]
可选地,在计算匹配分数时,针对关键词库中每个分类类别,将在该分类类别下各个维度的第一关键词与第二关键词进行匹配,得到匹配的第一关键词。进行匹配时,可以通过判断关键词的语义信息是否相同来确定两个关键词是否匹配。即匹配的第一关键词的语义信息与第二关键词的语义信息匹配。
[0065]
可选地,若存在多个第二关键词,则匹配的第一关键词也存在多个。并且由于匹配的第一关键词所属维度对应的权重也不相同,因此可以根据匹配的所有第一关键所属维度
对应的关键词权重计算匹配分数。如进行权重相加计算等。比如若匹配的第一关键词存在三个,则可以对这三个匹配的第一关键词对应的关键词权重进行相加,得到匹配分数。
[0066]
可选地,对于关键词库中每个分类类别都可以采用与上述相同的方式进行计算,以得到目标留言数据与每个分类类别之间的匹配分数。
[0067]
步骤s40,依据最大的匹配分数对应的分类类别对所述目标留言数据进行分类。
[0068]
可选地,将各个分类类别对应的匹配分数进行相互比较,以确定分数最大的匹配分数,即最大的匹配分数,再选择匹配分数最大的分类类别对目标留言数据进行分类,如将目标留言数据分类到匹配分数最大的分类类别。
[0069]
此外,本实施例中通过采用关键词框架进行留言数据的分类,可以避免留言数据多样性问题,在实际分类过程中,不同用户对于同一个问题的表达方式是存在多种类型的。例如,“如何还款”问题,用户在表达上存在“如何还款”、“怎么还款”、“在哪还款”、“还款怎么操作”等不同留言。通过关键词框架,比如“业务-主体-子主体-动作-状态-剔除词”框架,用户能准确构建出“如何还款”问题的关键词库,包括主体(还款、还钱等)、动作(如何、怎么、在哪、操作等)等部分。可以通过关键词框架帮助用户准确构建和拓展关键词库,最终准确地完成种类众多的留言数据分类。
[0070]
可选地,还可以避免同一关键词在不同分类中的重要性差异。通过关键词框架将不同留言数据中的同一关键词匹配至关键词库中不同分类不同维度下的第一关键词,由于关键词框架中多个维度所对应的关键词权重不同,关键词库中包括不同分类类别分别多个维度下的第一关键词,因此可以根据同一关键词在不同留言数据中的维度的不同,来确定同一关键词在不同分类下不同维度中对应的关键词权重,依据不同的关键词权重体现同一关键词在不同分类中的重要性差异。例如“如何还款”和“还款时找不到企业账户”这两个留言数据都包括“还款”这一个关键词,“还款”对于前一个留言数据是核心关键词,但对于后一个留言数据则不属于核心关键词,后一个留言数据的核心关键词是“企业账户”。可以通过关键词框架进行分类,在如何还款这个留言数据对应的分类类别时,将关键词“还款”划分到主体维度下,作为主体维度下的关键词。在还款时找不到企业账户这个留言数据对应的分类类别时,将关键词“还款”划分到子主体维度下,作为子主体维度下的关键词。从而可以实现区分同一关键词在不同分类中的重要性差异。
[0071]
在本实施例中,通过根据预设关键词的维度构建关键词框架,依据关键词框架构建关键词库,并且由于关键词框架中多个维度所对应的关键词权重不同,关键词库包括不同分类类别分别在多个维度下的第一关键词,因此关键词库中,不同分类类别分别在多个维度下的第一关键词所对应的关键词权重不同。从而可以实现通过构建包含多个维度的关键词框架,帮助业务人员进行准确构建和拓展关键词库。
[0072]
并且通过针对待分类的目标留言数据,依据关键词框架提取目标留言数据在多个维度下的第二关键词,并且针对关键词库中每个分类类别,在确定各个第一关键词中存在与第二关键词匹配的第一关键词时,依据匹配的第一关键词对应的关键词权重计算匹配分数,选择最大的匹配分数对应的分类类别对目标留言数据进行分类。从而可以实现通过关键词框架对任一个目标留言数据都是进行多个维度的第二关键词提取,再通过与关键词库中的第一关键词进行关键词匹配的方式进行分类,而不用考虑目标留言数据整体。也能实现在用户针对同一个问题采用不同的表达方式进行留言,产生多个留言数据时,能根据各
个留言数据所包含的第二关键词进行分类,避免了缺少原始标签的留言数据无法进行分类的现象发生,提高了对留言数据分类的覆盖率。
[0073]
基于上述第一实施例,提出本发明数据分类方法第二实施例,在本实施例中,参照图3,所述步骤s10,依据所述关键词框架构建关键词库的步骤,包括:
[0074]
步骤a,依据所述关键词框架提取预设的分类类别中留言数据在多个维度下的第三关键词;
[0075]
在本实施例中,可以先确定训练样本,训练样本中设置多个不同分类类别及其对应的留言数据,并通过关键词框架对每个分类类别对应的留言数据进行多个维度下的关键词提取,并将提取的关键词作为第三关键词。例如,若关键词框架包括业务、主体、子主体、动作、状态和剔除词维度。则提取的关键词可以是业务维度下的业务关键词、主体维度下的主体关键词、子主体维度下的子主体关键词、动作维度下的动作关键词、状态维度下的状态关键词和剔除词维度下的剔除关键词等中的一个或多个。可选地,每个分类类别在各个维度下的第三关键词可以是业务关键词、主体关键词、子主体关键词、动作关键词、状态关键词和剔除关键词中的至少一个。
[0076]
步骤b,针对每个预设的分类类别,对每个维度下的所述第三关键词进行语义分析,得到语义分析结果,依据所述语义分析结果进行拓展得到第四关键词,将所述第三关键词和所述第四关键词作为第一关键词;
[0077]
可选地,可以对每个分类类别在每个维度下的第三关键词进行语义分析,得到语义分析结果。其中,语义分析的方式可以按照现有方式进行,比如采用语义分析模型进行语义分析等。
[0078]
可选地,在依据语义分析结果进行拓展时,可以在网络中,或者用户输入的多个关键词,或者在设备中提前设置的多个关键词中,获取与语义分析结果匹配的关键词,并将其作为第四关键词。并将第三关键词与依据第三关键词拓展的第四关键词作为同一个分类同一个维度下的第一关键词。例如,若第三关键词为主体关键词,则确定与主体关键词语义分析一致的关键词一致的第四关键词。然后将第四关键词和主体关键词均作为主体维度下的第一关键词。
[0079]
步骤c,依据每个预设的分类类别分别在多个维度下的第一关键词构建关键词库。
[0080]
可选地,在获取到每个分类类别分别在多个维度下的第一关键词后,就可以依据分类类别与每个维度下的第一关键词之间的对应关系构建关键词框架表,并将关键词框架表作为关键词库。
[0081]
在本实施例中,通过依据关键词框架提取每个分类类别下多个维度的第三关键词,然后对每个分类类别在不同维度下的第三关键词进行拓展,将拓展后的第四关键词和该第三关键词作为同一个维度下的第一关键词,再依据每个分类类别下多个维度的第一关键词构建关键词库,从而可以帮助业务人员准确构建和拓展关键词库,最终准确地完成种类众多的留言数据分类。
[0082]
进一步地,依据预设关键词的维度构建关键词框架的步骤,包括:
[0083]
步骤d,对预设关键词进行维度划分,得到多个维度,并设置每个所述维度对应的关键词权重,其中,每个所述维度对应的关键词权重不同;
[0084]
在本实施例中,在构建关键词框架时,需要先获取提前设置好的关键词,依据业务
场景需求将预设关键词划分为多个维度,比如业务维度、主体维度、子主体维度、动作维度、状态维度和剔除词维度等。
[0085]
然后再根据实际的场景需求对每个维度设置对应的关键词权重。其中,为体现维度之间的差异性,可以对每个维度设置不同的关键词权重。
[0086]
步骤e,依据设置所述关键词权重的维度构建关键词框架。
[0087]
可选地,依据设置关键词权重的维度构建关键词框架时,可以对各个维度在关键词框架中的位置不做限制。也就是关键词框架只需要包含具有关键词权重的维度即可。
[0088]
在本实施例中,通过对预设关键词进行维度划分,得到多个维度,并对每个维度设置不同的关键词权重,再依据设置关键词权重的维度构建关键词框架,从而保障了构建好的关键词框架的有效性。
[0089]
进一步地,基于上述第一或第二实施例,提出本发明数据分类方法第三实施例,参照图4,在本实施例中,步骤s20,依据所述关键词框架提取所述目标留言数据在所述多个维度下的第二关键词的步骤之后,包括:
[0090]
步骤f,针对每个维度下的第二关键词,将所述第二关键词与所述关键词库中每个分类类别分别在第一维度下的第一关键词进行匹配,其中,所述第一维度与所述第二关键词对应的维度相同;
[0091]
在本实施例中,在提取到目标留言数据在不同维度下的第二关键词后,对于每个维度下的第二关键词都执行相同的操作,以得到与每个维度下的第二关键词匹配的第一关键词。
[0092]
可选地,针对每个维度下的第二关键词,可以先确定第二关键词对应的第一维度,然后将第二关键词与关键词库中每个分类类别分别在第一维度下的第一关键词进行匹配。匹配方式可以通过判断第二关键词与第一关键词是否相同来进行确定,若第二关键词与第一关键词为同一个关键词,则确定第二关键词与该第一关键词匹配。反之,则不匹配。
[0093]
例如,若关键词库中对于分类类别“怎么开具结清证明”,业务维度下的第一关键词为结清证明、结清凭证、还款凭证。若第二关键词为结清证明且第一维度为业务维度,则可以确定第二关键词“结清证明”与分类类别“怎么开具结清证明”在业务维度下的第一关键词“结清证明”匹配。
[0094]
步骤g,依据匹配结果确定与所述第二关键词匹配的第一关键词,并确定所述匹配的第一关键词对应的分类类别。
[0095]
可选地,若存在与第二关键词匹配的第一关键词,则可以直接确定该匹配的第一关键词对应的分类类别。其中,匹配的第一关键词可能存在多个,匹配的第一关键词对应的分类类别也可能存在多个。
[0096]
在本实施例中,通过针对每个维度下的第二关键词,将第二关键词与关键词库中每个分类类别分别在与第二关键词对应的第一维度下的第一关键词进行匹配,若存在与第二关键词匹配的第一关键词,则确定匹配的第一关键词对应的分类类别,从而可以保障获取到的匹配的第一关键词的有效性,确保与第二关键词匹配的第一关键词处于和第二关键词相同的维度。
[0097]
进一步地,依据匹配的所述第一关键词对应的关键词权重计算匹配分数的步骤之前,包括:
[0098]
步骤h,若在所有匹配的所述第一关键词中包括特殊维度关键词,则设置所述特殊维度关键词对应的分类类别与所述目标留言数据之间的匹配分数为最低分数,其中,所述特殊维度关键词包括剔除词维度下的第一关键词。
[0099]
在本实施例中,若匹配的第一关键词存在多个,可以对每个匹配的第一关键词进行检测。若检测发现在各个匹配的第一关键词中存在至少一个特殊维度关键词,则可以直接确定特殊维度关键词对应的分类类别与目标留言数据不匹配,并设置特殊维度关键词对应的分类类别与目标留言数据之间的匹配分数为最低分数。然后再依据匹配的第一关键词对除特殊维度关键词对应的分类类别之外的其他分类类别进行匹配分数。
[0100]
可选地,特殊维度关键词可以根据实际场景需求进行设置,比如设置剔除词维度下的第一关键词为特殊维度关键词。
[0101]
可选地,可以在计算匹配分数时,设置一票否决得分。例如,留言m对于分类k的得分=业务得分+主体得分+子主体得分+动作得分+0.5*状态得分
–
一票否决得分。其中,目标留言数据可以包括留言m。分类k可以是关键词库中的一个分类类别。留言m对于分类k的得分可以是维度得分,包括业务得分、主体得分、子主体得分、动作得分和状态得分。可选地,维度得分可以是依据维度对应的关键词权重进行确定的,比如业务得分可以是依据业务维度对应的关键词权重进行确定的,比如将业务维度对应的关键词权重作为业务得分。对于体得分、子主体得分、动作得分和状态得分也可以按照和业务得分相同的方式进行确定。可选地,在留言m包含特殊维度关键词时,一票否决得分为无穷值。在留言m不包含特殊维度关键词时,一票否决得分为0。
[0102]
在本实施例中,通过在检测发现存在特殊维度关键词时,直接设置特殊维度关键词对应的分类类别与目标留言数据之间的匹配分数为最低分数,即确定两者之间不匹配,保障了对目标留言数据分类的准确性。
[0103]
进一步地,依据匹配的所述第一关键词对应的关键词权重计算匹配分数的步骤之前,还包括:
[0104]
步骤i,若在第一分类类别中,所有匹配的所述第一关键词中不包含目标维度关键词,则设置所述第一分类类别与所述目标留言数据之间的匹配分数为最低分数,其中,所述第一分类类别为所述关键词库中所有分类类别中的一个分类类别。
[0105]
在本实施例中,若匹配的第一关键词存在多个,可以对每个匹配的第一关键词进行检测。先确定每个匹配的第一关键词在关键词库中所对应的分类类别,并将其作为第一分类类别。
[0106]
可选地,对于每个第一分类类别进行检测,若发现在第一分类类别中,匹配的各个第一关键词中不包含目标维度关键词,则可以设置第一分类类别与目标留言数据之间的匹配分数为最低分数。若在第一分类类别中,匹配的各个第一关键词中包含目标维度关键词,且不存在特殊维度关键词,则可以直接依据第一分类类别中匹配的各个第一关键词对应的关键词权重计算匹配分数。
[0107]
可选地,目标维度关键词可以根据实际场景需求进行设置,比如设置业务维度下的第一关键词为目标维度关键词。
[0108]
可选地,可以在计算匹配分数时,设置一票否决得分。例如,留言m对于分类k的得分=业务得分+主体得分+子主体得分+动作得分+0.5*状态得分
–
一票否决得分。其中,目标
留言数据可以包括留言m。分类k可以是关键词库中的一个分类类别。留言m对于分类k的得分可以是维度得分,包括业务得分、主体得分、子主体得分、动作得分和状态得分。可选地,维度得分可以是依据维度对应的关键词权重进行确定的,比如业务得分可以是依据业务维度对应的关键词权重进行确定的,比如将业务维度对应的关键词权重作为业务得分。对于体得分、子主体得分、动作得分和状态得分也可以按照和业务得分相同的方式进行确定。可选地,在留言m不包含目标维度关键词时,一票否决得分为无穷值。在留言m包含目标维度关键词时,一票否决得分为0。
[0109]
在本实施例中,通过在检测发现在第一分类类别中,匹配的第一关键词中不包含目标维度关键词时,设置第一分类类别与目标留言数据之间的匹配分数为最低分数,即确定两者之间不匹配,保障了对目标留言数据分类的准确性。
[0110]
进一步地,依据最大的匹配分数对应的分类类别对所述目标留言数据进行分类的步骤,包括:
[0111]
步骤x,将最大的匹配分数对应的分类类别作为第一匹配分类类别;
[0112]
步骤y,将所述第一匹配分类类别和预设的分类词库中所有分类类别的最末级分类类别进行匹配,得到第二匹配分类类别,其中,所述分类词库包括依据预设的分类框架设置的不同层级的分类类别;
[0113]
步骤z,确定所述分类词库中所述第二匹配分类类别对应的目标分类类别,将所述目标留言数据分类至所述目标分类类别。
[0114]
在本实施例中,除了可以依据关键词库确定目标留言数据对应的分类类别,还可以构建分类词库,并根据分类词库来确定目标留言数据对应的最终分类类别,并将其作为目标分类类别。
[0115]
可选地,在构建分类词库时,可以依据分类框架来设置多个层级的分类类别。比如设置分类框架为“业务分类-一级分类-二级分类-三级分类-四级分类”五大层次。可选地,若关键词框架由“业务-主体-子主体-动作-状态-剔除词”六个维度构成,则关键词库中每个分类也可以包括这六个维度的关键。
[0116]
可选地,可以设置分类词库中的每个最末级分类类别与关键词库中的各个分类类别一一对应。因此在确定第一匹配分类类别后,就可以直接在分类词库中确定与第一匹配分类类别对应的最末级分类类别,并将其作为第二匹配分类类别。然后将分类词库中与第二匹配分类类别对应的各个层级的分类类别作为目标分类类别,再根据目标分类类别对目标留言数据进行分类。
[0117]
可选地,每个留言数据依据关键词框架构建的关键词库可以如下表2所示。
[0118][0119]
表2
[0120]
可选地,用户可以对分类词库中的分类类型进行调整。依据分类框架构建的分类词库可以如下表3所示。
[0121]
业务分类一级分类二级分类三级分类四级分类贷款还款结清证明 怎么开具结清证明贷款还款结清证明 怎么下载结清证明贷款还款结清证明 可以重复下载结清证明
[0122]
表3
[0123]
在本实施例中,通过结合关键词库和分类词库对目标留言数据进行分类,以确定最终的目标分类类别,从而可以保障对目标留言数据进行分类的准确性。
[0124]
此外,本发明实施例还提出一种数据分类装置,参照图5,数据分类装置包括:
[0125]
构建模块a10,用于依据预设关键词的维度构建关键词框架,以及依据所述关键词框架构建关键词库,其中,所述关键词框架中多个维度所对应的关键词权重不同,所述关键词库包括不同分类类别分别在所述多个维度下的第一关键词;
[0126]
提取模块a20,用于针对待分类的目标留言数据,依据所述关键词框架提取所述目标留言数据在所述多个维度下的第二关键词;
[0127]
计算模块a30,用于针对所述关键词库中每个分类类别,若各所述第一关键词中存在与所述第二关键词匹配的第一关键词,则依据匹配的所述第一关键词对应的关键词权重计算匹配分数;
[0128]
分类模块a40,用于依据最大的匹配分数对应的分类类别对所述目标留言数据进行分类。
[0129]
可选地,构建模块a10,用于:
[0130]
依据所述关键词框架提取预设的分类类别中留言数据在多个维度下的第三关键词;
[0131]
针对每个预设的分类类别,对每个维度下的所述第三关键词进行语义分析,得到语义分析结果,依据所述语义分析结果进行拓展得到第四关键词,将所述第三关键词和所
述第四关键词作为第一关键词;
[0132]
依据每个预设的分类类别分别在多个维度下的第一关键词构建关键词库。
[0133]
可选地,构建模块a10,用于:
[0134]
对预设关键词进行维度划分,得到多个维度,并设置每个所述维度对应的关键词权重,其中,每个所述维度对应的关键词权重不同;
[0135]
依据设置所述关键词权重的维度构建关键词框架。
[0136]
可选地,提取模块a20,用于:
[0137]
针对每个维度下的第二关键词,将所述第二关键词与所述关键词库中每个分类类别分别在第一维度下的第一关键词进行匹配,其中,所述第一维度与所述第二关键词对应的维度相同;
[0138]
依据匹配结果确定与所述第二关键词匹配的第一关键词,并确定所述匹配的第一关键词对应的分类类别。
[0139]
可选地,计算模块a30,用于:
[0140]
若在所有匹配的所述第一关键词中包括特殊维度关键词,则设置所述特殊维度关键词对应的分类类别与所述目标留言数据之间的匹配分数为最低分数,其中,所述特殊维度关键词包括剔除词维度下的第一关键词。
[0141]
可选地,计算模块a30,用于:
[0142]
若在第一分类类别中,所有匹配的所述第一关键词中不包含目标维度关键词,则设置所述第一分类类别与所述目标留言数据之间的匹配分数为最低分数,其中,所述第一分类类别为所述关键词库中所有分类类别中的一个分类类别。
[0143]
可选地,构建模块a10,用于:
[0144]
将最大的匹配分数对应的分类类别作为第一匹配分类类别;
[0145]
将所述第一匹配分类类别和预设的分类词库中所有分类类别的最末级分类类别进行匹配,得到第二匹配分类类别,其中,所述分类词库包括依据预设的分类框架设置的不同层级的分类类别;
[0146]
确定所述分类词库中所述第二匹配分类类别对应的目标分类类别,将所述目标留言数据分类至所述目标分类类别。
[0147]
此外,本发明实施例还提出一种数据分类设备,数据分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据分类程序,所述数据分类程序被所述处理器执行时实现如上所述的数据分类方法的步骤。
[0148]
此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有数据分类程序,所述数据分类程序被处理器执行时实现如上所述的数据分类方法的步骤。
[0149]
本发明还提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的数据分类方法的步骤。
[0150]
本发明数据分类装置、数据分类设备、计算机可读存储介质和计算机程序产品的各实施例,均可参照本发明数据分类方法各个实施例,此处不再赘述。
[0151]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0152]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0153]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0154]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种数据分类方法,其特征在于,所述数据分类方法,包括以下步骤:依据预设关键词的维度构建关键词框架,以及依据所述关键词框架构建关键词库,其中,所述关键词框架中多个维度所对应的关键词权重不同,所述关键词库包括不同分类类别分别在所述多个维度下的第一关键词;针对待分类的目标留言数据,依据所述关键词框架提取所述目标留言数据在所述多个维度下的第二关键词;针对所述关键词库中每个分类类别,若各所述第一关键词中存在与所述第二关键词匹配的第一关键词,则依据匹配的所述第一关键词对应的关键词权重计算匹配分数;依据最大的匹配分数对应的分类类别对所述目标留言数据进行分类。2.如权利要求1所述的数据分类方法,其特征在于,所述依据所述关键词框架构建关键词库的步骤,包括:依据所述关键词框架提取预设的分类类别中留言数据在多个维度下的第三关键词;针对每个预设的分类类别,对每个维度下的所述第三关键词进行语义分析,得到语义分析结果,依据所述语义分析结果进行拓展得到第四关键词,将所述第三关键词和所述第四关键词作为第一关键词;依据每个预设的分类类别分别在多个维度下的第一关键词构建关键词库。3.如权利要求1所述的数据分类方法,其特征在于,所述依据预设关键词的维度构建关键词框架的步骤,包括:对预设关键词进行维度划分,得到多个维度,并设置每个所述维度对应的关键词权重,其中,每个所述维度对应的关键词权重不同;依据设置所述关键词权重的维度构建关键词框架。4.如权利要求1所述的数据分类方法,其特征在于,所述依据所述关键词框架提取所述目标留言数据在所述多个维度下的第二关键词的步骤之后,包括:针对每个维度下的第二关键词,将所述第二关键词与所述关键词库中每个分类类别分别在第一维度下的第一关键词进行匹配,其中,所述第一维度与所述第二关键词对应的维度相同;依据匹配结果确定与所述第二关键词匹配的第一关键词,并确定所述匹配的第一关键词对应的分类类别。5.如权利要求1所述的数据分类方法,其特征在于,所述依据匹配的所述第一关键词对应的关键词权重计算匹配分数的步骤之前,包括:若在所有匹配的所述第一关键词中包括特殊维度关键词,则设置所述特殊维度关键词对应的分类类别与所述目标留言数据之间的匹配分数为最低分数,其中,所述特殊维度关键词包括剔除词维度下的第一关键词。6.如权利要求1所述的数据分类方法,其特征在于,所述依据匹配的所述第一关键词对应的关键词权重计算匹配分数的步骤之前,还包括:若在第一分类类别中,所有匹配的所述第一关键词中不包含目标维度关键词,则设置所述第一分类类别与所述目标留言数据之间的匹配分数为最低分数,其中,所述第一分类类别为所述关键词库中所有分类类别中的一个分类类别。7.如权利要求1-6任一项所述的数据分类方法,其特征在于,所述依据最大的匹配分数
对应的分类类别对所述目标留言数据进行分类的步骤,包括:将最大的匹配分数对应的分类类别作为第一匹配分类类别;将所述第一匹配分类类别和预设的分类词库中所有分类类别的最末级分类类别进行匹配,得到第二匹配分类类别,其中,所述分类词库包括依据预设的分类框架设置的不同层级的分类类别;确定所述分类词库中所述第二匹配分类类别对应的目标分类类别,将所述目标留言数据分类至所述目标分类类别。8.一种数据分类设备,其特征在于,所述数据分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据分类程序,所述数据分类程序被所述处理器执行时实现如权利要求1-7任一项所述的数据分类方法的步骤。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据分类程序,所述数据分类程序被处理器执行时实现如权利要求1-7任一项所述的数据分类方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的数据分类方法的步骤。
技术总结
本发明公开了一种数据分类方法、设备、存储介质及程序产品,其中方法包括:依据预设关键词的维度构建关键词框架,依据关键词框架构建关键词库,关键词框架中多个维度所对应的关键词权重不同,所述关键词库包括不同分类类别分别在所述多个维度下的第一关键词;针对待分类的目标留言数据,依据所述关键词框架提取所述目标留言数据在所述多个维度下的第二关键词;针对所述关键词库中每个分类类别,若各所述第一关键词中存在与所述第二关键词匹配的第一关键词,则依据匹配的所述第一关键词对应的关键词权重计算匹配分数;依据最大的匹配分数对应的分类类别对所述目标留言数据进行分类。本发明提高了对留言数据分类的覆盖率。本发明提高了对留言数据分类的覆盖率。本发明提高了对留言数据分类的覆盖率。
技术研发人员:邓耀明 王立力 黄奕旋 樊萌 马宁 余名佳 刘元敏
受保护的技术使用者:深圳前海微众银行股份有限公司
技术研发日:2023.06.30
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种使用多冷头脉管制冷机的多温区冰箱 下一篇:一种打散脉冲的脉宽调制方法与流程