分类数据的后处理方法、装置、系统和电子装置与流程

未命名 10-08 阅读:85 评论:0


1.本技术涉及数据处理技术领域,特别是涉及分类数据的后处理方法、装置、系统和电子装置。


背景技术:

2.分类算法是最为常用的算法之一,在很多应用场景中起着至关重要的作用,目前分类算法主要有传统机器学习分类和基于神经网络的分类算法。但是不管是哪一类算法,在对给定接近其决策边界的样本进行分类时也会受到影响;例如,对于心拍二分类问题,当经过深度学习模型预测输出的类别概率为[0.5,0.5]时,由于存在两个最大且相同的概率分布,因此此时难以确定心拍数据属于哪个类别,从而导致基于深度学习的分类模型准确性较低。
[0003]
目前针对相关技术中基于深度学习的分类模型准确性低的问题,尚未提出有效的解决方案。


技术实现要素:

[0004]
本技术实施例提供了一种分类数据的后处理方法、装置、系统、电子装置和存储介质,以至少解决相关技术中基于深度学习的分类模型准确性低的问题。
[0005]
第一方面,本技术实施例提供了一种分类数据的后处理方法,所述方法包括:
[0006]
获取待分类数据;
[0007]
将所述待分类数据输入至预先训练的目标分类模型,得到初始分类预测结果;其中,所述目标分类模型是根据训练数据迭代训练生成的;
[0008]
利用所述目标分类模型,确定所述训练数据中的置信度大于预设的置信度阈值的目标样本,并基于所述目标样本获取所述训练数据对应的目标先验分布特征;
[0009]
根据所述目标样本和所述目标先验分布特征对所述初始分类预测结果进行后处理,得到针对所述待分类数据的目标分类预测结果。
[0010]
在其中一些实施例中,所述训练数据包括训练集和测试集;所述基于所述目标样本获取所述训练数据对应的目标先验分布特征,包括:
[0011]
利用所述目标分类模型,获取所述训练集对应的训练集预测结果,以及所述测试集对应的测试集预测结果;
[0012]
根据所述训练集预测结果确定所述训练集的初始类别分布特征,并根据所述测试集预测结果确定所述目标样本,以及所述目标样本的测试类别分布特征;
[0013]
根据所述初始类别分布特征和所述测试类别分布特征计算得到所述目标先验分布特征。
[0014]
在其中一些实施例中,所述根据所述测试集预测结果确定所述目标样本,包括:
[0015]
遍历所述测试集中的所有测试样本;在遍历到当前的测试样本时,根据所述当前的测试样本的样本预测结果计算得到当前熵值,根据所述当前熵值和所述置信度阈值之间
的比较结果确定当前的测试样本是否为所述目标样本;
[0016]
遍历下一个测试样本,重复上述计算步骤,直至所有所述测试样本遍历完毕,并确定所述测试样本中的所有所述目标样本。
[0017]
在其中一些实施例中,所述根据所述初始类别分布特征和所述测试类别分布特征计算得到所述目标先验分布特征,包括:
[0018]
根据所有所述目标样本对应的熵值计算得到目标熵值信息;
[0019]
确定所述置信度阈值和所述目标熵值信息之间的关联关系,并基于所述关联关系分别为所述初始类别分布特征和所述测试类别分布特征分配权重值;
[0020]
基于所述权重值对所述初始类别分布特征和所述测试类别分布特征进行融合处理,得到所述目标先验分布特征。
[0021]
在其中一些实施例中,所述根据所述目标样本和所述目标先验分布特征对所述初始分类预测结果进行后处理,得到针对所述待分类数据的目标分类预测结果,包括:
[0022]
获取所述目标样本的测试类别分布特征;
[0023]
将所有所述目标样本对应的所述测试类别分布特征进行拼接处理,生成概率矩阵,并根据所述概率矩阵,以及所述初始分类预测结果生成待处理矩阵;
[0024]
获取预设的迭代约束条件;
[0025]
基于所述迭代约束条件,根据所述目标先验分布特征对所述待处理矩阵进行归一化迭代处理,得到后处理矩阵,并根据所述后处理矩阵得到所述目标分类预测结果。
[0026]
在其中一些实施例中,所述基于所述迭代约束条件,根据所述目标先验分布特征对所述待处理结果进行归一化迭代处理,得到后处理矩阵,包括:
[0027]
在进行当前循环迭代的情况下,对所述待处理矩阵中的列矩阵进行归一化后处理,得到当前的列归一化矩阵,并根据所述目标先验分布特征对所述初始后处理矩阵中的行矩阵进行归一化后处理,得到当前的行归一化矩阵;
[0028]
进入下一次循环搜索,重复上述归一化步骤以将所述当前的行归一化矩阵进行交替归一化迭代处理,直至达到所述迭代约束条件,并得到所述后处理矩阵。
[0029]
在其中一些实施例中,所述方法还包括:
[0030]
确定所述训练数据的类别标签;
[0031]
将所述训练数据输入至初始分类模型,输出初始训练预测结果;根据所述类别标签和所述初始训练预测结果计算得到损失函数结果,并将所述损失函数结果的梯度反向传输至所述初始分类模型,生成训练完备的所述目标分类模型。
[0032]
第二方面,本技术实施例提供了一种分类数据的后处理装置,所述装置包括:获取模块、初始预测模块、先验分布模块和后处理模块;
[0033]
所述获取模块,用于获取待分类数据;
[0034]
所述初始预测模块,用于将所述待分类数据输入至预先训练的目标分类模型,得到初始分类预测结果;其中,所述目标分类模型是根据训练数据迭代训练生成的;
[0035]
所述先验分布模块,用于利用所述目标分类模型,确定所述训练数据中的置信度大于预设的置信度阈值的目标样本,并基于所述目标样本获取所述训练数据对应的目标先验分布特征;
[0036]
所述后处理模块,用于根据所述目标样本和所述目标先验分布特征对所述初始分
类预测结果进行后处理,得到针对所述待分类数据的目标分类预测结果。
[0037]
第三方面,本技术实施例提供了一种分类数据的后处理系统,所述系统包括:终端设备和服务器设备;
[0038]
所述终端设备用于获取待分类数据;
[0039]
所述服务器设备用于接收所述待分类数据,并执行如上述第一方面所述的分类数据的后处理方法。
[0040]
第四方面,本技术实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的分类数据的后处理方法。
[0041]
相比于相关技术,本技术实施例提供的分类数据的后处理方法、装置、系统和电子装置,通过获取待分类数据;将该待分类数据输入至预先训练的目标分类模型,得到初始分类预测结果;其中,该目标分类模型是根据训练数据迭代训练生成的;利用该目标分类模型,确定该训练数据中的置信度大于预设的置信度阈值的目标样本,并基于该目标样本获取该训练数据对应的目标先验分布特征;根据该目标样本和该目标先验分布特征对该初始分类预测结果进行后处理,得到针对该待分类数据的目标分类预测结果,因此能够使得数据分布更加接近高置信度的样本数据,有效避免了分类模型在接近其决策边界的数据进行分类时容易出错的现象,从而解决了基于深度学习的分类模型准确性低的问题,实现了精确、高效的数据分类。
[0042]
本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
[0043]
此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0044]
图1是根据本技术实施例的一种分类数据的后处理方法的应用环境图;
[0045]
图2是根据本技术实施例的一种分类数据的后处理方法的流程图;
[0046]
图3是根据本技术实施例的另一种分类数据的后处理方法的流程图;
[0047]
图4是根据本技术实施例的一种心拍数据的示意图;
[0048]
图5是根据本技术实施例的一种分类数据的后处理装置的结构框图;
[0049]
图6是根据本技术实施例的一种计算机设备内部的结构图。
具体实施方式
[0050]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
resolution network,简称为hrnet)或双向长短期记忆网络(bi-directional long short-term memory,简称为bilstm)模型等神经网络模型。则在将上述待分类数据输入至目标分类模型后,可以由目标分类模型针对待分类数据的类别属性进行预测处理,以输出上述初始分类预测结果。
[0059]
步骤s230,利用该目标分类模型,确定该训练数据中的置信度大于预设的置信度阈值的目标样本,并基于该目标样本获取该训练数据对应的目标先验分布特征。
[0060]
其中,上述置信度阈值可以由工作人员结合实际情况预先进行设置。具体地,在基于训练数据对上述目标分类模型进行训练之后,可以通过模型输出的针对训练数据的训练预测结果确定该训练数据中置信度大于置信度阈值的样本,即所确定的样本为高置信度样本,并基于高置信度的目标样本对应的测试结果确定上述目标先验分布特征,以便提高先验分布的准确性。
[0061]
步骤s240,根据该目标样本和该目标先验分布特征对该初始分类预测结果进行后处理,得到针对该待分类数据的目标分类预测结果。
[0062]
在通过上述步骤,对初始分类预测结果进行矩阵交替归一化处理后,能够将初始分类预测结果统一到目标先验分布特征对应的范围下,从而使得待分类数据的预测结果能够更靠近置信度高的样本的类别分布特征,有利于提高分类数据的准确性。
[0063]
通过上述步骤s210至步骤s240,通过获取待分类数据的初始分类预测结果之后,利用目标分类模型对训练数据进行预测得到的目标先验分布特征,以及所确定的训练数据中的高置信度样本,对初始分类预测结果进行后处理,最终得到待分类数据的目标分类预测结果,因此能够使得数据分布更加接近高置信度的样本数据,有效避免了分类模型在接近其决策边界的数据进行分类时容易出错的现象,从而解决了基于深度学习的分类模型准确性低的问题,实现了精确、高效的分类数据后处理方法。
[0064]
在其中一些实施例中,提供了一种分类数据的后处理方法,图3是根据本技术实施例的另一种分类数据的后处理方法的流程图,如图3所示,上述训练数据包括训练集和测试集,该流程包括图2所示的所有步骤,此外还包括如下步骤:
[0065]
步骤s310,利用该目标分类模型,获取该训练集对应的训练集预测结果,以及该测试集对应的测试集预测结果。
[0066]
其中,在利用上述训练数据对目标分类模型进行训练之后,可以获取并保存针对各训练集的类别信息的训练集预测结果,以及针对各测试集的类别信息的测试集预测结果。
[0067]
步骤s320,根据该训练集预测结果确定该训练集的初始类别分布特征,并根据该测试集预测结果确定该目标样本,以及该目标样本的测试类别分布特征。
[0068]
上述初始类别分布特征是基于训练集预测结果确定的训练集中各个类别的比例数据,例如,针对手势图像数据的训练集,通过上述分类模型对其进行预测处理得到包含握拳手势和摊掌手势两个类别,且比例为1:9的训练集预测结果,则基于该训练集预测结果可以得到以矩阵形式存储的初始类别分布特征,该初始类别分布特征可以表示为[0.1,0],[0,0.9]。类似地,上述测试类别分布特征是针对测试集中置信度较高的目标样本的各个类别的比例数据,在此不再赘述。
[0069]
步骤s330,根据该初始类别分布特征和该测试类别分布特征计算得到该目标先验
分布特征。
[0070]
其中,在确定初始类别分布特征和测试类别分布特征之后,可以对两类类别分布特征进行相加融合处理,得到调整后的目标先验分布特征。
[0071]
通过上述步骤s310至步骤s330,通过综合分析训练集的初始类别分布特征,以及测试集的测试类别分布特征,并得到动态调整后的目标先验分布特征,从而避免了只考虑单一数据集的类别分布导致的先验分布特征可靠性较低的问题,有效提高了基于深度学习的分类模型的准确性和可靠性。
[0072]
在其中一些实施例中,上述根据该测试集预测结果确定该目标样本,还包括如下步骤:
[0073]
步骤s321,遍历该测试集中的所有测试样本;在遍历到当前的测试样本时,根据该当前的测试样本的样本预测结果计算得到当前熵值,根据该当前熵值和该置信度阈值之间的比较结果确定当前的测试样本是否为该目标样本。
[0074]
具体地,对上述测试集中的所有测试样本进行遍历计算,得到每个测试样本对应的当前熵值;进一步地,该当前熵值可以通过香农熵计算公式得到,如下述公式1、2所示:
[0075][0076][0077]
上述公式中,表示选取top-k个类别中第i个概率值归一化之后的概率,pi表示模型对第i个类别的概率预测值,且i为正整数;h表示熵值,通过选取top-k个类别的预测概率计算得到,k表示选取的类别数量。则通过上述实施例可以计算得到用于衡量当前测试样本的置信度指标的当前熵值结果,并将预设的置信度阈值设置为相应的当前熵值阈值,将其当前熵值结果与该当前熵值阈值进行差值或比值计算,得到比较结果。若该当前熵值大于当前熵值阈值,说明当前的测试样本置信度较高,相应的结论也相对可靠,则此时可以选取该当前测试样本为目标样本;若该当前熵值小于或等于当前熵值阈值,说明当前的测试样本为低置信度样本,则此时可以放弃该当前测试样本,并遍历下一个测试样本。进一步地,以测试样本数据为心拍数据为例,设置自适应调整窗的时间长度为t,若当前t时间窗内部的样本数据熵值小于或等于当前熵值阈值,则将该样本数据视为高置信度样本,若样本数据熵值大于当前置信度阈值,则视为低置信度样本。
[0078]
步骤s322,遍历下一个测试样本,重复上述计算步骤,直至所有该测试样本遍历完毕,并确定该测试样本中的所有该目标样本。
[0079]
具体地,遍历所有测试样本并统计各样本是否属于高置信度样本,并统计所有测试样本中高置信度的目标样本数量;若目标样本数量小于或等于预设预值,则无需进行先验样本自适应调整,直接利用基础先验分布对初始分类预测数据进行后处理即可;若目标样本数量大于上述预设阈值,则通过上述方法实施例,基于两类类别分布特征确定目标先验分布特征;其中,该预设阈值可以是由工作人员预先设定好的,用于评估样本数量大小的某数值。
[0080]
通过上述步骤s321至步骤s323,对测试集中的所有测试样本进行遍历检索以确定所有高置信度的目标样本,有利于提高样本的可靠性,进而进一步提高了基于深度学习的分类模型的准确性和可靠性。
[0081]
在其中一些实施例中,上述根据该初始类别分布特征和该测试类别分布特征计算得到该目标先验分布特征,还包括如下步骤:
[0082]
步骤s331,根据所有该目标样本对应的熵值计算得到目标熵值信息。
[0083]
其中,上述各目标样本的熵值可以由上述公式1、公式2计算得到;则在确定目标样本之后,可以统计所有目标样本对应的熵值并计算得到熵值平均值等用于指示目标样本熵值特征的结果,即得到上述目标熵值信息。
[0084]
步骤s332,确定该置信度阈值和该目标熵值信息之间的关联关系,并基于该关联关系分别为该初始类别分布特征和该测试类别分布特征分配权重值。
[0085]
步骤s333,基于该权重值对该初始类别分布特征和该测试类别分布特征进行融合处理,得到该目标先验分布特征。
[0086]
在上述步骤s332至步骤s333中,可以通过计算置信度阈值和目标熵值信息之间的比值或差值等结构,以确定该置信度阈值和目标熵值信息之间的关联关系。具体地,可以计算置信度阈值与目标熵值信息间的差值,基于该差值与置信度阈值间的比值为测试类别分布特征分配权重值,并基于目标熵值信息与置信度阈值间的比值为初始类别分布特征分配权重值,使得目标熵值信息取值越小时,说明测试样本的置信度越高,则为测试类别分布特征分配的权重系数越高,且为初始类别分布特征分配的权重系数越低,如下述公式3所示:
[0087][0088]
上述公式中,∧
目标
用于表示目标先验分布特征;thred用于表示熵值阈值;用于表示高置信度的目标样本的平均熵值;∧
q’用于表示测试类别分布特征;∧q用于表示初始类别分布特征。进一步地,对上述公式3进行整理,可以得到下述公式:
[0089][0090]
通过上述步骤s331至步骤s333,基于置信度阈值以及目标样本的目标熵值信息分别为初始类别分布特征、测试类别分布特征分配权重值,并基于该权重值对两类类别分布特征进行加权融合处理,从而能够综合测试集样本和训练集样本对基础先验分布动态调整,同时使得调整后的先验分布特征更加贴近高置信度样本数据,有利于进一步提高先验分布的准确性,进而提高数据分类的准确性。
[0091]
在其中一些实施例中,上述根据该目标样本和该目标先验分布特征对该初始分类预测结果进行后处理,得到针对该待分类数据的目标分类预测结果,还包括如下步骤:
[0092]
步骤s241,获取该目标样本的测试类别分布特征。
[0093]
步骤s242,将所有该目标样本对应的该测试类别分布特征进行拼接处理,生成概率矩阵,并根据该概率矩阵,以及该初始分类预测结果生成待处理矩阵。
[0094]
其中,上述概率矩阵是指由上述测试样本中高置信度的目标样本的类别分布特征拼接生成的矩阵,该概率矩阵的大小为n
×
m,n表示目标样本数量,m表示各样本的类别数量。然后将该概率矩阵,以及以矩阵形式存储的初始分类预测结果拼接成上述待处理矩阵,如下述公式5所示:
[0095][0096]
上述公式中,l0用于表示待处理矩阵,a0用于表示概率矩阵,b0用于表示初始分类预测结果对应的矩阵,为b0的转置矩阵。
[0097]
步骤s243,获取预设的迭代约束条件。
[0098]
其中,上述迭代约束条件是指用于限定矩阵归一化迭代时长或次数的条件信息。进一步地,该迭代约束条件可以预先设置为控制归一化循环迭代d次的条件信息,优选地,d可以默认设定为3;或者,该迭代约束条件也可以预先设置为控制归一化循环迭代时长为t,或将该迭代约束条件设置为归一化结果趋于收敛等条件。
[0099]
步骤s244,基于该迭代约束条件,根据该目标先验分布特征对该待处理矩阵进行归一化迭代处理,得到后处理矩阵,并根据该后处理矩阵得到该目标分类预测结果。
[0100]
具体地,对上述待处理矩阵归一化迭代处理,直至达到上述迭代约束条件,进而将该矩阵统一到目标先验分布特征的范围下,得到后处理矩阵,并基于后处理矩阵中与初始分类预测结果对应的矩阵块得到新的样本预测概率,即得到上述目标分类预测结果。
[0101]
通过上述步骤s241至步骤s244,通过概率矩阵和初始分类预测结果生成待处理矩阵,并对待处理矩阵进行归一化迭代处理,从而利用多个高置信度样本与初始分类预测结果组成样本集能够对应于先验分布的分布矩阵,使得待处理矩阵统一到先验分布特征范围下,有效提高了分类模型的准确性和可靠性。
[0102]
在其中一些实施例中,上述基于该迭代约束条件,根据该目标先验分布特征对该待处理结果进行归一化迭代处理,得到后处理矩阵,还包括如下步骤:
[0103]
在进行当前循环迭代的情况下,对该待处理矩阵中的列矩阵进行归一化后处理,得到当前的列归一化矩阵,并根据该目标先验分布特征对该初始后处理矩阵中的行矩阵进行归一化后处理,得到当前的行归一化矩阵。
[0104]
进入下一次循环搜索,重复上述归一化步骤以将该当前的行归一化矩阵进行归一化迭代处理,直至达到该迭代约束条件,并得到该后处理矩阵。
[0105]
具体地,在当前循环迭代下,对上述待处理矩阵中进行列矩阵归一化处理,如下述公式6、公式7所示:
[0106][0107][0108]
上述公式中,a表示幂级数,用于控制b0的收敛速度,本实施例中默认值为1,则是l
d-1
的幂级数;e表示单位列向量;d用于表示将一个列向量转换为对角矩阵,∧s表示当前列向量对角化后的列向量对角矩阵;sd用于表示当前的列归一化矩阵。则通过上述公式得到当前的列归一化矩阵后,继续对其进行行归一化处理,如下述公式8、公式9所示:
[0109]

l
=d(sd∧
目标
e)公式8
[0110][0111]
上述公式中,∧
l
表示当前行向量对角化后的行向量对角矩阵;ld用于表示当前的
行归一化矩阵;由于当前循环未结束,则继续进入下一次循环迭代处理,并通过上述公式6至公式9继续对当前的行归一化矩阵依次进行列归一化处理和行归一化处理,直至达到迭代约束条件,得到上述后处理矩阵,如下述公式10所示:
[0112][0113]
上述公式中,ld用于表示后处理矩阵,ad用于表示交替归一化后的概率矩阵,bd用于表示交替归一化后的预测结果,即根据目标先验分布特征得到的新的样本预测概率,其中概率最大的类别即为上述目标分类预测结果。
[0114]
通过上述实施例,对待处理矩阵进行行列交替归一化处理,从而将矩阵各元素统一到目标先验分布特征对应的范围下,有利于进一步提高基于深度学习的分类模型的准确性。
[0115]
在其中一些实施例中,上述分类数据的后处理方法还包括如下步骤:
[0116]
步骤s201,确定该训练数据的类别标签。
[0117]
其中,上述类别标签是指上述训练数据对应的已知的类别信息。进一步地,在采集到一定数量的已知类别信息的基础数据作为上述训练数据后,可以对训练数据进行预处理以及划分数据集。以上述训练数据为待训练心拍数据为例,数据预处理方式可以为:通过三次样条采样算法将不同的待预处理心拍数据转换成相同采样频率,如统一为250hz采样频率,得到数据格式统一的待训练心拍数据;再将格式统一后的待训练心拍数据进行滤波处理,例如可以采用0.05hz~100hz的巴特沃斯带通进行滤波处理得到滤波心拍数据;对滤波心拍数据采用pan-tompkins检测算法等具有自适应性的双阈值qrs波检测算法进行r波检测,并根据检测到的r波位置,计算每个r波距离前后的心拍距离,如图4所示,可以以r波位置为中心,向前取0.25s,向后取0.45s,将这一时间长度内的心拍数据作为单心拍样本数据以实现数据分割,得到预处理后的多个心拍样本数据。则在对心拍数据进行预处理得到心拍样本数据之后,可以以个人为单位将各心拍数据按一定比例划分为训练集、验证集和测试集,该数据集之间的划分比例可以设置为训练集:验证集:测试集=8:1:1;通过训练集计算心拍数据的归一化参数,并应用在所有的数据集,如下述公式11所示:
[0118][0119]
上述公式中,x为心拍数据,x

为归一化后的待训练心拍数据,μ为均值,σ为方差;则通过上述步骤将心拍数据进行预处理和数据集划分,能够有效提高后续模型训练的效率和准确性。
[0120]
步骤s202,将该训练数据输入至初始分类模型,输出初始训练预测结果;根据该类别标签和该初始训练预测结果计算得到损失函数结果,并将该损失函数结果的梯度反向传输至该初始分类模型,生成训练完备的该目标分类模型。
[0121]
其中,将上述训练数据中的训练集输入至初始分类模型进行训练,同时输出训练集对应的初始训练预测结果,基于交叉熵损失函数对初始训练预测结果和上述类别标签进行计算得到上述损失函数结果,并基于损失函数结果对初始分类模型进行迭代训练,直至满足迭代训练次数或该分类模型收敛,得到目标分类模型;同时将学习率设置为0.001,通过设置学习率的初始值和衰减方式实现了学习率衰减,在训练到达一定程度后,使用小的
学习率来提高精度,有利于训练模型更快收敛,能够有效优化分类模型训练的算法。进一步地,在利用上述划分出来的训练集对模型进行训练之后,还可以利用验证集对模型进行验证以调整参数,得到优化后的目标分类模型,并通过测试集评估该模型的性能。
[0122]
通过上述步骤s201至步骤s202,通过初始分类模型输出的初始训练预测结果计算得到损失函数结果,并基于损失函数结果对初始分类模型进行迭代训练以得到优化后的目标分类模型,从而有利于提高目标分类模型输出数据的准确性,进一步提高了数据分类的准确性。
[0123]
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0124]
本实施例还提供了一种分类数据的后处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0125]
图5是根据本技术实施例的一种分类数据的后处理装置的结构框图,如图5所示,该装置包括:获取模块52、初始预测模块54、先验分布模块56和后处理模块58;
[0126]
该获取模块52,用于获取待分类数据;该初始预测模块54,用于将该待分类数据输入至预先训练的目标分类模型,得到初始分类预测结果;其中,该目标分类模型是根据训练数据迭代训练生成的;该先验分布模块56,用于利用该目标分类模型,确定该训练数据中的置信度大于预设的置信度阈值的目标样本,并基于该目标样本获取该训练数据对应的目标先验分布特征;该后处理模块58,用于根据该目标样本和该目标先验分布特征对该初始分类预测结果进行后处理,得到针对该待分类数据的目标分类预测结果。
[0127]
通过上述实施例,在初始预测模块54获取待分类数据的初始分类预测结果之后,先验分布模块56利用目标分类模型对训练数据进行预测得到的目标先验分布特征,以及所确定的训练数据中的高置信度样本,并由后处理模块58对初始分类预测结果进行后处理,最终得到待分类数据的目标分类预测结果,因此能够使得数据分布更加接近高置信度的样本数据,有效避免了分类模型在接近其决策边界的数据进行分类时容易出错的现象,从而解决了基于深度学习的分类模型准确性低的问题,实现了精确、高效的分类数据后处理装置。
[0128]
在其中一些实施例中,上述训练数据包括训练集和测试集;上述先验分布模块56还用于利用该目标分类模型,获取该训练集对应的训练集预测结果,以及该测试集对应的测试集预测结果;该先验分布模块56根据该训练集预测结果确定该训练集的初始类别分布特征,并根据该测试集预测结果确定该目标样本,以及该目标样本的测试类别分布特征;该先验分布模块56根据该初始类别分布特征和该测试类别分布特征计算得到该目标先验分布特征。
[0129]
在其中一些实施例中,上述先验分布模块56还用于遍历该测试集中的所有测试样本;该先验分布模块56在遍历到当前的测试样本时,根据该当前的测试样本的样本预测结果计算得到当前熵值,根据该当前熵值和该置信度阈值之间的比较结果确定当前的测试样本是否为该目标样本;该先验分布模块56遍历下一个测试样本,重复以上步骤,直至所有该
测试样本遍历完毕,并确定该测试样本中的所有该目标样本。
[0130]
在其中一些实施例中,上述先验分布模块56还用于根据所有该目标样本对应的熵值计算得到目标熵值信息;该先验分布模块56获取该置信度阈值,确定该置信度阈值和该目标熵值信息之间的关联关系,并基于该关联关系分别为该初始类别分布特征和该测试类别分布特征分配权重值;该先验分布模块56基于该权重值对该初始类别分布特征和该测试类别分布特征进行融合处理,得到该目标先验分布特征。
[0131]
在其中一些实施例中,上述后处理模块58还用于获取该目标样本的测试类别分布特征;该后处理模块58将所有该目标样本对应的该测试类别分布特征进行拼接处理,生成概率矩阵,并根据该概率矩阵,以及该初始分类预测结果生成待处理矩阵;该后处理模块58获取预设的迭代约束条件;该后处理模块58基于该迭代约束条件,根据该目标先验分布特征对该待处理矩阵进行归一化迭代处理,得到后处理矩阵,并根据该后处理矩阵得到该目标分类预测结果。
[0132]
在其中一些实施例中,上述后处理模块58还用于在进行当前循环迭代的情况下,对该待处理矩阵中的列矩阵进行归一化后处理,得到当前的列归一化矩阵,并根据该目标先验分布特征对该初始后处理矩阵中的行矩阵进行归一化后处理,得到当前的行归一化矩阵;该后处理模块58进入下一次循环搜索,重复上述步骤以将该当前的行归一化矩阵进行归一化迭代处理,直至达到该迭代约束条件,并得到该后处理矩阵。
[0133]
在其中一些实施例中,上述分类数据的后处理装置还包括训练模块;该训练模块,用于确定该训练数据的类别标签;该训练模块将该训练数据输入至初始分类模型,输出初始训练预测结果;根据该类别标签和该初始训练预测结果计算得到损失函数结果,并将该损失函数结果的梯度反向传输至该初始分类模型,生成训练完备的该目标分类模型。
[0134]
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0135]
本实施例还提供了一种分类数据的后处理系统,该系统包括:终端设备和服务器设备;该终端设备用于获取待分类数据;该服务器设备用于接收该待分类数据,并执行上述任一项方法实施例中的步骤。进一步地,该服务器设备和该终端设备之间可以通过传输设备进行数据传输;在一个实施例中,传输设备可以包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯;在另一实施例中,传输设备可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
[0136]
通过上述实施例,服务器设备获取待分类数据的初始分类预测结果之后,利用目标分类模型对训练数据进行预测得到的目标先验分布特征,以及所确定的训练数据中的高置信度样本,对初始分类预测结果进行后处理,最终得到待分类数据的目标分类预测结果,因此能够使得数据分布更加接近高置信度的样本数据,有效避免了分类模型在接近其决策边界的数据进行分类时容易出错的现象,从而解决了基于深度学习的分类模型准确性低的问题,实现了精确、高效的分类数据后处理系统。
[0137]
在其中一些实施例中,提供了一种计算机设备,该计算机设备可以是服务器,图6
是根据本技术实施例的一种计算机设备内部的结构图,如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标分类预测结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述分类数据的后处理方法。
[0138]
本领域技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0139]
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0140]
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
[0141]
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
[0142]
s1,获取待分类数据。
[0143]
s2,将该待分类数据输入至预先训练的目标分类模型,得到初始分类预测结果;其中,该目标分类模型是根据训练数据迭代训练生成的。
[0144]
s3,利用该目标分类模型,确定该训练数据中的置信度大于预设的置信度阈值的目标样本,并基于该目标样本获取该训练数据对应的目标先验分布特征。
[0145]
s4,根据该目标样本和该目标先验分布特征对该初始分类预测结果进行后处理,得到针对该待分类数据的目标分类预测结果。
[0146]
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0147]
另外,结合上述实施例中的分类数据的后处理方法,本技术实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种分类数据的后处理方法。
[0148]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0149]
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,
只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0150]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:
1.一种分类数据的后处理方法,其特征在于,所述方法包括:获取待分类数据;将所述待分类数据输入至预先训练的目标分类模型,得到初始分类预测结果;其中,所述目标分类模型是根据训练数据迭代训练生成的;利用所述目标分类模型,确定所述训练数据中的置信度大于预设的置信度阈值的目标样本,并基于所述目标样本获取所述训练数据对应的目标先验分布特征;根据所述目标样本和所述目标先验分布特征对所述初始分类预测结果进行后处理,得到针对所述待分类数据的目标分类预测结果。2.根据权利要求1所述的后处理方法,其特征在于,所述训练数据包括训练集和测试集;所述基于所述目标样本获取所述训练数据对应的目标先验分布特征,包括:利用所述目标分类模型,获取所述训练集对应的训练集预测结果,以及所述测试集对应的测试集预测结果;根据所述训练集预测结果确定所述训练集的初始类别分布特征,并根据所述测试集预测结果确定所述目标样本,以及所述目标样本的测试类别分布特征;根据所述初始类别分布特征和所述测试类别分布特征计算得到所述目标先验分布特征。3.根据权利要求2所述的后处理方法,其特征在于,所述根据所述测试集预测结果确定所述目标样本,包括:遍历所述测试集中的所有测试样本;在遍历到当前的测试样本时,根据所述当前的测试样本的样本预测结果计算得到当前熵值,根据所述当前熵值和所述置信度阈值之间的比较结果确定当前的测试样本是否为所述目标样本;遍历下一个测试样本,重复上述计算步骤,直至所有所述测试样本遍历完毕,并确定所述测试样本中的所有所述目标样本。4.根据权利要求2所述的后处理方法,其特征在于,所述根据所述初始类别分布特征和所述测试类别分布特征计算得到所述目标先验分布特征,包括:根据所有所述目标样本对应的熵值计算得到目标熵值信息;确定所述置信度阈值和所述目标熵值信息之间的关联关系,并基于所述关联关系分别为所述初始类别分布特征和所述测试类别分布特征分配权重值;基于所述权重值对所述初始类别分布特征和所述测试类别分布特征进行融合处理,得到所述目标先验分布特征。5.根据权利要求1所述的后处理方法,其特征在于,所述根据所述目标样本和所述目标先验分布特征对所述初始分类预测结果进行后处理,得到针对所述待分类数据的目标分类预测结果,包括:获取所述目标样本的测试类别分布特征;将所有所述目标样本对应的所述测试类别分布特征进行拼接处理,生成概率矩阵,并根据所述概率矩阵,以及所述初始分类预测结果生成待处理矩阵;获取预设的迭代约束条件;基于所述迭代约束条件,根据所述目标先验分布特征对所述待处理矩阵进行归一化迭代处理,得到后处理矩阵,并根据所述后处理矩阵得到所述目标分类预测结果。
6.根据权利要求5所述的后处理方法,其特征在于,所述基于所述迭代约束条件,根据所述目标先验分布特征对所述待处理结果进行归一化迭代处理,得到后处理矩阵,包括:在进行当前循环迭代的情况下,对所述待处理矩阵中的列矩阵进行归一化后处理,得到当前的列归一化矩阵,并根据所述目标先验分布特征对所述初始后处理矩阵中的行矩阵进行归一化后处理,得到当前的行归一化矩阵;进入下一次循环搜索,重复上述归一化步骤以将所述当前的行归一化矩阵进行交替归一化迭代处理,直至达到所述迭代约束条件,并得到所述后处理矩阵。7.根据权利要求1至6任一项所述的后处理方法,其特征在于,所述方法还包括:确定所述训练数据的类别标签;将所述训练数据输入至初始分类模型,输出初始训练预测结果;根据所述类别标签和所述初始训练预测结果计算得到损失函数结果,并将所述损失函数结果的梯度反向传输至所述初始分类模型,生成训练完备的所述目标分类模型。8.一种分类数据的后处理装置,其特征在于,所述装置包括:获取模块、初始预测模块、先验分布模块和后处理模块;所述获取模块,用于获取待分类数据;所述初始预测模块,用于将所述待分类数据输入至预先训练的目标分类模型,得到初始分类预测结果;其中,所述目标分类模型是根据训练数据迭代训练生成的;所述先验分布模块,用于利用所述目标分类模型,确定所述训练数据中的置信度大于预设的置信度阈值的目标样本,并基于所述目标样本获取所述训练数据对应的目标先验分布特征;所述后处理模块,用于根据所述目标样本和所述目标先验分布特征对所述初始分类预测结果进行后处理,得到针对所述待分类数据的目标分类预测结果。9.一种分类数据的后处理系统,其特征在于,所述系统包括:终端设备和服务器设备;所述终端设备用于获取待分类数据;所述服务器设备用于接收所述待分类数据,并执行如权利要求1至7中任一项所述的分类数据的后处理方法。10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的分类数据的后处理方法。

技术总结
本申请涉及一种分类数据的后处理方法、装置、系统和电子装置,其中,该分类数据的后处理方法包括:获取待分类数据;将该待分类数据输入至预先训练的目标分类模型,得到初始分类预测结果;其中,该目标分类模型是根据训练数据迭代训练生成的;利用该目标分类模型,确定该训练数据中的置信度大于预设的置信度阈值的目标样本,并基于该目标样本获取该训练数据对应的目标先验分布特征;根据该目标样本和该目标先验分布特征对该初始分类预测结果进行后处理,得到针对该待分类数据的目标分类预测结果。通过本申请,解决了基于深度学习的分类模型准确性低的问题,实现了精确、高效的数据分类。类。类。


技术研发人员:刘洪涛 苏毅 刘宇巍 李文佳
受保护的技术使用者:深圳市联影高端医疗装备创新研究院
技术研发日:2023.07.06
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐