模型训练方法、文本分类方法及相关装置与流程

未命名 09-23 阅读:52 评论:0


1.本公开涉及机器学习领域,特别涉及模型训练方法、文本分类方法及相关装置、电子设备、计算机可存储介质。


背景技术:

2.在城市治理的场景中,广大市民、政府网格员等可以通过政府服务热线、综治网格、数字城管等平台上报城市中发生各类事件。通常,一个市级平台每日可记录高达几千个上报事件的文本信息,这些上报事件中,往往存在各种类别的事件,如交通领域、教育领域、食品安全领域。政府部门需要对这些不同类别下的事件的文本内容进行分析汇总,形成各个类别的事件,方便政府部门进一步处理。
3.相关技术中,获取诸如城市治理等短文本场景中标注了类别的文本内容,作为训练数据,并利用所获取的训练数据,训练文本分类模型。


技术实现要素:

4.相关技术中,诸如城市治理场景中的文本内容通常属于短文本,即文本长度小于长度阈值,而短文本具有语义稀疏性的特点,利用短文本直接训练文本分类模型,使得模型对短文本语义的理解能力难以提升,从而使得短文本场景下的文本分类准确性较差。
5.针对上述技术问题,本公开提出了一种解决方案,可以提高文本分类的准确性。
6.根据本公开的第一方面,提供了一种模型训练方法,包括:获取当前训练文本,其中,所述当前训练文本的文本长度小于长度阈值;确定与所述当前训练文本关联的参考训练文本,其中,所述参考训练文本包括所述当前训练文本中的当前实体、与所述当前实体关联的参考实体、以及所述当前实体与所述参考实体之间的关联关系信息;确定与所述当前训练文本对应的目标训练文本,其中,所述目标训练文本包括所述当前训练文本和所述参考训练文本;利用所述目标训练文本,训练文本分类模型。
7.在一些实施例中,所述当前训练文本存在多个,多个当前训练文本的数量小于数量阈值,所述目标训练文本存在多个,利用所述目标训练文本,训练文本分类模型包括:获取与所述多个目标训练文本对应的多个标注类别,其中,每个当前训练文本对应的目标训练文本对应所述每个当前训练文本的标注类别;划分与所述多个标注类别中的至少一个对应的目标训练文本,得到第一训练样本集和第二训练样本集,其中,第一训练样本集中的目标训练文本对应的标注类别与第二训练样本集中的目标训练文本对应的标注类别相同;根据所述第一训练样本集和所述第二训练样本集,对所述文本分类模型进行元学习训练。
8.在一些实施例中,所述标注类别存在多个,所述文本分类模型包括特征提取子模型和分类子模型,对所述文本分类模型进行元学习训练包括:利用所述特征提取子模型,确定所述多个目标训练文本的文本特征;根据所述第一训练样本集中与每个标注类别对应的目标训练文本的文本特征,确定所述每个标注类别的特征中心;根据所述第二训练样本集中的目标训练文本的文本特征与多个标注类别的多个特征中心,利用所述分类子模型,确
定所述第二训练样本集中的目标训练文本属于与所述目标训练文本对应的标注类别的概率;根据所述第二训练样本集中的目标训练文本属于与所述目标训练文本对应的标注类别的概率,训练所述文本分类模型。
9.在一些实施例中,所述特征提取子模型包括基于transformer的编码器和多层感知器,根据所述第二训练样本集中的目标训练文本属于与所述目标训练文本对应的标注类别的概率,训练所述文本分类模型包括:根据所述第二训练样本集中的目标训练文本属于与所述目标训练文本对应的标注类别的概率,确定损失值;根据所述损失值,训练所述多层感知器和所述分类子模型,或者训练所述基于transformer的编码器、多层感知器和所述分类子模型。例如,分类子模型包括多层感知器。
10.在一些实施例中,用于训练文本分类模型的训练数据包括多个训练任务,不同训练任务对应不同的第一训练样本集和第二训练样本集,对所述文本分类模型进行元学习训练包括:在每次训练迭代中,对所述多个训练任务进行采样,得到所述每次训练迭代所使用的至少一个训练任务;根据所述每次训练迭代所使用的每个训练任务对应的第一训练样本集,确定所述文本分类模型的输出,作为第一输出;根据所述每次训练迭代所使用的每个训练任务对应的第一输出和标注类别,以最小化与每个第一输出对应的第一损失值为目标,更新所述分类模型的原始模型参数,得到中间模型参数;根据所述每次训练迭代所使用的每个训练任务对应的第二训练样本集,确定基于所述中间模型参数的文本分类模型的输出,作为第二输出;根据所述每次训练迭代所使用的每个训练任务对应的第二输出标注类别,以最小化与多个第二输出对应的第二损失值的和为目标,更新所述分类模型的原始模型参数,得到目标模型参数。
11.在一些实施例中,所述文本分类模型包括基于transformer的编码器、多层感知器和分类子模型,所述原始模型参数包括多层感知器和分类子模型中的模型参数,或者所述原始模型参数包括基于transformer的编码器、多层感知器和分类子模型中的模型参数。
12.在一些实施例中,划分与所述多个标注类别中的至少一个对应的目标训练文本,得到第一训练样本集和第二训练样本集包括:从所述多个标注类别中,抽取与一个训练任务对应的至少一个标注类别;执行多次抽取的操作,得到多个训练任务中与每个训练任务对应至少一个标注类别,不同训练任务对应的至少一个标注类别不完全相同;划分与所述每个训练任务对应的至少一个标注类别所对应的目标训练文本,得到与所述每个训练任务对应的第一训练样本集和第二训练样本集。
13.在一些实施例中,确定与所述当前训练文本关联的参考训练文本包括:获取参考语义网络,其中,所述参考语义网络包括节点和连接节点之间的边,节点表示实体,边的权重表示实体之间的关联度,边的描述信息包括实体之间的关联关系信息;从参考语义网络中,获取与所述当前实体关联的实体,作为候选实体;根据与所述当前实体与所述候选实体对应的权重,选择权重大于权重阈值的候选实体,作为所述参考实体;根据所述当前实体、所述参考实体以及所述当前实体与所述参考实体之间的关联关系信息,确定所述参考训练文本。
14.根据本公开第二方面,提供了一种文本分类方法,包括:获取当前待处理文本,其中,所述当前待处理文本的文本长度小于长度阈值;确定与所述当前待处理文本关联的参考待处理文本,其中,所述参考待处理文本包括所述当前待处理文本中的当前实体、与所述
当前实体关联的参考实体、以及所述当前实体与所述参考实体之间的关联关系信息;确定目标待处理文本,其中,所述目标待处理文本包括所述当前待处理文本和所述参考待处理文本;根据所述目标待处理文本,利用文本分类模型,对所述当前待处理文本进行文本分类,得到所述当前待处理文本所属的类别。
15.在一些实施例中,确定与所述当前待处理文本关联的参考待处理文本包括:获取参考语义网络,其中,所述参考语义网络包括节点和连接节点之间的边,节点表示实体,边的权重表示实体之间的关联度,边的描述信息包括实体之间的关联关系信息;从参考语义网络中,获取与所述当前实体关联的实体,作为候选实体;根据与所述当前实体与所述候选实体对应的权重,选择权重大于权重阈值的候选实体,作为所述参考实体;根据所述当前实体、所述参考实体以及所述当前实体与所述参考实体之间的关联关系信息,确定所述参考待处理文本。
16.在一些实施例中,所述文本分类模型包括特征提取子模型和分类子模型,对所述当前待处理文本进行文本分类包括:利用所述特征提取子模型,确定所述目标待处理文本的文本特征;根据所述目标待处理文本的文本特征,利用所述分类子模型,对所述当前待处理文本进行文本分类。
17.在一些实施例中,所述特征提取子模型包括基于transformer的编码器和多层感知器,利用所述特征提取子模型,确定所述目标待处理文本的文本特征包括:利用所述基于transformer的编码器,对所述目标待处理文本进行编码,得到所述目标待处理文本的编码特征;利用所述多层感知器,对所述目标待处理文本的编码特征进行特征学习,得到所述目标待处理文本的文本特征。
18.在一些实施例中,所述文本分类模型通过上述任一实施例所述的模型训练方法得到。
19.根据本公开第三方面,提供了一种模型训练装置,包括:获取模块,被配置为获取当前训练文本,其中,所述当前训练文本的文本长度小于长度阈值;第一确定模块,被配置为确定与所述当前训练文本关联的参考训练文本,其中,所述参考训练文本包括所述当前训练文本中的当前实体、与所述当前实体关联的参考实体、以及所述当前实体与所述参考实体之间的关联关系信息;第二确定模块,被配置为确定与所述当前训练文本对应的目标训练文本,其中,所述目标训练文本包括所述当前训练文本和所述参考训练文本;训练模块,被配置为利用所述目标训练文本,训练文本分类模型。
20.根据本公开第四方面,提供了一种文本分类装置,包括:获取模块,被配置为获取当前待处理文本,其中,所述当前待处理文本的文本长度小于长度阈值;第一确定模块,被配置为确定与所述当前待处理文本关联的参考待处理文本,其中,所述参考待处理文本包括所述当前待处理文本中的当前实体、与所述当前实体关联的参考实体、以及所述当前实体与所述参考实体之间的关联关系信息;第二确定模块,被配置为确定目标待处理文本,其中,所述目标待处理文本包括所述当前待处理文本和所述参考待处理文本;文本分类模块,被配置为根据所述目标待处理文本,利用文本分类模型,对所述当前待处理文本进行文本分类,得到所述当前待处理文本所属的类别。
21.根据本公开第五方面,提供了一种电子设备,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行上述任一实施例所
述的模型训练方法或文本分类方法。
22.根据本公开的第六方面,提供了一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述任一实施例所述的模型训练方法或文本分类方法。
23.在上述实施例中,可以提高文本分类的准确性。
附图说明
24.构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
25.参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
26.图1是示出根据本公开一些实施例的模型训练方法的流程图;
27.图2是示出根据本公开一些实施例的模型训练过程的示意图;
28.图3是示出根据本公开一些实施例的特征提取子模型的处理过程的示意图;
29.图4是示出根据本公开一些实施例的文本分类方法的流程图;
30.图5是示出根据本公开一些实施例的模型训练装置的框图;
31.图6是示出根据本公开一些实施例的文本分类装置的框图;
32.图7是示出根据本公开一些实施例的电子设备的框图;
33.图8是示出用于实现本公开一些实施例的计算机系统的框图。
具体实施方式
34.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
35.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
36.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
37.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
38.在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
39.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
40.图1是示出根据本公开一些实施例的模型训练方法的流程图。
41.如图1所示,模型训练方法包括:步骤s110,获取当前训练文本,其中,当前训练文本的文本长度小于长度阈值;步骤s120,确定与当前训练文本关联的参考训练文本,其中,参考训练文本包括当前训练文本中的当前实体、与当前实体关联的参考实体、以及当前实体与参考实体之间的关联关系信息;步骤s130,确定与当前训练文本对应的目标训练文本,其中,目标训练文本包括当前训练文本和参考训练文本;和步骤s140,利用目标训练文本,训练文本分类模型。例如,模型训练方法由模型训练装置执行。
42.在上述实施例中,对于与文本长度小于长度阈值的短文本相关的场景,利用当前训练文本中的当前实体、与当前实体关联的参考实体、以及当前实体与参考实体之间的关联关系信息,确定参考训练文本,并利用参考训练文本对文本长度小于长度阈值的当前训练文本进行扩充,丰富了当前训练文本的的语义信息,利用包括当前训练文本和参考训练文本的目标训练文本,对文本分类模型进行训练,可以提高模型学习或短文本语义的能力,从而提高短文本场景下文本分类的准确性。
43.在步骤s110中,获取当前训练文本,其中,当前训练文本的文本长度小于长度阈值。例如,在城市治理场景中,当前训练文本为居民上报的原始短文本信息。
44.在步骤s120中,确定与当前训练文本关联的参考训练文本,其中,参考训练文本包括当前训练文本中的当前实体、与当前实体关联的参考实体、以及当前实体与参考实体之间的关联关系信息。在一些实施例中,实体(entity)包括单词或词组,例如人名、地名、组织名等名词或名词组都可以称为实体。
45.在一些实施例中,可以先获取与当前实体相关的语义三元组,语义三元组包括当前训练文本中的当前实体、与当前实体关联的参考实体、以及当前实体与参考实体之间的关联关系信息,进而根据语义三元组,确定参考训练文本,作为当前实体的外部知识。例如,语义三元组可以表示为(当前实体,参考实体,关联关系信息)。
46.在一些实施例中,可以通过如下方式确定与当前训练文本关联的参考训练文本包括如下步骤。
47.首先,获取参考语义网络,其中,参考语义网络包括节点和连接节点之间的边,节点表示实体,边的权重表示实体之间的关联度,边的描述信息包括实体之间的关联关系信息。例如,参考语义网络包括但不限于conceptnet。语义网络conceptnet是一个免费开源、广泛使用的语义网络,也是一个常识知识库,其中,每一个节点代表一个概念,一般是名词或者名词词组的形式,每一条带权重的边表示节点之间的语义关系,权重表示节点之间的语义可信度。
48.其次,从参考语义网络中,获取与当前实体关联的实体,作为候选实体。
49.然后,根据与当前实体与候选实体对应的权重,选择权重大于权重阈值的候选实体,作为参考实体。在一些实施例中,可以选取权重最高的10个候选实体,作为参考实体。
50.最后,根据当前实体、参考实体以及当前实体与参考实体之间的关联关系信息,确定参考训练文本。
51.图2是示出根据本公开一些实施例的模型训练过程的示意图。
52.如图2所示,对于当前训练文本x“detective conan is a japanese manga an anime series”,以当前实体“conan”为例,通过从参考语义网络中进行知识提取,即检索参考语义网络中的节点,可以检索到以“conan”为中心的34种语义三元组(图2中未示出)。从34种语义三元组中,选取权重最高的10种语义三元组作为实体“conan”的外部知识(图2中仅示出一部分),构成参考训练文本。例如,以所选取的语义三元组包括(conan,inference,iscapableof)、(conan,detective,isa)、(conan,clues,desires)、(conan,sherlock holmes,desires)等为例,参考训练文本x

为“conan is capable of inference conan is a detective conan desires clues conan desires sherlock holmes
……”
。当前训练文本x中的除“conan”以外的当前实体也可以上述方式确定相应的参考训练文本。
53.在上述实施例中,通过筛选权重大于权重阈值的候选实体作为参考实体,可以避免引入相关性较低的参考实体和关联关系信息,提高模型训练的准确性,提高短文本场景下文本分类的准确性。
54.在步骤s130中,确定与当前训练文本对应的目标训练文本,其中,目标训练文本包括当前训练文本和参考训练文本。
55.在一些实施例中,在当前训练文本包括多个当前实体的情况下,目标训练文本包括当前训练文本和多个当前实体对应的参考训练文本。例如,将当前训练文本和多个当前实体对应的参考训练文本进行拼接,作为目标训练文本。
56.在步骤s140中,利用目标训练文本,训练文本分类模型。
57.在一些实施例中,当前训练文本存在多个,多个当前训练文本的数量小于数量阈值,目标训练文本也存在多个。这种情况下,利用目标训练文本,训练文本分类模型包括如下步骤1)~步骤3)。
58.在步骤1)中,获取与多个目标训练文本对应的多个标注类别。每个当前训练文本对应的目标训练文本对应每个当前训练文本的标注类别。例如,多个目标训练文本d
train
构成训练数据集,其对应m个标注类别。
59.在步骤2)中,划分与多个标注类别中的至少一个对应的目标训练文本,得到第一训练样本集和第二训练样本集,其中,第一训练样本集中的目标训练文本对应的标注类别与第二训练样本集中的目标训练文本对应的标注类别相同。
60.在一些实施例中,可以通过如下方式划分与多个标注类别中的至少一个对应的目标训练文本,得到第一训练样本集和第二训练样本集。
61.首先,从多个标注类别中,抽取与一个训练任务对应的至少一个标注类别。例如,对于训练数据集d
train
,以第i个训练任务ti为例,从m个标注类别中随机抽取q个标注类别,组成类别集合c。
62.然后,执行多次抽取的操作,得到多个训练任务中与每个训练任务对应至少一个标注类别,不同训练任务对应的至少一个标注类别不完全相同。
63.最后,划分与每个训练任务对应的至少一个标注类别所对应的目标训练文本,得到与每个训练任务对应的第一训练样本集和第二训练样本集。例如,以小样本场景为例,第一训练样本集也称为支持集,第二训练样本集也称为查询集。通过多训练任务的元学习训练,可以提高模型的泛化能力,使得文本分类模型可以适用各种各样的文本分类。
64.例如,以n-way-k-shot训练策略为例,对于训练任务ti,针对每个标注类别c∈c,抽取k个目标训练文本作为该训练任务ti对应的第一训练样本集中的一部分,抽取n个目标训练文本ti作为该训练任务对应的第二训练样本集的一部分。对于类别集合c,第一训练样本集包括q
×
k个目标训练文本,第二训练样本集包括q
×
n个目标训练文本。
65.在步骤3)中,根据第一训练样本集和第二训练样本集,对文本分类模型进行元学习训练。
66.在一些实施例中,以标注类别存在多个且文本分类模型包括特征提取子模型和分类子模型为例,参考原型网络(prototypical network),对文本分类模型进行元学习训练包括如下步骤。
67.首先,利用特征提取子模型,确定多个目标训练文本的文本特征。
68.在一些实施例中,以特征提取子模型包括基于transformer的编码器和多层感知器(multilayer perceptron,mlp)为例,参考图2,目标训练文本依次经过基于transformer的编码器和多层感知器的处理,得到目标训练文本的文本特征。例如,基于transformer的编码器包括但不限于bert(bidirectional encoder representation from transformers,基于transformer的双向编码器表征)模型。bert模型可以将离散的单词、词或词组编码成连续的向量表示。多层感知器可以进一步对目标训练文本进行特征学习,得到文本特征。
69.图3是示出根据本公开一些实施例的特征提取子模型的处理过程的示意图。
70.如图3所示,目标训练文本被输入到bert模型中,得到目标训练文本的编码特征。目标训练文本的编码特征被输入到多层感知器中,得到目标训练文本的文本表征。
71.其次,根据第一训练样本集中与每个标注类别对应的目标训练文本的文本特征,确定每个标注类别的特征中心。例如,将图2的支持集对应的文本特征的均值,确定为标注类别的特征中心(也称为原型)。
72.然后,根据第二训练样本集中的目标训练文本的文本特征与多个标注类别的多个特征中心,利用分类子模型,确定第二训练样本集中的目标训练文本属于与目标训练文本对应的标注类别的概率。
73.例如,将图2的查询集对应的文本特征,输入到分类子模型中,得到查询集中的目标训练文本属于与目标训练文本对应的标注类别的概率。
74.在一些实施例中,分类子模型依据查询集中的目标训练文本的文本特征与该目标训练文本对应的标注类别的特征中心之间的距离,确定前述概率。
75.例如,查询集中的目标训练文本属于与该目标训练文本对应的标注类别的概率表示为其中,f(x_x

)为该查询集中的目标训练文本x_x

经过特征提取子模型后的文本特征表示,d(,)是表示距离的函数,本公开采用欧式距离,pc表示标注类别c的特征中心。
76.可理解为目标训练文本x_x

与标注类别c之间的相似度,为目标训练文本x_x

与标注类别集合c中的每个标注类别的相似度的和。分子除以分母(范围在0~1之间)可以理解为目标训练文本x_x

被分类到标注类别c的概率。
77.最后,根据第二训练样本集中的目标训练文本属于与目标训练文本对应的标注类别的概率,训练文本分类模型。
78.在一些实施例中,特征提取子模型包括基于transformer的编码器和多层感知器。这种情况下,可以通过如下方式实现根据第二训练样本集中的目标训练文本属于与目标训练文本对应的标注类别的概率,训练文本分类模型。
79.首先,根据第二训练样本集中的目标训练文本属于与目标训练文本对应的标注类别的概率,确定损失值。例如,假设查询集中目标训练文本的真实类别为k

,那么损失函数为为基于该损失函数,可以采用梯度下降的方法不断迭代优化模型的参数,最终得到一个在d
train
上训练好的文本分类模型。在一些实施例中,还可以在与d
train
的标注类别完全不同的测试数据集d
t
es
t
上进行验证。
80.然后,根据损失值,训练多层感知器和分类子模型,或者训练基于transformer的编码器、多层感知器和分类子模型。例如,基于transformer的编码器为预训练模型,在元学习训练的过程中,训练多层感知器和分类子模型。又例如,基于transformer的编码器为预训练模型,在元学习训练的过程中,训练多层感知器和分类子模型,并对基于transformer的编码器进行微调。
81.上述实施例,通过度量学习不断优化类别的特征中心,最终模型收敛,输出所有类别的特征中心,可用于新样本的分类。
82.在一些实施例中,用于训练文本分类模型的训练数据包括多个训练任务,不同训练任务对应不同的第一训练样本集和第二训练样本集。这种情况下,以maml(model-agnostic meta-learning,模型无关的元学习)框架为例,对文本分类模型进行元学习训练包括如下步骤。
83.首先,在每次训练迭代中,对多个训练任务进行采样,得到每次训练迭代所使用的至少一个训练任务。例如,以概率分布p(t),对于任务集合中的任务进行采样。假如选择5(这个参数可根据实际场景自行设定)个训练任务作为一个训练迭代的批次,该训练迭代中的训练任务集合表示为t={t1,t2,t3,t4,t5}。
84.其次,根据每次训练迭代所使用的每个训练任务对应的第一训练样本集,确定文本分类模型的输出,作为第一输出。
85.在一些实施例中,参考图2,获取每次训练迭代所使用的每个训练任务对应的第一训练样本集(支持集)中的目标训练文本,将该目标训练文本输入到特征提取子模型中,得到支持集中目标训练文本的文本特征,进而输入到分类子模型中,得到第一输出。
86.再次,根据每次训练迭代所使用的每个训练任务对应的第一输出和标注类别,以最小化与每个第一输出对应的第一损失值为目标,更新分类模型的原始模型参数,得到中间模型参数。
87.在一些实施例中,根据每个训练任务,可以在第一训练样本集上计算出损失函数的第一损失值,通过梯度下降来最小化这个损失,找到使得损失函数最小的参数,即:其中,θ
′i表示的是对于训练任务ti的最优化参数,θ为文本分类模型的原始模型参数,lti(fθ)表示第一损失值,表示损失函数的梯度,α为超参。
88.对于训练任务集合t={t1,t2,t3,t4,t5},可以得到第一次梯度更新后的中间模型参数集合θ

={θ
′1,θ
′2,θ
′3,θ
′4,θ
′5}。
89.然后,根据每次训练迭代所使用的每个训练任务对应的第二训练样本集,确定基于中间模型参数的文本分类模型的输出,作为第二输出。
90.在一些实施例中,参考图2,获取每次训练迭代所使用的每个训练任务对应的第二训练样本集(查询集)中的目标训练文本,将该目标训练文本输入到特征提取子模型中,得到查询集中目标训练文本的文本特征,进而输入到分类子模型中,得到第二输出。
91.最后,根据每次训练迭代所使用的每个训练任务对应的第二输出和标注类别,以最小化与多个第二输出对应的第二损失值的和为目标,更新分类模型的原始模型参数,得到目标模型参数。
92.在一些实施例中,文本分类模型使用第二训练样本集最小化参数,原始模型参数θ也因此移动到了一个相对最优的位置,这个过程可表示β为超参。
93.在一些实施例中,文本分类模型包括基于transformer的编码器、多层感知器和分类子模型。这种情况下,原始模型参数包括多层感知器和分类子模型中的模型参数,即例如基于transformer的编码器为预训练模型,在元学习训练过程中训练多层感知器和分类子模型。又或者,原始模型参数包括基于transformer的编码器、多层感知器和分类子模型中的模型参数,即例如基于transformer的编码器为预训练模型,在元学习训练过程中不仅训练多层感知器和分类子模型,还对基于transformer的编码器进行微调。
94.上述实施例,通过优化神经网络参数的得到一个分类器,输出就是带参数的神经网络,可以用这个神经网络直接输出新样本的分类概率。
95.上述实施例可以应用与政务平台,还可以应用于其他短文本场景,尤其是具有少量标签训练数据的短文本场景。例如,政务平台收到一条新上报事件1的文本内容为:“经开区明兴路12号,违规把公共空间圈起来做了一个房间,严重影响了进出通道的流畅性,希望有关部门进行处理”;新上报事件2的文本内容为“经开区荣华街道,部分摊贩违法占用道路,严重影响了道路的流畅性,请有关部门及时处理”;新上报事件3的文本内容为“经开区林肯公园小区物业占用道路,严重影响了进出道路的流畅性,请有关部门及时处理”;尽管“市容市貌”的类别下训练数据稀少(一般少于10个),但是通过训练好的本公开的文本分类模型,能够将以上上报的事件文本信息都标注为“市容市貌”的类别。
96.对于一些短文本场景,通常仅存在少量带标签的数据。这种情况下,若采用传统的机器学习或者深度学习方法,容易造成模型过拟合。如果依赖业务员人为标注数以万计的事件的类别,成本较高,且效率较低。因此,在短文本具有少量标签数据的情况下,亟需提高模型训练的准确性,从而提高文本分类的准确性。在上述实施例中,对于训练文本的数量小于数量阈值的小样本场景中,结合短文本扩充,利用元学习框架进行模型训练,可以提高具有少量带标签的训练数据的短文本场景下模型训练的准确性,从而提高具有少量带标签数据的短文本场景下的文本分类模型的准确性。
97.图4是示出根据本公开一些实施例的文本分类方法的流程图。
98.如图4所示,文本分类方法包括步骤s410~步骤s440。例如,文本分类方法由文本分类装置执行。
99.在步骤s410中,获取当前待处理文本,其中,当前待处理文本的文本长度小于长度阈值。
100.在步骤s420中,确定与当前待处理文本关联的参考待处理文本,其中,参考待处理文本包括当前待处理文本中的当前实体、与当前实体关联的参考实体、以及当前实体与参考实体之间的关联关系信息。
101.在一些实施例中,确定与当前待处理文本关联的参考待处理文本包括如下步骤。
102.首先,获取参考语义网络,其中,参考语义网络包括节点和连接节点之间的边,节点表示实体,边的权重表示实体之间的关联度,边的描述信息包括实体之间的关联关系信息。
103.其次,从参考语义网络中,获取与当前实体关联的实体,作为候选实体。
104.然后,根据与当前实体与候选实体对应的权重,选择权重大于权重阈值的候选实体,作为参考实体。
105.最后,根据当前实体、参考实体以及当前实体与参考实体之间的关联关系信息,确定参考待处理文本。
106.在步骤s430中,确定目标待处理文本,其中,目标待处理文本包括当前待处理文本和参考待处理文本。
107.在步骤s440中,根据目标待处理文本,利用文本分类模型,对当前待处理文本进行文本分类,得到当前待处理文本所属的类别。例如,文本分类模型通过本公开任意实施例中的模型训练方法得到。
108.在一些实施例中,文本分类模型包括特征提取子模型和分类子模型,对当前待处理文本进行文本分类包括:利用特征提取子模型,确定目标待处理文本的文本特征;根据目标待处理文本的文本特征,利用分类子模型,对当前待处理文本进行文本分类。
109.在一些实施例中,特征提取子模型包括基于transformer的编码器和多层感知器,利用特征提取子模型,确定目标待处理文本的文本特征包括:利用基于transformer的编码器,对目标待处理文本进行编码,得到目标待处理文本的编码特征;利用多层感知器,对目标待处理文本的编码特征进行特征学习,得到目标待处理文本的文本特征。
110.在上述实施例中,在文本分类过程中,对短文本进行扩充,丰富了短文本的语义信息,提高文本分类的准确性。
111.文本分类方法中与模型训练方法相关的内容,可以参考模型训练方法的实施例,此处不再赘述。
112.图5是示出根据本公开一些实施例的模型训练装置的框图。
113.如图5所示,模型训练装置5包括获取模块51、第一确定模块52、第二确定模块53和训练模块54。
114.获取模块51被配置为获取当前训练文本,其中,当前训练文本的文本长度小于长度阈值,例如执行如图1所示的步骤s110。
115.第一确定模块52被配置为确定与当前训练文本关联的参考训练文本,其中,参考训练文本包括当前训练文本中的当前实体、与当前实体关联的参考实体、以及当前实体与参考实体之间的关联关系信息,例如执行如图1所示的步骤s120。
116.第二确定模块53被配置为确定与当前训练文本对应的目标训练文本,其中,目标训练文本包括当前训练文本和参考训练文本,例如执行如图1所示的步骤s130。
117.训练模块54被配置为利用目标训练文本,训练文本分类模型,例如执行如图1所示的步骤s140。
118.图6是示出根据本公开一些实施例的文本分类装置的框图。
119.如图6所示,文本分类装置6包括获取模块61、第一确定模块62、第二确定模块63和文本分类模块64。
120.获取模块61被配置为获取当前待处理文本,其中,当前待处理文本的文本长度小于长度阈值,例如执行如图4所示的步骤s410。
121.第一确定模块62被配置为确定与当前待处理文本关联的参考待处理文本,其中,参考待处理文本包括当前待处理文本中的当前实体、与当前实体关联的参考实体、以及当
前实体与参考实体之间的关联关系信息,例如执行如图4所示的步骤s420。
122.第二确定模块63被配置为确定目标待处理文本,其中,目标待处理文本包括当前待处理文本和参考待处理文本,例如执行如图4所示的步骤s430。
123.文本分类模块64被配置为根据目标待处理文本,利用文本分类模型,对当前待处理文本进行文本分类,得到当前待处理文本所属的类别,例如执行如图4所示的步骤s440。
124.图7是示出根据本公开一些实施例的电子设备的框图。
125.如图7所示,电子设备7包括存储器71;以及耦接至该存储器71的处理器72。存储器71用于存储执行模型训练方法或文本分类方法对应实施例的指令。处理器72被配置为基于存储在存储器71中的指令,执行本公开中任意一些实施例中的模型训练方法或文本分类方法。
126.图8是示出用于实现本公开一些实施例的计算机系统的框图。
127.如图8所示,计算机系统80可以通用计算设备的形式表现。计算机系统80包括存储器810、处理器820和连接不同系统组件的总线800。
128.存储器810例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(boot loader)以及其他程序等。系统存储器可以包括易失性存储介质,例如随机存取存储器(ram)和/或高速缓存存储器。非易失性存储介质例如存储有执行模型训练方法或文本分类方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。
129.处理器820可以用通用处理器、数字信号处理器(dsp)、应用专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地,诸如判断模块和确定模块的每个模块,可以通过中央处理器(cpu)运行存储器中执行相应步骤的指令来实现,也可以通过执行相应步骤的专用电路来实现。
130.总线800可以使用多种总线结构中的任意总线结构。例如,总线结构包括但不限于工业标准体系结构(isa)总线、微通道体系结构(mca)总线、外围组件互连(pci)总线。
131.计算机系统80还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830、840、850以及存储器810和处理器820之间可以通过总线800连接。输入输出接口830可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口850为软盘、u盘、sd卡等外部存储设备提供连接接口。
132.这里,参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个框以及各框的组合,都可以由计算机可读程序指令实现。
133.这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器,以产生一个机器,使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。
134.这些计算机可读程序指令也可存储在计算机可读存储器中,这些指令使得计算机以特定方式工作,从而产生一个制造品,包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。
135.本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
136.通过上述实施例中的模型训练方法、文本分类方法及相关装置、电子设备、计算机可存储介质,可以提高文本分类的准确性。
137.至此,已经详细描述了根据本公开的模型训练方法、文本分类方法及相关装置、电子设备、计算机可存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

技术特征:
1.一种模型训练方法,包括:获取当前训练文本,其中,所述当前训练文本的文本长度小于长度阈值;确定与所述当前训练文本关联的参考训练文本,其中,所述参考训练文本包括所述当前训练文本中的当前实体、与所述当前实体关联的参考实体、以及所述当前实体与所述参考实体之间的关联关系信息;确定与所述当前训练文本对应的目标训练文本,其中,所述目标训练文本包括所述当前训练文本和所述参考训练文本;利用所述目标训练文本,训练文本分类模型。2.根据权利要求1所述的模型训练方法,其中,所述当前训练文本存在多个,多个当前训练文本的数量小于数量阈值,所述目标训练文本存在多个,利用所述目标训练文本,训练文本分类模型包括:获取与所述多个目标训练文本对应的多个标注类别,其中,每个当前训练文本对应的目标训练文本对应所述每个当前训练文本的标注类别;划分与所述多个标注类别中的至少一个对应的目标训练文本,得到第一训练样本集和第二训练样本集,其中,第一训练样本集中的目标训练文本对应的标注类别与第二训练样本集中的目标训练文本对应的标注类别相同;根据所述第一训练样本集和所述第二训练样本集,对所述文本分类模型进行元学习训练。3.根据权利要求2所述的模型训练方法,其中,所述标注类别存在多个,所述文本分类模型包括特征提取子模型和分类子模型,对所述文本分类模型进行元学习训练包括:利用所述特征提取子模型,确定所述多个目标训练文本的文本特征;根据所述第一训练样本集中与每个标注类别对应的目标训练文本的文本特征,确定所述每个标注类别的特征中心;根据所述第二训练样本集中的目标训练文本的文本特征与多个标注类别的多个特征中心,利用所述分类子模型,确定所述第二训练样本集中的目标训练文本属于与所述目标训练文本对应的标注类别的概率;根据所述第二训练样本集中的目标训练文本属于与所述目标训练文本对应的标注类别的概率,训练所述文本分类模型。4.根据权利要求3所述的模型训练方法,其中,所述特征提取子模型包括基于transformer的编码器和多层感知器,根据所述第二训练样本集中的目标训练文本属于与所述目标训练文本对应的标注类别的概率,训练所述文本分类模型包括:根据所述第二训练样本集中的目标训练文本属于与所述目标训练文本对应的标注类别的概率,确定损失值;根据所述损失值,训练所述多层感知器和所述分类子模型,或者训练所述基于transformer的编码器、多层感知器和所述分类子模型。5.根据权利要求2所述的模型训练方法,其中,用于训练文本分类模型的训练数据包括多个训练任务,不同训练任务对应不同的第一训练样本集和第二训练样本集,对所述文本分类模型进行元学习训练包括:在每次训练迭代中,对所述多个训练任务进行采样,得到所述每次训练迭代所使用的
至少一个训练任务;根据所述每次训练迭代所使用的每个训练任务对应的第一训练样本集,确定所述文本分类模型的输出,作为第一输出;根据所述每次训练迭代所使用的每个训练任务对应的第一输出和标注类别,以最小化与每个第一输出对应的第一损失值为目标,更新所述分类模型的原始模型参数,得到中间模型参数;根据所述每次训练迭代所使用的每个训练任务对应的第二训练样本集,确定基于所述中间模型参数的文本分类模型的输出,作为第二输出;根据所述每次训练迭代所使用的每个训练任务对应的第二输出标注类别,以最小化与多个第二输出对应的第二损失值的和为目标,更新所述分类模型的原始模型参数,得到目标模型参数。6.根据权利要求5所述的模型训练方法,其中,所述文本分类模型包括基于transformer的编码器、多层感知器和分类子模型,所述原始模型参数包括多层感知器和分类子模型中的模型参数,或者所述原始模型参数包括基于transformer的编码器、多层感知器和分类子模型中的模型参数。7.根据权利要求2-6任一项所述的模型训练方法,其中,划分与所述多个标注类别中的至少一个对应的目标训练文本,得到第一训练样本集和第二训练样本集包括:从所述多个标注类别中,抽取与一个训练任务对应的至少一个标注类别;执行多次抽取的操作,得到多个训练任务中与每个训练任务对应至少一个标注类别,不同训练任务对应的至少一个标注类别不完全相同;划分与所述每个训练任务对应的至少一个标注类别所对应的目标训练文本,得到与所述每个训练任务对应的第一训练样本集和第二训练样本集。8.根据权利要求1-6任一项所述的模型训练方法,其中,确定与所述当前训练文本关联的参考训练文本包括:获取参考语义网络,其中,所述参考语义网络包括节点和连接节点之间的边,节点表示实体,边的权重表示实体之间的关联度,边的描述信息包括实体之间的关联关系信息;从参考语义网络中,获取与所述当前实体关联的实体,作为候选实体;根据与所述当前实体与所述候选实体对应的权重,选择权重大于权重阈值的候选实体,作为所述参考实体;根据所述当前实体、所述参考实体以及所述当前实体与所述参考实体之间的关联关系信息,确定所述参考训练文本。9.一种文本分类方法,包括:获取当前待处理文本,其中,所述当前待处理文本的文本长度小于长度阈值;确定与所述当前待处理文本关联的参考待处理文本,其中,所述参考待处理文本包括所述当前待处理文本中的当前实体、与所述当前实体关联的参考实体、以及所述当前实体与所述参考实体之间的关联关系信息;确定目标待处理文本,其中,所述目标待处理文本包括所述当前待处理文本和所述参考待处理文本;根据所述目标待处理文本,利用文本分类模型,对所述当前待处理文本进行文本分类,
得到所述当前待处理文本所属的类别。10.根据权利要求9所述的文本分类方法,其中,确定与所述当前待处理文本关联的参考待处理文本包括:获取参考语义网络,其中,所述参考语义网络包括节点和连接节点之间的边,节点表示实体,边的权重表示实体之间的关联度,边的描述信息包括实体之间的关联关系信息;从参考语义网络中,获取与所述当前实体关联的实体,作为候选实体;根据与所述当前实体与所述候选实体对应的权重,选择权重大于权重阈值的候选实体,作为所述参考实体;根据所述当前实体、所述参考实体以及所述当前实体与所述参考实体之间的关联关系信息,确定所述参考待处理文本。11.根据权利要求9或10所述的文本分类方法,其中,所述文本分类模型包括特征提取子模型和分类子模型,对所述当前待处理文本进行文本分类包括:利用所述特征提取子模型,确定所述目标待处理文本的文本特征;根据所述目标待处理文本的文本特征,利用所述分类子模型,对所述当前待处理文本进行文本分类。12.根据权利要求11所述的文本分类方法,其中,所述特征提取子模型包括基于transformer的编码器和多层感知器,利用所述特征提取子模型,确定所述目标待处理文本的文本特征包括:利用所述基于transformer的编码器,对所述目标待处理文本进行编码,得到所述目标待处理文本的编码特征;利用所述多层感知器,对所述目标待处理文本的编码特征进行特征学习,得到所述目标待处理文本的文本特征。13.根据权利要求9所述的文本分类方法,其中,所述文本分类模型通过如权利要求1-6任一项所述的模型训练方法得到。14.一种模型训练装置,包括:获取模块,被配置为获取当前训练文本,其中,所述当前训练文本的文本长度小于长度阈值;第一确定模块,被配置为确定与所述当前训练文本关联的参考训练文本,其中,所述参考训练文本包括所述当前训练文本中的当前实体、与所述当前实体关联的参考实体、以及所述当前实体与所述参考实体之间的关联关系信息;第二确定模块,被配置为确定与所述当前训练文本对应的目标训练文本,其中,所述目标训练文本包括所述当前训练文本和所述参考训练文本;训练模块,被配置为利用所述目标训练文本,训练文本分类模型。15.一种文本分类装置,包括:获取模块,被配置为获取当前待处理文本,其中,所述当前待处理文本的文本长度小于长度阈值;第一确定模块,被配置为确定与所述当前待处理文本关联的参考待处理文本,其中,所述参考待处理文本包括所述当前待处理文本中的当前实体、与所述当前实体关联的参考实体、以及所述当前实体与所述参考实体之间的关联关系信息;
第二确定模块,被配置为确定目标待处理文本,其中,所述目标待处理文本包括所述当前待处理文本和所述参考待处理文本;文本分类模块,被配置为根据所述目标待处理文本,利用文本分类模型,对所述当前待处理文本进行文本分类,得到所述当前待处理文本所属的类别。16.一种电子设备,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行如权利要求1至8任一项所述的模型训练方法或如权利要求9至13所述的文本分类方法。17.一种计算机可存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至8任一项所述的模型训练方法或如权利要求9至13所述的文本分类方法。

技术总结
本公开涉及模型训练方法、文本分类方法及相关装置、电子设备、计算机可存储介质,涉及机器学习领域。模型训练方法包括:获取当前训练文本,其中,所述当前训练文本的文本长度小于长度阈值;确定与所述当前训练文本关联的参考训练文本,其中,所述参考训练文本包括所述当前训练文本中的当前实体、与所述当前实体关联的参考实体、以及所述当前实体与所述参考实体之间的关联关系信息;确定与所述当前训练文本对应的目标训练文本,其中,所述目标训练文本包括所述当前训练文本和所述参考训练文本;利用所述目标训练文本,训练文本分类模型。根据本公开,可以提高文本分类的准确性。可以提高文本分类的准确性。可以提高文本分类的准确性。


技术研发人员:郭瑾瑾 黄智超 李叶昕 孙彦苹 张钧波 郑宇
受保护的技术使用者:京东城市(北京)数字科技有限公司
技术研发日:2023.06.15
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐