样本构建方法、分类模型训练方法、文本分类方法及装置
未命名
10-19
阅读:65
评论:0
1.本技术涉及计算机技术领域,尤其涉及样本构建方法、分类模型训练方法、文本分类方法及装置。
背景技术:
2.分类模型可以应用于各种语音或者文本分类任务,例如,分析用户评论是正向还是负向的以及预测产品的类目等。
3.相关技术中,将样本作为分类模型输入,将样本的标注作为标签训练分类模型,这种训练方式需要大量的标注样本,进而会降低分类模型的训练效率。
技术实现要素:
4.本技术的多个方面提供样本构建方法、分类模型训练方法、文本分类方法及装置,以提高分类模型的训练效率。
5.本技术实施例第一方面提供一种样本构建方法,包括:获取第一文本段落,第一文本段落包括多个文本片段;确定多个文本片段中的目标文本片段为训练文本的正标签文本,正标签文本可概括第一文本段落;确定多个文本片段中的除目标文本片段之外的文本片段为训练文本;根据正标签文本与训练文本,确定训练样本,训练样本和正标签文本用于训练得到分类模型。
6.本技术实施例第二方面提供一种分类模型训练方法,包括:获取训练样本和训练样本对应的正标签文本,训练样本是通过第一方面任一项的样本构建方法构建的,训练样本包含正标签文本与训练文本;将训练样本输入分类模型中进行分类,得到训练文本的预测类别文本;根据正标签文本与预测类别文本,确定第一损失值;若第一损失值大于第一阈值,采用第一损失值调整分类模型的模型参数。
7.本技术实施例第三方面提供一种文本分类方法,应用于云端服务器,文本分类方法包括:获取待分类文本和预先设置的多个类别文本;组合待分类文本和多个类别文本,得到目标文本;将目标文本输入预先训练的分类模型进行分类处理,得到待分类文本的目标类别,目标类别是多个类别文本中的一个,分类模型是根据第二方面的分类模型训练方法训练的。
8.本技术实施例第四方面提供一种文本分类方法,文本分类方法包括:获取待分类文本;向云端服务器发送待分类文本;接收云端服务器发送的目标类别,目标类别是云端服务器根据第三方面的文本分类方法确定的。
9.本技术实施例第五方面提供一种样本构建方法,应用于云端服务器,样本构建方法包括:获取第一文本段落,第一文本段落包括多个文本片段;确定多个文本片段中的目标文本片段为训练文本的正标签文本,正标签文本可概括第一文本段落;确定多个文本片段中的除目标文本片段之外的文本片段为训练文本;根据正标签文本与训练文本,确定训练样本,训练样本和正标签文本用于训练得到分类模型。
10.本技术实施例第六方面提供一种文本分类系统,包括:
11.云端服务器和终端设备,云端服务器上部署有分类模型;
12.终端设备,用于获取待分类文本,并向云端服务器发送待分类文本;
13.云端服务器,用于获取待分类文本和预先设置的多个类别文本;组合待分类文本和多个类别文本,得到目标文本;将目标文本输入预先训练的分类模型进行分类处理,得到待分类文本的目标类别,目标类别是多个类别文本中的一个,分类模型是根据第二方面的分类模型训练方法训练的;
14.终端设备,用于接收云端服务器发送的目标类别。
15.本技术实施例第七方面提供一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如第一方面的样本构建方法、和/或第二方面的分类模型训练方法、和/或第三方面的文本分类方法。
16.本技术实施例第八方面提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序被处理器执行时,致使处理器实现如第一方面的样本构建方法、和/或第二方面的分类模型训练方法、和/或第三方面的文本分类方法。
17.本技术实施例应用于训练样本构建的场景中,通过获取第一文本段落,第一文本段落包括多个文本片段;确定多个文本片段中的目标文本片段为训练文本的正标签文本,正标签文本可概括第一文本段落;确定多个文本片段中的除目标文本片段之外的文本片段为训练文本;根据正标签文本与训练文本,确定训练样本,训练样本和正标签文本用于训练得到分类模型,可以避免人工标注训练样本,进而实现分类模型的零标注样本训练,提高分类模型的训练效率。
附图说明
18.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
19.图1为本技术示例性实施例提供的一种应用场景图;
20.图2为本技术示例性实施例提供的一种样本构建方法的步骤流程图;
21.图3为本技术示例性实施例提供的样本构建方法的示意图;
22.图4为本技术示例性实施例提供的一种分类模型训练方法的步骤流程图;
23.图5为本技术示例性实施例提供的一种文本分类方法的步骤流程图;
24.图6为本技术示例性实施例提供的一种文本分类方法的示意图;
25.图7为本技术示例性实施例提供的一种样本构建装置的结构框图;
26.图8为本技术示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
27.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.目前分类模型的训练方法主要是通过对预训练模型的提示学习或者把预训练模
型在大量标记数据上进行微调,从而使模型获得零标注样本文本分类的能力。其中,提示学习是通过设计模版和表达器来处理训练文本,该方法得到的分类模型的分类效果较差。此外,把预训练模型在大量标记数据上进行微调具体为,通过将标注样本重新格式化为指令模板、问答对、多项选择题或蕴含对,并采用这些数据对预训练模型进行微调,该方法需要对训练文本进行人工标注,会导致分类模型的训练效率较低。
29.基于上述方法,本技术提供一种样本构建方法,通过获取第一文本段落,第一文本段落包括多个文本片段;确定多个文本片段中的目标文本片段为训练文本的正标签文本,正标签文本可概括第一文本段落;确定多个文本片段中的除目标文本片段之外的文本片段为训练文本;根据正标签文本与训练文本,确定训练样本,训练样本和正标签文本用于训练得到分类模型,提高了分类模型训练效率。
30.在本实施例中,并不限定训练样本构建方法的执行设备。可选地,训练样本构建方法应用在终端,也可以借助云计算系统实现整体的样本构建方法。例如,训练样本构建方法可以应用于云服务器,以便借助于云上资源的优势运行各种模型;相对于应用于云端,训练样本构建方法也可以应用于常规服务器、云服务器或服务器阵列等服务端设备。
31.此外,参照图1,为本技术的一种应用场景图。服务器11构建训练样本,然后采用构建的训练样本训练分类模型,然后将分类模型上线,上线后的分类模型在接收到终端设备12的待分类文本后,采用分类模型对待分类文本进行分类,得到待分类文本的目标类别。
32.其中,分类模型可以应用的分类任务中,如待分类文本是用户评论文本,将用户评论文本输入分类模型,以使分类模型确定该用户评论是正向的还是负向的。再例如,待分类文本是产品说明文本,将该产品说明文本输入分类模型中,以使分类模型确定该产品说明书对应的产品类目。
33.图1只是本技术示例性的一种应用场景,本技术还可以应用在其他相关场景中,在此不加以限定。
34.以下结合附图,详细说明本技术各实施例提供的技术方案。
35.图2为本技术示例性实施例提供的一种样本构建方法的步骤流程图。如图2所示该样本构建方法,具体包括以下步骤:
36.s201,获取第一文本段落。
37.在本技术实施例中,第一文本段落可以是来自网络或者数据库中的文章、评论等,第一文本段落为一个段落里的文本。
38.其中,第一文本段落包括多个文本片段,可以理解,第一文本段落由多句文本片段组成。
39.示例性地,参照图3,第一文本段落如“吉米是出生在1947年2月
…
。他是阿德里安的前市长
…”
。其中,“吉米是出生在1947年2月
…”
为一个文本片段,“他是阿德里安的前市长
…”
为另一个文本片段,在“他是阿德里安的前市长
…”
后还可以有多个文本片段。
40.s202,确定多个文本片段中的目标文本片段为训练文本的正标签文本。
41.其中,正标签文本可概括第一文本段落。
42.进一步地,确定多个文本片段中的目标文本片段为训练文本的正标签文本,包括:确定第一文本段落中第一句文本片段为正标签文本。
43.在本技术实施例中,由于第一句文本片段的第一句文本片段,通常可以概况该第
一句文本片段要表达的内容,因此,可以将第一句文本片段作为正标签文本。此外,本技术实施例中若其他文本片段可以概况第一文本片段,也可以将其他文本片段作为正标签文本,如第一文本段落的最后一句文本片段。
44.示例性地,参照图3可以将第一文本段落中的第一句文本片段“吉米是出生在1947年2月
…”
确定为正标签文本。
45.s203,确定多个文本片段中的除目标文本片段之外的文本片段为训练文本。
46.其中,若第一文本段落中的第一句文本片段为目标文本片段,则第二句文本片段至最后一句文本片段为训练文本。
47.示例性地,参照图3,训练文本为“他是阿德里安的前市长
…”
。
48.s204,根据正标签文本与训练文本,确定训练样本。
49.在本技术实施例中,训练样本包括正标签文本和训练文本。此外,正标签文本和训练文本以预设规则组合在一起。
50.示例性地,参照图3,可以将训练文本增加一标识,将正标签文本增加一标识,然后进行组合得到训练样本,如图3中的训练样本,该训练样本包括加标识的训练文本“[sep]他是阿德里安的前市长
…”
和加标识的正标签文本“(b)吉米是出生在1947年2月
…”
,此外,训练样本还可以包括其他文本内容。
[0051]
一种可选实施例中,训练样本可以仅包括训练文本和正标签文本。例如,训练样本还可以是“(a)吉米是出生在1947年2月
…
[sep]他是阿德里安的前市长
…”
,其中(a)是正标签文本的标识,[sep]是训练文本的标识。
[0052]
其中,训练样本和正标签文本用于训练得到分类模型。
[0053]
在本技术实施例中,可以将正标签文本作为训练样本的正标签,训练分类模型。
[0054]
进一步地,根据正标签文本与训练文本,确定训练样本,包括:获取第二文本段落;确定第二文本段落中的第一句文本片段为第一负标签文本;按照预设顺序,组合正标签文本、第一负标签文本和训练文本,得到训练样本。
[0055]
在本技术实施例中,训练样本还包括第一负标签文本,第一负标签文本可以是一个或者多个。其中,第二文本段落可以包括多个文本片段,第一负标签文本可以来自于第二文本段落的第一句文本片段。
[0056]
其中,第二文本段落与第一文本段落是不同的文本段落。
[0057]
进一步地,第二文本段落和第一文本段落为来自同一文章的不同段落。
[0058]
示例性地,参照图3,第二文本段落为“2012年1月6日,吉米
…
。他与现任总统竞选
…”
,该第二文本段落和第一文本段落来自同一文章,然后可以将第二文本段落的第一句文本片段“2012年1月6日,吉米
…”
作为第一负标签文本。在图3中,训练样本包含的第一负标签文本增加有标识,如“(a)2012年1月6日,吉米
…”
,其中(a)是第一负标签文本的标识。
[0059]
可选地,训练样本可以仅包括训练文本、正标签文本和第一负标签文本。例如,训练样本还可以是“(a)2012年1月6日,吉米
…
(b)吉米是出生在1947年2月
…
[sep]他是阿德里安的前市长
…”
。
[0060]
在本技术实施例中,第一负标签文本可以作为训练样本的负标签训练分类模型。
[0061]
进一步地,训练样本还包括第二负标签文本,按照预设顺序,组合正标签文本、第一负标签文本和训练文本,得到训练样本包括:获取第三文本段落,第三文本段落和第一文
本段落来自不同的文章;确定第三文本段落中的第一句文本片段为第二负标签文本;按照预设顺序组合正标签文本、第一负标签文本、第二负标签文本和训练文本,得到训练样本。
[0062]
其中,第三文本段落与第一文本段落是来自不同文章的文本段落。第三文本段落可以是一个或者多个。例如,参照图3,包括2个第三文本段落(第三文本段落a和第三文本段落b)。
[0063]
进一步地,第三文本段落包括多个文本片段,第二负标签文本可以是来自于第三文本段落中的第一句文本片段。此外,第二负标签文本也可以是来自于第三文本段落的其他句的文本片段,对此不加以限定。
[0064]
示例性地,参照图3,第三文本段落a1为“自1960年末以来,弗林特市面临了几次危机。这个城市经历了
…”
,对应的第二负标签文本a2为“自1960年末以来,弗林特市面临了几次危机”。第三文本段落b1为“xx公司是
…
。
…”
,第二负标签文本b2为“xx公司是
…”
。
[0065]
在图3中,训练样本包含的第二负标签文本增加有标识,如“(c)自1960年末以来,弗林特市面临了几次危机。(e)xx公司是
…”
,其中(c)为是第二负标签文本a2的标识。(e)是第二负标签文本b2的标识。
[0066]
参照图3,训练样本包括:训练文本、正标签文本、第一负标签文本和第二负标签文本。
[0067]
可选地,训练样本可以仅包括训练文本、正标签文本和第二负标签文本。例如,训练样本还可以是“(a)2012年1月6日,吉米
…
(b)自1960年末以来,弗林特市面临了几次危机(c)xx公司是
…
[sep]他是阿德里安的前市长
…”
。
[0068]
在本技术实施例中,第二负标签文本可以作为训练样本的负标签训练分类模型。
[0069]
进一步地,按照预设顺序组合正标签文本、第一负标签文本、第二负标签文本和训练文本,得到训练样本之后,还包括:获取训练要求的类别数量;若训练样本中标签文本数量小于类别数量,则在训练样本中填充标识文本,标识文本的数量等于类别数量与标签文本数量的差值。
[0070]
在本技术实施例中,标签文本数量是指正标签文本、第一负标签文本和第二负标签文本的总数量。参照图3中,训练样本中标签文本数量为4。此外,类别数量是根据训练任务的训练要求确定的,例如,训练任务是分类模型识别待分类文本属于5个类别中的哪一类,则类别数量为5。
[0071]
进一步地,若类别数量为5,标签文本数量为4,二者的差值为1,则标识文本可以是等于1个。参照图3,训练样本中的标识文本如[pad],其中标识文本也有对应的标识,如图3中(d)。
[0072]
在本技术实施例中,标识文本起到占位的作用,可以使后续训练得到的分类模型在对待分类文本进行分类时,输入分类模型的文本的结构和训练时输入分类模型的训练样本的结构是一致的,进而可以提高分类模型的分类性能。
[0073]
综上,本技术实施例应用于训练样本构建的场景中,通过获取第一文本段落,第一文本段落包括多个文本片段;确定多个文本片段中的目标文本片段为训练文本的正标签文本,正标签文本可概括第一文本段落;确定多个文本片段中的除目标文本片段之外的文本片段为训练文本;根据正标签文本与训练文本,确定训练样本,训练样本和正标签文本用于训练得到分类模型,可以避免人工标注训练样本,进而实现分类模型的零标注样本训练,提
高分类模型的训练效率。
[0074]
参照图4,为本技术示例性实施例提供的一种分类模型训练方法的步骤流程图。
[0075]
如图4所示该分类模型训练方法,具体包括以下步骤:
[0076]
s401,获取训练样本和训练样本对应的正标签文本。
[0077]
其中,训练样本是通过上述任一项的样本构建方法构建的,训练样本包含正标签文本与训练文本。
[0078]
参照图3,训练样本为“(a)2012年1月6日,吉米
…
(b)吉米是出生在1947年2月
…
(c)自1960年末以来,弗林特市面临了几次危机(d)[pad](e)xx公司是
…
[sep]他是阿德里安的前市长
…”
,此外训练样本可以是“(a)吉米是出生在1947年2月
…
(b)[pad](c)(d)[pad]([sep]他是阿德里安的前市长
…”
。正标签文本为“吉米是出生在1947年2月
…”
。
[0079]
s402,将训练样本输入分类模型中进行分类,得到训练文本的预测类别文本。
[0080]
在本技术实施例中,分类模型可以是已经经过预训练的预训练语言模型,在本步骤中,采用构建的训练样本对该分类模型进行调整,得到可以应用在对应任务的分类模型。
[0081]
进一步地,将上述构建的训练样本输入分类模型中,经过分类模型进行预测,可以得到训练文本的预测类别文本。在本技术实施例中,分类模型是对训练文本的类别进行预测。
[0082]
在本技术实施例中,训练样本也可以是语音,将训练样本输入分类模型后,分类模型先对语音的训练样本进行语音识别,得到对应的文本样本,然后对该文本样本进行预测,得到训练文本的预测类别文本。
[0083]
s403,根据正标签文本与预测类别文本,确定第一损失值。
[0084]
在本技术实施例中,根据预设的损失函数确定正标签文本与预测类别文本之间的损失值为第一损失值。例如,损失函数如交叉熵损失函数,将正标签文本和预测类别文本代入该交叉熵损失函数中,便可以计算得到正标签文本与预测类别文本之间的损失值。
[0085]
此外,预设的损失函数还可以是其他损失函数,在此不加以限定。
[0086]
s404,若第一损失值大于第一阈值,采用第一损失值调整分类模型的模型参数。
[0087]
在本技术实施例中,第一阈值是预先设定的,若第一损失值大于第一阈值,则可以确定预测类别文本和正标签文本相差较大,采用第一损失值调整分类模型的模型参数后,可以使分类模型输出的预测类别文本更接近正标签文本,提高分类模型的分类准确度。若第一损失值小于第一阈值,则可以采用其他训练样本继续分类模型的训练,直到分类模型满足训练要求。
[0088]
进一步地,训练样本还包括第一负标签文本,分类模型训练方法还包括:根据第一负标签文本与预测类别文本,确定第二损失值;若第二损失值小于第二阈值,采用第二损失值调整分类模型的模型参数。
[0089]
在本技术实施例中,第二阈值是预先设定的,第一负标签文本是根据上述样本构建方法构建的。
[0090]
示例性地,参照图3,训练样本为“(a)2012年1月6日,吉米
…
(b)吉米是出生在1947年2月
…
(c)自1960年末以来,弗林特市面临了几次危机(d)[pad](e)xx公司是
…
[sep]他是阿德里安的前市长
…”
,此外训练样本可以是“(a)2012年1月6日,吉米
…
(b)吉米是出生在1947年2月
…
(c)(d)[pad]([sep]他是阿德里安的前市长
…”
。第一负标签文本为“2012年1
月6日,吉米
…”
。
[0091]
在本技术实施例中,若第二损失值小于第二阈值,则表示第一负标签文本与预测类别文本的损失值较小,预测类别文本和第一负标签文本较接近,采用第二损失值调整分类模型的模型参数后,可以使分类模型输出的预测类别文本和第一负标签文本的差距变大,提高分类模型的分类准确度。若第二损失值大于或等于第二阈值,则可以采用其他训练样本继续分类模型的训练,直到分类模型满足训练要求。
[0092]
进一步地,训练样本还包括第二负标签文本,还包括:根据第二负标签文本与预测类别文本,确定第三损失值;若第三损失值小于第三阈值,采用第三损失值调整分类模型的模型参数。
[0093]
在本技术实施例中,第三阈值时预先设定的,第二负标签文本是根据上述样本构建方法构建的。
[0094]
示例性地,参照图3,训练样本为“(a)2012年1月6日,吉米
…
(b)吉米是出生在1947年2月
…
(c)自1960年末以来,弗林特市面临了几次危机(d)[pad](e)xx公司是
…
[sep]他是阿德里安的前市长
…”
。第二负标签文本为“自1960年末以来,弗林特市面临了几次危机”和“xx公司是
…”
。
[0095]
在本技术实施例中,若第三损失值小于第三阈值,则表示第二负标签文本与预测类别文本的损失值较小,预测类别文本和第二负标签文本较接近,采用第三损失值调整分类模型的模型参数后,可以使分类模型输出的预测类别文本和第二负标签文本的差距变大,提高分类模型的分类准确度。若第三损失值大于或等于第三阈值,则可以采用其他训练样本继续分类模型的训练,直到分类模型满足训练要求。
[0096]
在本技术实施例中,由于第一负标签文本和训练文本来自同一文章,第二负标签文本和训练文本来自不同文本,则第一负标签文本和训练文本的相关性大于第二负标签文本和训练文本的相关性,因此,可以设定第二阈值小于第三阈值。此外,也可以设置第二阈值和第三阈值相同,在此不加以限定。
[0097]
综上,本技术采用构建的训练样本训练分类模型,可以实现提高分类模型的效率。
[0098]
此外,本技术提出使用自监督微调的方法来解决零标注样本文本分类的任务,可以实现在没有人工注释的情况下有效地构造大规模的训练样本。进一步地,设计了一个简单而有效的学习目标,即第一句文本片段作为正标签文本,以提高分类模型的训练效率。
[0099]
参照图5,本技术还提供一种文本分类方法,应用于云端服务器,文本分类方法具体包括以下步骤:
[0100]
s501,获取待分类文本和预先设置的多个类别文本。
[0101]
在本技术实施例中,类别文本是预设的。例如,待分类文本为评论文本时,多个类别文本包括正向和负向。再例如,待分类文本是描述文本,多个类别文本包括:多个类目。
[0102]
参照图6,待分类文本为“狡猾的信用卡策略密切关注你的信用卡发卡机构,他们可能会提高你的利率”,多个类别文本分别是“娱乐、体育、商业、技术、文化”。
[0103]
在本技术实施中,类别文本若是词语,则可以对类别文本进行扩写为句子(类别输入文本),该类别输入文本不会影响类别文本的含义。例如,参照图6,多个类别文本“娱乐、体育、商业、技术和文化”分别对应的类别输入文本为“这个文本是关于娱乐的。这个文本是关于体育的。这个文本是关于商业的。这个文本是关于技术的。这个文本是关于文化的”。
[0104]
s502,组合待分类文本和多个类别文本,得到目标文本。
[0105]
在本技术实施例中,可以组合待分类文本和多个类别输入文本得到目标文本,其中,在组合的过程中,针对类别输入文本和待分类文本增加标识。参照图6,得到的目标文本为“(a)这个文本是关于娱乐的(b)这个文本是关于体育的(c)这个文本是关于商业的(d)这个文本是关于技术的(e)这个文本是关于文化的[sep]狡猾的信用卡策略密切关注你的信用卡发卡机构,他们可能会提高你的利率”。
[0106]
一种可选实施例中,也可以直接组成待待分类文本和多个类别文本,得到目标文本,则目标文本可以是“(a)娱乐(b)体育(c)商业(d)技术(e)文化[sep]狡猾的信用卡策略密切关注你的信用卡发卡机构,他们可能会提高你的利率”。
[0107]
进一步地,本技术也可以根据需要在目标文本中添加标识文本,如[pad]。例如,目标文本可以为“(a)这个文本是关于娱乐的(b)这个文本是关于体育的(c)这个文本是关于商业的(d)这个文本是关于技术的(e)这个文本是关于文化的(f)[pad][sep]狡猾的信用卡策略密切关注你的信用卡发卡机构,他们可能会提高你的利率”。
[0108]
其中,(a)(b)(c)(d)(e)(f)为目标文本中的标识,这些标识的数量与训练过程中,训练样本中对应的标识的数量相同。
[0109]
s503,将目标文本输入预先训练的分类模型进行分类处理,得到待分类文本的目标类别。
[0110]
其中,目标类别是多个类别文本中的一个,分类模型是上述的分类模型训练方法训练的。
[0111]
参照图6,目标类别是“这个文本是关于商业的”,这个目标类别是类别输入文本中的一个。此外,目标类别也可以是“商业”,这个目标类别是多个类别文本中的一个。
[0112]
在本技术实施例中,通过获取待分类文本和预先设置的多个类别文本,组合待分类文本和多个类别文本,得到目标文本,将目标文本输入预先训练的分类模型进行分类处理,得到待分类文本的目标类别,可以实现对待分类文本的准确分类。
[0113]
此外,本技术还提供一种文本分类方法,应用于终端设备,文本分类方法包括:获取待分类文本;向云端服务器发送待分类文本;接收云端服务器发送的目标类别,目标类别是云端服务器根据上述文本分类方法确定的。
[0114]
在本技术实施例中,终端设备只需要将待分类文本发送给服务器,便能得到该待分类文本的目标类别,具体实现过程参照上述描述,在此不再赘述。
[0115]
在本技术实施例中,除了提供一种样本构建方法之外,还提供一种样本构建装置,如图7所示,该样本构建装置70包括:
[0116]
获取模块71,用于获取第一文本段落,第一文本段落包括多个文本片段;
[0117]
第一确定模块72,用于确定多个文本片段中的目标文本片段为训练文本的正标签文本,正标签文本可概括第一文本段落;
[0118]
第二确定模块73,用于确定多个文本片段中的除目标文本片段之外的文本片段为训练文本;
[0119]
第三确定模块74,用于根据正标签文本与训练文本,确定训练样本,训练样本和正标签文本用于训练得到分类模型。
[0120]
在一可选实施例中,第二确定模块73具体用于:确定第一文本段落中第一句文本
片段为正标签文本。
[0121]
在一可选实施例中,第三确定模块74具体用于:获取第二文本段落;确定第二文本段落中的第一句文本片段为第一负标签文本;按照预设顺序,组合正标签文本、第一负标签文本和训练文本,得到训练样本。
[0122]
在一可选实施例中,第二文本段落和第一文本段落为来自同一文章的不同段落。
[0123]
在一可选实施例中,第三确定模块74在按照预设顺序,组合正标签文本、第一负标签文本和训练文本,得到训练样本时,具体用于:获取第三文本段落,第三文本段落和第一文本段落来自不同的文章;确定第三文本段落中的第一句文本片段为第二负标签文本;按照预设顺序组合正标签文本、第一负标签文本、第二负标签文本和训练文本,得到训练样本。
[0124]
在一可选实施例中,还包括,填充模块(未示出),用于在按照预设顺序组合正标签文本、第一负标签文本、第二负标签文本和训练文本,得到训练样本之后,获取训练要求的类别数量;若训练样本中标签文本数量小于类别数量,则在训练样本中填充标识文本,标识文本的数量等于类别数量与标签文本数量的差值。
[0125]
在本技术实施例提供的样本构建装置,能够避免人工标注训练样本,进而实现分类模型的零标注样本训练,提高分类模型的训练效率。具体实现过程参照上述方法实施例,在此不再赘述。
[0126]
此外,本技术还提供一种模型训练装置(未示出),包括:
[0127]
获取模块,用于获取训练样本和训练样本对应的正标签文本,训练样本是通过上述的样本构建方法构建的,训练样本包含正标签文本与训练文本;
[0128]
分类模块,用于将训练样本输入分类模型中进行分类,得到训练文本的预测类别文本;
[0129]
确定模块,用于根据正标签文本与预测类别文本,确定第一损失值;
[0130]
调整模块,用于若第一损失值大于第一阈值,采用第一损失值调整分类模型的模型参数。
[0131]
在一可选实施例中,训练样本还包括第一负标签文本,还包括训练模块(未示出),用于根据第一负标签文本与预测类别文本,确定第二损失值;若第二损失值小于第二阈值,采用第二损失值调整分类模型的模型参数。
[0132]
在一可选实施例中,训练样本还包括第二负标签文本,训练模块还用于:根据第二负标签文本与预测类别文本,确定第三损失值;若第三损失值小于第三阈值,采用第三损失值调整分类模型的模型参数。
[0133]
此外,本技术还提供一种文本分类装置(未示出),应用于云端服务器,包括:
[0134]
获取模块,用于获取待分类文本和预先设置的多个类别文本;
[0135]
组合模块,用于组合待分类文本和多个类别文本,得到目标文本;
[0136]
分类模块,用于将目标文本输入预先训练的分类模型进行分类处理,得到待分类文本的目标类别,目标类别是多个类别文本中的一个,分类模型是根据上述的分类模型训练方法训练的。
[0137]
此外,本技术还提供一种文本分类装置(未示出),应用于终端设备,包括:
[0138]
获取模块,用于获取待分类文本;
[0139]
发送模块,用于向云端服务器发送待分类文本;
[0140]
接收模块,用于接收云端服务器发送的目标类别,目标类别是云端服务器根据上述的文本分类方法确定的。
[0141]
此外,本技术还提供一种文本分类系统,包括:
[0142]
云端服务器和终端设备,云端服务器上部署有分类模型;
[0143]
终端设备,用于获取待分类文本,并向云端服务器发送待分类文本;
[0144]
云端服务器,用于获取待分类文本和预先设置的多个类别文本;组合待分类文本和多个类别文本,得到目标文本;将目标文本输入预先训练的分类模型进行分类处理,得到待分类文本的目标类别,目标类别是多个类别文本中的一个,分类模型是根据权利要求7至9任一项的分类模型训练方法训练的;
[0145]
终端设备,用于接收云端服务器发送的目标类别。
[0146]
具体实现过程参照上述实施例,在此不再赘述。
[0147]
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0148]
图8为本技术示例性实施例提供的一种电子设备80的结构示意图。该电子设备用于运行上述样本构建方法和样本构建方法。如图8所示,该电子设备80包括:存储器84和处理器85。
[0149]
存储器84,用于存储计算机程序,并可被配置为存储其它各种数据以支持在电子设备上的操作。该存储器84可以是对象存储(object storage service,oss)。
[0150]
存储器84可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0151]
处理器85,与存储器84耦合,用于执行存储器84中的计算机程序,以用于:获取第一文本段落,第一文本段落包括多个文本片段;确定多个文本片段中的目标文本片段为训练文本的正标签文本,正标签文本可概括第一文本段落;确定多个文本片段中的除目标文本片段之外的文本片段为训练文本;根据正标签文本与训练文本,确定训练样本,训练样本和正标签文本用于训练得到分类模型。
[0152]
进一步可选地,处理器85在确定多个文本片段中的目标文本片段为训练文本的正标签文本时,具体用于确定第一文本段落中第一句文本片段为正标签文本。
[0153]
进一步可选地,处理器85在根据正标签文本与训练文本,确定训练样本时,具体用于:获取第二文本段落;确定第二文本段落中的第一句文本片段为第一负标签文本;按照预设顺序,组合正标签文本、第一负标签文本和训练文本,得到训练样本。
[0154]
进一步可选地,处理器85在按照预设顺序,组合正标签文本、第一负标签文本和训练文本,得到训练样本时,具体用于获取第三文本段落,第三文本段落和第一文本段落来自
不同的文章;确定第三文本段落中的第一句文本片段为第二负标签文本;按照预设顺序组合正标签文本、第一负标签文本、第二负标签文本和训练文本,得到训练样本。
[0155]
在一可选实施例中,处理器85在按照预设顺序组合正标签文本、第一负标签文本、第二负标签文本和训练文本,得到训练样本之后,还用于:获取训练要求的类别数量;若训练样本中标签文本数量小于类别数量,则在训练样本中填充标识文本,标识文本的数量等于类别数量与标签文本数量的差值。
[0156]
一种可选实施例中,处理器85,与存储器84耦合,用于执行存储器84中的计算机程序,以还用于:获取训练样本和训练样本对应的正标签文本,训练样本是通过上述任一项的样本构建方法构建的,训练样本包含正标签文本与训练文本;将训练样本输入分类模型中进行分类,得到训练文本的预测类别文本;根据正标签文本与预测类别文本,确定第一损失值;
[0157]
在一可选实施例中,处理器85还用于根据第一负标签文本与预测类别文本,确定第二损失值;若第二损失值小于第二阈值,采用第二损失值调整分类模型的模型参数。
[0158]
在一可选实施例中,处理器85还用于根据第二负标签文本与预测类别文本,确定第三损失值;若第三损失值小于第三阈值,采用第三损失值调整分类模型的模型参数。
[0159]
一种可选实施例中,处理器85,与存储器84耦合,用于执行存储器84中的计算机程序,以还用于:获取待分类文本和预先设置的多个类别文本;组合待分类文本和多个类别文本,得到目标文本;将目标文本输入预先训练的分类模型进行分类处理,得到待分类文本的目标类别,目标类别是多个类别文本中的一个,分类模型是根据上述任一项的分类模型训练方法训练的。
[0160]
一种可选实施例中,处理器85,与存储器84耦合,用于执行存储器84中的计算机程序,以还用于:获取待分类文本;向云端服务器发送待分类文本;接收云端服务器发送的目标类别,目标类别是云端服务器根据上述的文本分类方法确定的。
[0161]
进一步,如图8所示,该电子设备还包括:防火墙81、负载均衡器82、通信组件86、电源组件83等其它组件。图8中仅示意性给出部分组件,并不意味着电子设备只包括图8所示组件。
[0162]
相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序/指令被处理器执行时,致使处理器实现上述所示方法中的步骤。
[0163]
相应地,本技术实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器实现上述所示方法中的步骤。
[0164]
上述图8中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如wifi,2g、3g、4g/lte、5g等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关文本。在一个示例性实施例中,通信组件还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0165]
上述图8中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0166]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0167]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程文本处理设备的处理器以产生一个机器,使得通过计算机或其他可编程文本处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0168]
这些计算机程序指令也可存储在能引导计算机或其他可编程文本处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0169]
这些计算机程序指令也可装载到计算机或其他可编程文本处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0170]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu和/或gpu)、输入/输出接口、网络接口和内存。
[0171]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0172]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现文本存储。文本可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的文本。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0173]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0174]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、
改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种样本构建方法,其特征在于,包括:获取第一文本段落,所述第一文本段落包括多个文本片段;确定所述多个文本片段中的目标文本片段为训练文本的正标签文本,所述正标签文本可概括所述第一文本段落;确定所述多个文本片段中的除所述目标文本片段之外的文本片段为所述训练文本;根据所述正标签文本与所述训练文本,确定所述训练样本,所述训练样本和所述正标签文本用于训练得到分类模型。2.根据权利要求1所述的样本构建方法,其特征在于,所述确定所述多个文本片段中的目标文本片段为训练文本的正标签文本,包括:确定所述第一文本段落中第一句文本片段为所述正标签文本。3.根据权利要求1或2所述的样本构建方法,其特征在于,所述根据所述正标签文本与所述训练文本,确定所述训练样本,包括:获取第二文本段落;确定所述第二文本段落中的第一句文本片段为所述第一负标签文本;按照预设顺序,组合所述正标签文本、所述第一负标签文本和所述训练文本,得到所述训练样本。4.根据权利要求3所述的样本构建方法,其特征在于,所述第二文本段落和所述第一文本段落为来自同一文章的不同段落。5.根据权利要求4所述的样本构建方法,其特征在于,所述按照预设顺序,组合所述正标签文本、所述第一负标签文本和所述训练文本,得到所述训练样本包括:获取第三文本段落,所述第三文本段落和所述第一文本段落来自不同的文章;确定所述第三文本段落中的第一句文本片段为第二负标签文本;按照预设顺序组合所述正标签文本、所述第一负标签文本、所述第二负标签文本和所述训练文本,得到所述训练样本。6.根据权利要求5所述的样本构建方法,其特征在于,所述按照预设顺序组合所述正标签文本、所述第一负标签文本、所述第二负标签文本和所述训练文本,得到所述训练样本之后,还包括:获取训练要求的类别数量;若所述训练样本中标签文本数量小于所述类别数量,则在所述训练样本中填充标识文本,所述标识文本的数量等于所述类别数量与所述标签文本数量的差值。7.一种分类模型训练方法,其特征在于,包括:获取训练样本和所述训练样本对应的正标签文本,所述训练样本是通过权利要求1至6中任一项所述的样本构建方法构建的,所述训练样本包含正标签文本与训练文本;将所述训练样本输入分类模型中进行分类,得到所述训练文本的预测类别文本;根据所述正标签文本与所述预测类别文本,确定第一损失值;若所述第一损失值大于第一阈值,采用所述第一损失值调整所述分类模型的模型参数。8.根据权利要求7所述的分类模型训练方法,其特征在于,所述训练样本还包括第一负标签文本,所述分类模型训练方法还包括:
根据所述第一负标签文本与所述预测类别文本,确定第二损失值;若所述第二损失值小于第二阈值,采用所述第二损失值调整所述分类模型的模型参数。9.根据权利要求7所述的分类模型训练方法,其特征在于,所述训练样本还包括第二负标签文本,所述分类模型训练方法,还包括:根据所述第二负标签文本与所述预测类别文本,确定第三损失值;若所述第三损失值小于第三阈值,采用所述第三损失值调整所述分类模型的模型参数。10.一种文本分类方法,其特征在于,应用于云端服务器,所述文本分类方法包括:获取待分类文本和预先设置的多个类别文本;组合所述待分类文本和所述多个类别文本,得到目标文本;将所述目标文本输入预先训练的分类模型进行分类处理,得到所述待分类文本的目标类别,所述目标类别是所述多个类别文本中的一个,所述分类模型是根据权利要求7至9任一项所述的分类模型训练方法训练的。11.一种文本分类方法,其特征在于,应用于终端设备,所述文本分类方法包括:获取待分类文本;向云端服务器发送所述待分类文本;接收云端服务器发送的目标类别,所述目标类别是所述云端服务器根据权利要求10所述的文本分类方法确定的。12.一种样本构建方法,其特征在于,应用于云端服务器,所述样本构建方法包括:获取第一文本段落,所述第一文本段落包括多个文本片段;确定所述多个文本片段中的目标文本片段为训练文本的正标签文本,所述正标签文本可概括所述第一文本段落;确定所述多个文本片段中的除所述目标文本片段之外的文本片段为所述训练文本;根据所述正标签文本与所述训练文本,确定所述训练样本,所述训练样本和所述正标签文本用于训练得到分类模型。13.一种文本分类系统,其特征在于,包括:云端服务器和终端设备,所述云端服务器上部署有分类模型;所述终端设备,用于获取待分类文本,并向所述云端服务器发送所述待分类文本;所述云端服务器,用于获取待分类文本和预先设置的多个类别文本;组合所述待分类文本和所述多个类别文本,得到目标文本;将所述目标文本输入预先训练的分类模型进行分类处理,得到所述待分类文本的目标类别,所述目标类别是所述多个类别文本中的一个,所述分类模型是根据权利要求7至9任一项所述的分类模型训练方法训练的;所述终端设备,用于接收云端服务器发送的目标类别。14.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的样本构建方法、和/或权利要求7至9任一项所述的分类模型训练方法、和/或权利要求10或11所述的文本分类方法。
技术总结
本申请提供一种样本构建方法、分类模型训练方法、文本分类方法及装置。该样本构建方法包括获取第一文本段落,第一文本段落包括多个文本片段;确定多个文本片段中的目标文本片段为训练文本的正标签文本,正标签文本可概括第一文本段落;确定多个文本片段中的除目标文本片段之外的文本片段为训练文本;根据正标签文本与训练文本,确定训练样本,训练样本和正标签文本用于训练得到分类模型,可以避免人工标注训练样本,进而实现分类模型的零标注样本训练,提高分类模型的训练效率。提高分类模型的训练效率。提高分类模型的训练效率。
技术研发人员:刘超群 张雯轩 陈桂臻 吴小宝 刘安团 曾集丰 邴立东
受保护的技术使用者:南洋理工大学
技术研发日:2023.04.27
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/