一种融合细粒度要素知识的短文本分类方法与流程

未命名 09-24 阅读:80 评论:0


1.本发明涉及一种融合细粒度要素知识的短文本分类方法,属于自然语言处理领域,主要涉及深度神经网络、迁移学习、相似度计算、对抗训练以及文本分类。


背景技术:

2.最近几年,深度学习技术急速发展,不仅给图像领域带来了革命性的变化,随着词向量、语言模型的发展,深度学习也给自然语言处理的各个任务带来了大幅提升。使用深度学习代替传统的基于人工特征工程的方法后,不仅建模过程变得简单,模型性能相对于传统机器学习也提升很多。机器翻译、文本摘要、机器阅读理解等任务,采用基于神经网络的模型,逐渐脱离出实验室,其可用性也越来越接近可用状态。
3.随着网络和通信技术的发展和壮大,短文本已经成为人们进行信息交互的重要形式。但是网络上存在各种垃圾短文本,包括宣传广告、散布谣言、传播色情、宣传暴力和反动信息等。为保证用户切身体验,从数据挖掘的角度,在挖掘有价值的信息的同时,又能避免用户受到垃圾短文本的困扰,是目前迫切需要解决的现实问题。垃圾分类研究,旨在希望建立一个分析平台已很好地过滤垃圾短文本,不仅关乎老百姓的财产安全和信息安全,甚至关乎国家的社会稳定和社会治安。
4.目前,对于短文本数据进行收集和分析的主要手段依然是利用大量人力进行自主甄别。这无异于大海捞针。而利用人工智能领域的方法,可以有效地提取社交软件的大量信息,进行学习和甄别,自动找到垃圾信息,帮助业务人员提高发现效率。
5.同时,短文本数据具有的非正规性、不完整性、稀疏性等特点,相比单一的短文本和长文本信息,短文本文本更难分析和处理。所以对文本进行有效分类,在数据处理和分析上面临着巨大挑战。
6.现有技术的技术方案:短文本分类是用算法对文本所包含的内容进行自动的分析,从而识别出不同文本的主题类别,通过对大量的文本数据进行批量处理就能快速判定对应类别从而准确的将文本数据进行归类处理,(针对输入n个文本,将文本分成m个类别中的一个或多个)。短文本分类通常分为有监督的文本分类如基于bert的分类和无监督的主题聚类,如基于lda主题聚类算法。下面将详细介绍现有技术的技术方案。
7.1.基于lda的主题聚类算法:基于lda的主题模型聚类技术利用特征提取与词共现模型,通过主题特征词加权,深入进行了lda短文本聚类算法研究。具体地,首先针对传统lda主题模型未充分考虑主题词和利用特征提取相关问题,提出基于主题词共现和知识对特征提取的lda短文本聚类算法,在lda主题模型中构建基于主题词共现的词袋模型,生成主题知识集;并将生成的主题知识集注入到lda模型中进行特征提取,迭代地提取语义知识,以达到主题和语义联合聚类分析效果。其次,针对主题词与词之间的相关度被一些文献所忽视的问题,提出基于主题特征词聚类算法研究,充分考虑主题词与词之间的相关度,建立更加完善的主题词袋,并进行相关问题定义。
8.2.基于bert短文本分类:通过分词和去停用词等操作对整合出来的长文本进行预
处理;借助tf-idf计算所有文本的词汇,并将所有词汇的tf-idf值作为该词在词向量处的权重值;利用梯度降维的方法对词向量的维度进行降维处理;最后利用传统的机器学习方法对词向量进行分类训练得到于短文本分类的分类模型。


技术实现要素:

9.现有技术的缺点:缺点一:短文本文本内容非正规性、稀疏性、内容简短、口语化严重、语法结构不规范等特征,现有研究仅使用单一神经网络的垃圾短文本分类算法,只考虑了整个句子的语义,没有考虑到关键要素与上下文的联系;而在实际应用场景中,这样会遗漏大量消息,导致舆情分析结果的准确度与可信度不足;缺点二:短文本文本数据篇幅较短、特征稀缺,使用关键词策略虽具备较高的召回率,容易带来大量噪声信息;使用文本分类虽能相对精准的获取数据标签,但数据召回率欠佳。
10.本发明拟解决的技术问题:拟解决问题1,本发明提出的一整套融合细粒度要素知识的短文本分类方法,提高短文本分类准确率;拟解决问题2,为了解决短文本文本篇幅较短、特征不明显、复杂句式等数据特点,本发明借助要素抽取将细粒度知识融合进文本分类过程中,不仅可以考虑整个句子的语义,还可以结合细粒度信息上下文的联系,进而提升模型性能;拟解决问题3,为了解决文本分类时使用ce-loss计算当前某个预测概率p相对于y的损失存在一定的误差,本发明使用一个label encoder来学习各个label的表示,得到一个符合实际标签分布,提高文本分类准确率。
11.本发明针对上述问题提出一种融合细粒度要素知识的短文本分类的解决方法,从而提升短文本分类的效果,进而促使更为精准分析短文本数据,自动找到有关垃圾信息,提高工作效率。
12.本发明具体采用如下技术方案:一种融合细粒度要素知识的短文本分类方法,包括如下步骤:
13.步骤ss1:通过梳理标注短文本数据完成数据标注,其中,所述数据标注为标注全量标注数据类别和数据中存在要素信息;
14.步骤ss2:针对标注后的短文本数据,采用关键要素提取文本分类联合训练算法,借助bert+crf提取短文本数据中的要素信息;
15.步骤ss3:进而融合细粒度信息,结合标签编码器label encoder来学习各个标签label的表示,得到一个符合实际的标签分布。
16.作为一种较佳的实施例,所述步骤ss2中的关键要素提取文本分类联合训练算法包括关键要素抽取步骤,具体包括:基于bert预训练模型基础上进行finetuning,即先采用bert预训练语言模型作为基准模型获取字向量,提取文本重要特征,学习上下文特征信息,进行关键信息识别,输出文本序列;最后crf层对bert预训练语言模型的输出序列进行处理,结合crf中的状态转移矩阵,根据相邻之间标签得到一个全局最优序列;将抽取后的实体enitys按照索引顺序进行拼接,获得的实体enitys+句子sentence作为后续短文本分类做准备。
17.作为一种较佳的实施例,所述bert预训练模型是采用双向transformer作为特征抽取器,通过学习到深层语义信息,以向量的形式来表示句子中的每个词。
18.作为一种较佳的实施例,所述步骤ss2中的关键要素提取文本分类联合训练算法
还包括文本分类步骤,所述文本分类步骤具体包括:采用基础预测器basic predictor通过预训练bert模型进行文本分类,增大分类模型对短文本的适配性;通过lcm模型进行标签数据模拟。
19.作为一种较佳的实施例,所述采用基础预测器basic predictor通过预训练bert模型进行文本分类的过程用如下公式表达:
[0020][0021]y(p)
=softmax(v(i))
[0022]
其中v(i)就是输入的文本的通过输入解码器input decoder得到的标签表示矩阵,y
(p)
则是预测标签分布predicted label distribution,p为借助softmax分类器来输出预测的标签概率分布。
[0023]
作为一种较佳的实施例,所述通过lcm模型进行标签数据模拟的过程表达为:
[0024][0025]y(c)
=softmax(v(i)v
(l)
w+b)
[0026]y(s)
=softmax(αy
(t)
+y
(c)
)
[0027]
其中v
(l)
代表标签label通过标签编码器label encoder得到的标签表示矩阵,y
(c)
是标签和输入文本的相似度得到的标签混淆分布,y
(s)
模拟标签分布simulated label distribution。
[0028]
作为一种较佳的实施例,所述步骤ss3具体包括:为更好模拟标签label概率分布情况,基于bert的意图识别模型,使用一个标签编码器label encoder来学习各个标签label的表示,与输入样本input sample的向量表示计算相似度,从而得到一个反映标签之间的混淆/相似程度的分布;再然后,结合数据特点以及数据标注的要素信息获得sf要素的标签分布y
(t)
如下公式:
[0029][0030]
其中,num
sf
表示sf要素出现个数,indexi表示sf关键要素索引首位置,为提升关键要素靠前数据权重,表示sf关键词在该句中综合权重;关键要素权重概率,通过label
sf
计算标签混淆分布来调整原来的真实标签one-hot分布,从而得到一个符合实际标签分布;
[0031]y(c)
和label
sf
通过一个超参数结合再归一化,得到最终的ys,即模拟标签分布simulated label distribution;
[0032]
最后,使用kl散度来计算loss
分类

[0033]
[0034]
loss
分类
为不断迭代更新最终获得迭代更新的模型函数。
[0035]
作为一种较佳的实施例,所述步骤ss3具体还包括:结合函数loss=ω1*loss_crf+ω2*loss
分类
公式,设置相应ω1和ω2权重完成分类模型调优。
[0036]
本发明所达到的有益效果:第一,本发明运用深度学习方法同时,提出了融合细粒度要素知识的短文本分类解决方案,采取关键要素抽取和文本分类的管道式抽取方式,首先借助bert+crf提取短文本中的要素信息,进而融合细粒度信息,结合label encoder来学习各个label的表示,得到一个符合实际标签分布,提高文本分类准确率,解决了短文本数据篇幅较短、特征不明显、句式复杂(数据类别模糊不清)等情况。第二,本发明建立了融合细粒度知识管道式短文本分类框架,采取关键要素抽取和文本分类的管道式抽取方式,提升模型效率及性能;第三,本发明针对短文本篇幅较短、特征不明显、复杂句式等数据情况,借助要素抽取将细粒度知识融合进文本分类过程中,不仅可以考虑整个句子的语义,还可以结合细粒度信息上下文的联系,进而提升模型性能;第四,本发明利用label encoder来学习各个label的表示,得到一个符合实际标签概率分布,通过模型迭代更新提高模型性能。
附图说明
[0037]
图1是本发明优选实施例的关键要素提取的拓扑示意图。
[0038]
图2是本发明优选实施例的文本分类的拓扑示意图。
[0039]
图3是本发明的联合训练模型调优的拓扑示意图。
具体实施方式
[0040]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0041]
实施例1:本发明提出一种融合细粒度要素知识的短文本分类方法,包括如下几部分。
[0042]
1、数据来源:通过人工梳理标注短文本数据(默认为均为文本数据)完成数据标注,其中数据标注采用标注全量标注数据类别和数据中存在要素信息,默认为数据标注准确率不低于95%。
[0043]
2、关键要素提取文本分类联合训练算法:本发明针对性的对以上存在的问题,提出了融合细粒度要素知识的短文本分类解决方案,采取关键要素抽取和文本分类的管道式抽取方式,提出了融合细粒度要素知识的短文本分类解决方案,采取关键要素抽取和文本分类的管道式抽取方式,首先借助bert+crf提取短文本中的要素信息,进而融合细粒度信息,结合label encoder来学习各个label的表示,得到一个符合实际标签分布,提高文本分类准确率。具体的技术方案在本部分做出详细的介绍。
[0044]
(1)关键要素抽取:如图1所示,在要素抽取方案基于bert预训练模型基础上进行finetuning,即先采用bert预训练语言模型作为基准模型,因为bert是采用双向transformer作为特征抽取器,能够很好的学习到深层语义信息,以向量的形式来表示句子中的每个词;例如,图1中将【x xx不讲理】按照对应的wordpiece(词片,中文中我们将每一个字作为一个词片)、segment片段和position(位置)特征输入bert模型,得到每个词片对
应的词向量;在进行分词之后,输入文本模型时会在词片列表的前后位置分别添加【cls】和【sep】标志位,用于区分句子起始位置;其次,使用bert+crf模型由bert层和crf层2个模块组成,整体模型如图1所示。首先使用bert模型获取字向量,提取文本重要特征,学习上下文特征信息,进行关键信息识别;最后crf层对bert的输出序列处理,结合crf中的状态转移矩阵,根据相邻之间标签得到一个全局最优序列。将抽取后的实体enitys按照索引位置进行拼接enitys+sentence作为后续短文本分类做准备。
[0045]
(2)文本分类:短文本分类主要从文本分类的角度出发,使用一个深度网络(dnn,诸如lstm、cnn、bert等)来得到向量表示;借助softmax分类器来输出预测的标签概率分布p,使用cross-entropy来计算真实标签(one-hot表示)与标签概率分布p之间的损失;通过loss函数不断迭代更新最终获得迭代更新的模型,但面对易混淆的分类任务、有噪音(误打标)的数据集时使用cross-entropy loss(简称ce-loss)仍存在一些问题,比如有一个多类别的分类任务,部分数据可能存在多个标签情况,如

#大排查大整治##平安护航建党百年#【一个分神,撞树上了!】6月9日中午12点半左右,江东镇十白线往武义方向,一辆大货车因司机一时分神,撞上了一颗大树,所幸树木起到了缓冲作用,车子并未冲进路边河沟造成更大的损失;交警提醒:午后人体易感觉困倦,注意力不集中,容易出现判断失误,危及安全行车,司机朋友要适当午休,适当调整驾驶时间,开车时开窗通通风,保持车内空气清新。#关注交通安全#’,该数据60%部分讲的是消极,而只有40%讲的内容为积极和中性,所以该数据标签为(0.6,0.35,0.05),事实上数据为单标签数据,使用one-hot让模型更加“武断”,成为一个“非黑即白”的模型,导致泛化性能差,对标签表示为(1,0,0),真实标签跟其他标签之间的关系被忽略了,很多有用的知识无法学到,类别标签有一定特征重叠的数据容易分错,使用ce-loss计算当前某个预测概率p相对于y的损失存在一定的误差;针对以上问题,本发明优化标签模拟的框架结构,该框架分两部分,左边是一个基础预测器basic predictor,使用预训练bert模型进行文本分类,增大分类模型对短文本的适配性。右边的则是lcm的模型进行标签数据模拟,模型结构如图2所示。
[0046]
basic predictor的过程可以用如下公式表达:
[0047][0048]y(p)
=softmax(v(i))
[0049]
其中vi就是输入的文本的通过input decoder得到的表示,yc则是predicted label distribution(pld)。
[0050]
lcm的过程可以表达为:
[0051][0052]y(c)
=softmax(v(i)v
(l)
w+b)
[0053]y(s)
=softmax(αy
(t)
+y
(c)
)
[0054]
其中v
l
代表label通过label encoder得到的标签表示矩阵,yc是标签和输入文本的相似度得到的标签混淆分布,为了更好模拟label概率分布情况,本发明基于bert的意图识别模型,使用一个label encoder来学习各个label的表示,与input sample的向量表示计算相似度,从而得到一个反映标签之间的混淆/相似程度的分布。最后,结合数据特点(数
据较短、重要要素信息前置等)结合数据标注的要素信息通过(以sf为例)以下公式来表示标签分布:
[0055][0056]
其中,num
sf
表示sf要素出现个数,indexi表示sf关键要素索引首位置,为提升关键要素靠前数据权重,表示sf关键词在该句中综合权重;关键要素权重概率,通过label
sf
(即y
t
)计算方式混淆分布来调整原来的one-hot分布,从而得到一个符合实际标签分布。
[0057]
二者通过一个超参数结合再归一化,得到最终的ys,即模拟标签分布,simulated label distribution(sld)。
[0058]
最后,我们使用kl散度来计算loss
分类

[0059][0060]
(3)联合训练
[0061]
最后结合loss=ω1*loss_crf+ω2*loss
分类
公式,设置相应ω1和ω2权重完成模型调优。其网络框架图如图3所示。
[0062]
本发明以短文本分类数据为基础,通过深度神经网络、迁移学习等方法,让机器能更精细化区分短文本标签,相比现有技术,欲创新点如下:创新点1,本案提出的一整套融合细粒度知识管道式短文本分类框架;创新点2,在短文本文本分类过程中融合关键要素细粒度信息,将抽取后的实体enitys按照索引顺序拼接成enitys+sentence作为后续短文本分类输入,从不同维度梳理分析短文本内容,提高文本分类准确率,该融合细粒度要素知识提方法;创新点3,为了解决文本分类时使用ce-loss计算当前某个预测概率p相对于y的损失存在一定的误差,本发明使用一个label encoder来学习各个label的表示,得到一个符合实际标签分布,提高文本分类准确率。
[0063]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0064]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0065]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

技术特征:
1.一种融合细粒度要素知识的短文本分类方法,其特征在于,包括如下步骤:步骤ss1:通过梳理标注短文本数据完成数据标注,其中,所述数据标注为标注全量标注数据类别和数据中存在要素信息;步骤ss2:针对标注后的短文本数据,采用关键要素提取文本分类联合训练算法,借助bert+crf提取短文本数据中的要素信息;步骤ss3:进而融合细粒度信息,结合标签编码器label encoder来学习各个标签label的表示,得到一个符合实际的标签分布。2.根据权利要求1所述的一种融合细粒度要素知识的短文本分类方法,其特征在于,所述步骤ss2中的关键要素提取文本分类联合训练算法包括关键要素抽取步骤,具体包括:基于bert预训练模型基础上进行finetuning,即先采用bert预训练语言模型作为基准模型获取字向量,提取文本重要特征,学习上下文特征信息,进行关键信息识别,输出文本序列;最后crf层对bert预训练语言模型的输出序列进行处理,结合crf中的状态转移矩阵,根据相邻之间标签得到一个全局最优序列;将抽取后的实体enitys按照索引顺序进行拼接,获得的实体enitys+句子sentence作为后续短文本分类做准备。3.根据权利要求1所述的一种融合细粒度要素知识的短文本分类方法,其特征在于,所述bert预训练模型是采用双向transformer作为特征抽取器,通过学习到深层语义信息,以向量的形式来表示句子中的每个词。4.根据权利要求1所述的一种融合细粒度要素知识的短文本分类方法,其特征在于,所述步骤ss2中的关键要素提取文本分类联合训练算法还包括文本分类步骤,所述文本分类步骤具体包括:采用基础预测器basic predictor通过预训练bert模型进行文本分类,增大分类模型对短文本的适配性;通过lcm模型进行标签数据模拟。5.根据权利要求4所述的一种融合细粒度要素知识的短文本分类方法,其特征在于,所述采用基础预测器basic predictor通过预训练bert模型进行文本分类的过程用如下公式表达:y
(p)
=softmax(v
(i)
)其中v
(i)
就是输入的文本的通过输入解码器input decoder得到的标签表示矩阵,y
(p)
则是预测标签分布predicted label distribution,p为借助softmax分类器来输出预测的标签概率分布。6.根据权利要求4所述的一种融合细粒度要素知识的短文本分类方法,其特征在于,所述通过lcm模型进行标签数据模拟的过程表达为:y
(c)
=softmax(v
(i)
v
(l)
w+b)y
(s)
=softmax(αy
(t)
+y
(c)
)其中v
(l)
代表标签label通过标签编码器label encoder得到的标签表示矩阵,y
(c)
是标签和输入文本的相似度得到的标签混淆分布,y
(s)
模拟标签分布simulated label distribution。
7.根据权利要求6所述的一种融合细粒度要素知识的短文本分类方法,其特征在于,所述步骤ss3具体包括:为更好模拟标签label概率分布情况,基于bert的意图识别模型,使用一个标签编码器label encoder来学习各个标签label的表示,与输入样本input sample的向量表示计算相似度,从而得到一个反映标签之间的混淆/相似程度的分布;再然后,结合数据特点以及数据标注的要素信息获得sf要素的标签分布y
(t)
如下公式:其中,num
sf
表示sf要素出现个数,index
i
表示sf关键要素索引首位置,为提升关键要素靠前数据权重,表示sf关键词在该句中综合权重;关键要素权重概率,通过label
sf
计算标签混淆分布来调整原来的真实标签one-hot分布,从而得到一个符合实际标签分布;y
(c)
和label
sf
通过一个超参数结合再归一化,得到最终的y
s
,即模拟标签分布simulated label distribution;最后,使用kl散度来计算loss
分类
:loss
分类
为不断迭代更新最终获得迭代更新的模型函数。8.根据权利要求4所述的一种融合细粒度要素知识的短文本分类方法,其特征在于,所述步骤ss3具体还包括:结合函数loss=ω1*loss_crf+ω2*loss
分类
公式,设置相应ω1和ω2权重完成分类模型调优。

技术总结
本发明公开了一种融合细粒度要素知识的短文本分类方法,该方法包括:通过梳理标注短文本数据完成数据标注,其中,所述数据标注为标注全量标注数据类别和数据中存在要素信息;针对标注后的短文本数据,采用关键要素提取文本分类联合训练算法,借助BERT+CRF提取短文本数据中的要素信息;进而融合细粒度信息,结合标签编码器Label Encoder来学习各个标签label的表示,得到一个符合实际的标签分布。本发明针对上述问题提出一种融合细粒度要素知识的短文本分类的解决方法,从而提升短文本分类的效果,进而促使更为精准分析短文本数据,自动找到有关垃圾信息,提高工作效率。提高工作效率。提高工作效率。


技术研发人员:段东圣 段运强 井雅琪 侯炜 佟玲玲 程飞 王红兵 吕东 任博雅 王伟 孙平
受保护的技术使用者:讯飞智元信息科技有限公司
技术研发日:2023.04.21
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐