交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备
未命名
08-02
阅读:200
评论:0

交叉嵌入式注意力bilstm多标签文本分类模型、方法及设备
技术领域
1.本发明属于深度学习的文本分类领域,具体涉及一种交叉嵌入式注意力bilstm多标签文本分类模型、方法及设备。
背景技术:
2.文本分类中多标签比单标签的计算更加复杂,一段文本可以同时属于多个类别。最早的多标签文本分类使用的是机器学习的方法,采用特征选择与特征提取技术构建模型,但模型会过于复杂且无法表达复杂的文本信息,所以目前大多数学者都在研究基于深度学习的文本分类方法。zhang等在2006年提出了bp-mll算法,这是首次通过神经网络来解决多标签文本分类问题(zhang m l,zhou z h.multilabel neural networks with applications to functional genomics and text categorization[j].ieee transactions on knowledge and data engineering,2006,18(10):1338-1351.)。nam等对bp-mll算法进行了改进,改用交叉熵损失函数并且使用了adagrad、dropout和relus,但是这两种神经网络模型都较为简单,无法表达文本的完整性(nam j,kim j,loza menc
í
a e,etal.large-scale multi-label text classification—revisiting neural networks[c].joint european conference on machine learning and knowledge discovery in databases.springer,berlin,heidelberg,2014:437-452.)。因此,后来又出现了许多基于cnn、rnn和transformer的深度神经网文本分类模型,用于解决上述问题。
[0003]
baker等设计了一种共现多标签文本分类方法,该方法在cnn模型的基础上通过初始化神经网络中的隐藏层来处理标签与标签之间的共现关系(berger m j.large scale multi-label text classification with semantic word vectors[j].technical report,stanford university,2015.)。shimura等提出了一种分层卷积神经网络结构的多标签分类,用于解决短文本多数据稀疏问题,该方法在预训练模型中加入微调的思想,充分利用了标签之间的内在联系。虽然cnn是一种简单的网络模型,但是依然取得了不错的效果。但是会造成语义信息的丢失,尤其是当文本过长时,cnn不利于捕获前后文的关系而造成语义的偏差(shimura k,li j,fukumoto f.hft-cnn:learning hierarchical category structure for multi-label short text categorization[c].proceedings of the 2018conference on empirical methods in natural language processing.2018:811-816.)。
[0004]
尽管基于深度学习的文本分类方法在很多领域已经取得了较好的成果,但上述方法不能直接应用于水产病害语料的分类任务,原因在于水产病害文本句式特征复杂,专有名词过长且频度副词多,使得以往的模型不能全面地学习文本特征。
技术实现要素:
[0005]
本发明的目的是解决因句式特征复杂,专有名词过长且频度副词多,导致的水产病害文本分类中不能全面地学习文本特征的问题。
[0006]
在第一方面上,根据本技术一些实施例的交叉嵌入式注意力bilstm多标签文本分类方法,包括
[0007]
步骤s1:获取水产病害数据集;
[0008]
步骤s2:通过词嵌入表示将所述水产病害数据集的每一条数据的每个字的字符向量和位置向量相加获取词嵌入向量;
[0009]
步骤s3:根据所述词嵌入向量,roberta层输出所述水产病害数据集的每一条数据的词级别的语义表示;
[0010]
步骤s4:根据所述语义表示,bilstm层获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;
[0011]
步骤s5:根据所述潜在语义向量,text cnn层获取水产病害文本特征向量;
[0012]
步骤s6:softmax层根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别。
[0013]
根据本技术一些实施例的交叉嵌入式注意力bilstm多标签文本分类方法,模型训练阶段步骤s1的获取水产病害数据集,包括
[0014]
s101.获取数据资源:根据水产病害的重点研究对象,围绕水产动物所患疾病名称、疾病流行温度、疾病防治方法等,搜集水产动物疾病相关网站、电子图书和相关文献的数据资源;
[0015]
s102.分类数据:根据获取的数据资源,在水产病害文本多标签分类语料库中定义类别;
[0016]
s103.数据清洗,获取水产病害数据集。
[0017]
根据本技术一些实施例的交叉嵌入式注意力bilstm多标签文本分类方法,定义类别包括投喂治疗、流行地区、流行时间、浸泡治疗、状态症状、部位症状和预防治疗。
[0018]
根据本技术一些实施例的交叉嵌入式注意力bilstm多标签文本分类方法,步骤s3中roberta层通过动态掩码机制把预训练数据复制10份,并逐份选取15%的字符进行mask,使模型训练时动态改变被mask的字符。
[0019]
根据本技术一些实施例的交叉嵌入式注意力bilstm多标签文本分类方法,其中,所述步骤s4中的所述bilstm层的第一种lstm的隐藏层的单向传播方向与第二种lstm的隐藏层的单向传播方向相反,不同节点对应的第一种lstm的隐藏层单向连接形成第一种lstm的隐藏层的单向传播方向,不同节点对应的第二种lstm的隐藏层单向连接形成第二种lstm的隐藏层的单向传播方向;
[0020]
步骤s4的所述根据所述语义表示,bilstm层获取所述语义表示的上下文语义信息的方法,包括
[0021]
s401.一个节点的所述语义表示wi分别输入所述一个节点对应的一个第一种lstm以及所述一个节点对应的一个第二种lstm中学习上文表示cf(wi)和下文表示cb(wi),由公式(1)和公式(2)表示:
[0022]cf
(wi)=f(w
(f)cf
(w
i-1
))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0023]
cb(wi)=f(w
(b)
cb(w
i+1
))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0024]
其中w
(f)
表示前向lstm的权重矩阵,w
(b)
表示后向lstm的权重矩阵;
[0025]
s402.将上文表示cf(wi)和下文表示cb(wi)分别进行注意力提取,获取优化特征bf和bb,由公式(3)和公式(4)表示:
[0026][0027][0028]
其中w
it
表示wi的转置向量,n表示注意力变量的个数;
[0029]
s403.将优化特征bf和bb拼接获取向量ai,由公式(5)表示:
[0030]ai
=[bf,bb]
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0031]
s404.将向量ai作为所述语义表示wi学习之后的的语义表示,通过tanh激活函数计算后输出,得到语义表示wi的潜在语义向量h,由公式(6)表示:
[0032]
h=tanh(wai+b)
ꢀꢀꢀꢀꢀꢀꢀ
(6)
[0033]
其中w与b表示权重参数。
[0034]
根据本技术一些实施例的交叉嵌入式注意力bilstm多标签文本分类方法,步骤s5的根据所述潜在语义向量,text cnn层提取水产病害文本特征向量特征的方法,包括
[0035]
s501.text cnn层的三种卷积核对bilstm模型获取的语义表示wi的潜在语义向量h进行特征提取,所述三种卷积核第二维的维度与潜在语义向量h的第二维的维度一致,移动并提取潜在语义向量h的卷积特征,由公式(7)和公式(8)表示:
[0036]vi
=f(wc·hi:i+m-1
+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0037]
v=[v1,v2,
…
,vn]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0038]
其中wc为权重矩阵,m为卷积的滑动步长,h
i:i+m-1
表示从潜在语义向量h第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为sigmoid激活函数,vi表示第i个位置的卷积特征值,v表示卷积特征的集合;
[0039]
s502.将卷积特征的集合v通过池化层,最大池化层对卷积特征的集合v的卷积特征的特征图压缩,通过不同卷积核提取特征向量u,由公式(9)表示:
[0040]
u=max{v}
ꢀꢀꢀꢀꢀꢀ
(9)
[0041]
s503.将步骤s502提取的所述特征向量u进行拼接,形成特征序列ec,由公式(10)所示:
[0042]
ec=[u1,u2,
…
,un]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0043]
其中n表示特征数量的个数;
[0044]
s504.将所述特征序列ec由relu函数激活得到所述水产病害文本特征向量。
[0045]
在第二方面上,根据本技术一些实施例的交叉嵌入式注意力bilstm多标签文本分类模型,包括
[0046]
roberta层,根据所述词嵌入向量输出水产病害数据集的每一条数据的词级别的语义表示,所述词嵌入向量通过词嵌入表示将获取的水产病害数据集的每一条数据的每个字的字符向量和位置向量相加而获取;
[0047]
bilstm层,根据所述语义表示获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;
[0048]
text cnn层,根据所述潜在语义向量获取水产病害文本特征向量;
[0049]
softmax层,根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别。
[0050]
根据本技术一些实施例的交叉嵌入式注意力bilstm多标签文本分类模型,其中,所述bilstm层的第一种lstm的隐藏层的单向传播方向与第二种lstm的隐藏层的单向传播方向相反,不同节点对应的第一种lstm的隐藏层单向连接形成第一种lstm的隐藏层的单向传播方向,不同节点对应的第二种lstm的隐藏层单向连接形成第二种lstm的隐藏层的单向传播方向;
[0051]
所述bilstm层基于如下方式获取所述语义表示的上下文语义信息:
[0052]
一个节点的所述语义表示wi分别输入所述一个节点对应的一个第一种lstm以及所述一个节点对应的一个第二种lstm中学习上文表示cf(wi)和下文表示cb(wi),由公式(1)和公式(2)表示:
[0053]cf
(wi)=f(w
(f)cf
(w
i-1
))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0054]
cb(wi)=f(w
(b)
cb(w
i+1
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0055]
其中w
(f)
和w
(b)
分别为前后向的权重矩阵;
[0056]
将上文表示cf(wi)和下文表示cb(wi)分别进行注意力提取,获取优化特征bf和bb,由公式(3)和公式(4)表示:
[0057][0058][0059]
其中;
[0060]
将优化特征bf和bb拼接获取向量ai,由公式(5)表示:
[0061]ai
=[bf,bb]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0062]
将向量ai作为所述语义表示wi学习之后的的语义表示,通过tanh激活函数计算后输出,得到语义表示wi的潜在语义向量h,由公式(6)表示:
[0063]
h=tanh(wai+b)
ꢀꢀꢀꢀꢀꢀꢀ
(6)
[0064]
其中。
[0065]
根据本技术一些实施例的交叉嵌入式注意力bilstm多标签文本分类模型,所述text cnn层基于如下方式根据所述潜在语义向量提取水产病害文本特征向量特征:
[0066]
text cnn层的三种卷积核对bilstm模型获取的语义表示wi的潜在语义向量h进行特征提取,所述三种卷积核第二维的维度与潜在语义向量h的第二维的维度一致,移动并提取潜在语义向量h的卷积特征,由公式(7)和公式(8)表示:
[0067]vi
=f(wc·hi:i+m-1
+b)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0068]
v=[v1,v2,
…
,vn]
ꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0069]
其中wc为权重矩阵,m为卷积的滑动步长,h
i:i+m-1
表示从潜在语义向量h第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为sigmoid激活函数,vi表示第i个位置的卷积特征值,v表示卷积特征的集合;
[0070]
将卷积特征的集合v通过池化层,最大池化层对卷积特征的集合v的卷积特征的特征图压缩,通过不同卷积核提取特征向量,由公式(9)表示:
[0071]
u=max{v}
ꢀꢀꢀꢀꢀꢀ
(9)
[0072]
将提取的所述特征向量进行拼接,形成特征序列ec,由公式(10)所示:
[0073]
ec=[u1,u2,
…
,un]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0074]
将所述特征序列ec由relu函数激活得到所述水产病害文本特征向量。
[0075]
在第三方面上,根据本技术一些实施例的电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一项所述的方法中的步骤。
[0076]
本发明的有益效果:
[0077]
(1)本发明采用roberta模型对水产病害语料进行字符级和词语级混合表示,动态更新文本中的掩码模式,从而增强语义表示能力。
[0078]
(2)本发明通过交叉嵌入注意力机制的bilstm模型学习长序列语义信息,以解决长距离依赖问题,着重突出影响因子较高的特征。
[0079]
(3)本发明由textcnn模型进行卷积特征提取,从而减小特征向量的维度。
[0080]
(4)本发明文本分类更准确,在准确率、召回率和f1值3个评价指标中优于其他模型,有效的提高了水产病害多标签文本分类效果。
[0081]
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0082]
图1为总体框架结构图。
[0083]
图2为roberta模型结构图。
具体实施方式
[0084]
下面通过参考附图详细描述本技术的实施例,所述实施例的示例在附图中示出,本技术提供一种方法、模型、电子设备,用以解决因句式特征复杂,专有名词过长且频度副词多,导致的水产病害文本分类中不能全面地学习文本特征的问题。。其中,方法、模型和电子设备是基于同一技术构思的,由于方法、模型和电子设备解决问题的原理相似,因此实施可以相互参见,重复之处不再赘述。
[0085]
实施例:
[0086]
图1是本发明模型总体框架结构图,根据图1所示本发明的交叉嵌入式注意力bilstm多标签文本模型,通过所述模型实施的分类方法,主要包括下列几个步骤:
[0087]
步骤1:数据获取。根据现阶段水产病害的重点研究对象围绕水产动物所患疾病名称、疾病流行温度、疾病防治方法等,搜集水产动物疾病相关网站、电子图书和相关文献等数据资源。
[0088]
步骤2:数据分类。研究获取的数据资源,并与水产动物疾病专家沟通,在水产病害文本多标签分类语料库中定义了7个类别,分别是投喂治疗、流行地区、流行时间、浸泡治疗、状态症状、部位症状和预防治疗。
[0089]
步骤3:数据清洗。直接从源途径获取的数据杂乱无章,其中较多的冗余信息及不规范的格式对模型的计算过程造成负担,因此在试验前增加一步数据的预处理。大部分错误原因来源于pdf转word这一方式,转化过程中会出现大量干扰字符、干扰词、错别字等无关字符,这些问题的出现会影响模型的学习效率,因此,需要通过数据清洗排除这些错误。
[0090]
步骤4:模型获取词嵌入向量:模型通过词嵌入表示将所述水产病害数据集的每一条数据的每个字的字符向量和位置向量相加获取模型所需的词嵌入向量。
[0091]
步骤5:模型获取语义表示:通过roberta模型,获取所述水产病害数据集的每一条数据的词嵌入向量的词级别的语义表示。其中,bert学习包含先验语义知识的特征表示是利用水产病害文本中对字进行先掩盖然后再预测的方式,但对于长序列的专有名词而言,仅由字级别的特征表示无法全面的对其进行理解,而roberta在进行预训练的过程时会涵盖更多的语义组合,尝试更多不同的mask。在模型层面,roberta与bert基本一致,不同之处在于前者使用了新的预训练方法并进行了更为精细的调优工作,具体变化有:取消nsp任务;改变了bert的静态掩码策略,通过动态掩码机制把预训练数据复制10份,并逐份选取15%的字符进行mask,模型训练时会动态改变被mask的字符。roberta在进行预训练的过程时会涵盖更多的语义组合,尝试更多不同的mask。通过这种方式,roberta可以在水产病害文本中学到词级别的语义表示,更有助于提升文本分类效果,roberta模型结构如图2所示。
[0092]
步骤6:模型获取潜在语义向量(上下文语义信息):将步骤5所得的语义表示输入交叉嵌入注意力机制的bilstm,通过将注意力机制分别作用于交叉嵌入注意力机制的bilstm的两个隐藏层,使得同一输入数据在这两个相对独立的隐藏层的作用下各自获取到关于输入信息的特征向量,再将这两个结果做拼接或取平均值的处理得到一个最终向量结果(上下文语义信息),获取所述水产病害数据集的每一条数据的上下文语义信息。注意力嵌入式bilstm在学习水产病害料特征时不仅保证了短序列语义学习能力,且在解决长序列语义稀释问题上也有不错的效果,相比于一般常用的bilstm+attention方法可以分别增加前向与后向lstm的特征权重,进一步减少语义消失问题的发生。二者的总体效果对比如表2所示。
[0093]
具体过程如下:
[0094]
(1)首先词嵌入层中的特征表示wi(语义表示)分别传入前向和后向的lstm中学习出上文表示cf(wi)和下文表示cb(wi),由公式(1)和公式(2)表示。
[0095][0096]
其中w
(f)
和w
(b)
分别为前后向lstm的权重矩阵。
[0097]
(2)然后将上文表示cf(wi)和下文表示cb(wi)分别进行注意力提取,获取优化特征bf和bb。
[0098]
[0099][0100]
其中w
it
表示,n表示。
[0101]
(3)再将优化特征bf和bb拼接获取向量ai。
[0102]ai
=[bf,bb]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0103]
(4)将最后的到的ai作为词嵌入wi(语义表示wi)学习之后的的语义表示,通过tanh激活函数计算后输出,最终得到语义表示wi的潜在语义向量h。
[0104]
h=tanh(wai+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0105]
其中w表示,b表示。
[0106]
根据所述方案,本发明将注意力机制分别作用于两个隐藏层上来优化lstm,可以更全面地解决语义信息丢失,使得在较长的水产病害文本语句中也能学习出较好的特征。其中,bilstm模型的文本特征提取和分类模型底层结构上与lstm模型基本相似。lstm在隐藏层的传播方向上仅仅是单向传播,而bilstm在此基础上进行优化,其增加了一层与前者方向相反的隐藏层。同一输入数据在这两个相对独立的隐藏层的作用下各自获取到关于输入信息的特征向量,再将这两个结果做拼接或取平均值的处理得到一个最终向量结果,最后通过attention优化输出。该方法可以处理水产病害文本特征复杂以及因为语句过长导致地语义信息丢失问题,但对于双层结构的bilstm,其前后双向的隐藏层仍存在语义丢失的情况,当然这种情况相较于单向传播的单个隐藏层模型来说已经极大降低。为此,本发明在步骤s7模型获取水产病害文本特征向量步骤对该问题继续解决。
[0107]
步骤7:模型获取水产病害文本特征向量。
[0108]
(1)通过text cnn的3种(2、3、4)卷积核对上一层生成的潜在语义向量h(上下文语义信息)进行特征提取,卷积核第二维的维度与潜在语义向量h的一致,移动并提取n-gram特征。由公式(7)和公式(8)表示:
[0109]vi
=f(wc·hi:i+m-1
+b)
ꢀꢀꢀꢀꢀꢀꢀ
(7)
[0110]
v=[v1,v2,
…
,vn]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0111]
其中:式子中wc为权重矩阵,m为卷积的滑动步长,h
i:i+m-1
表示从词向量矩阵第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为sigmoid激活函数,vi表示第i个位置的卷积特征值,v表示卷积特征的集合。
[0112]
(2)随后将卷积特征的集合v通过池化层,使用max pooling提取出每个feature map的最大值进行级联操作。该步骤利用最大池化层对特征图压缩并提取其主要特征信息如公式(9)所示。然后将不同卷积核提取到的特征向量进行拼接,形成特征序列ec如公式(10)所示:
[0113]
u=max{v}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0114]
ec=[u1,u2,
…
,un]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0115]
其中n表示特征数量的个数。
[0116]
(3)最后由relu函数激活得到最终的水产病害文本特征向量。
[0117]
步骤8:模型获取标签类别:通过softmax计算每个类别的概率,判断文本可能属于的标签类别。
[0118]
实验例:
[0119]
为验证本发明的交叉嵌入式注意力bilstm多标签文本分类模型(cross-embedded attention bilstm multi-label text classification model,cabt)效果,分别与textcnn模型、bilstm模型、bilstm+attention+textcnn(btcnn)模型和bilstm+attention+textcnn(batcnn)模型,进行对比与消融实验。textcnn与bilstm为经典的文本分类模型,btcnn与batcnn为现阶段常见的模型组合。
[0120]
本发明在实验中使用30万字符的水产病害文本数据,按照8:2:2的比例划分为训练集、验证集和测试集,分别用于训练模型、验证训练效果和测试训练效果所用。
[0121]
实验结果如表1所示的各类别分类结果对比。从实验结果可以看出,在准确率、召回率和f1值3个评价指标中,cbat模型的实验效果都优于其它四种模型,说明本发明提出的模型更准确,有效的提高了水产病害多标签文本分类效果。
[0122]
实验结果如表2所示的交叉嵌入注意力机制思想的效果对比结果。从实验结果可以看出,在准确率、召回率和f1值3个评价指标中,cbat模型的实验效果优于非交叉嵌入注意力机制思想的模型,说明本发明提出的模型更准确,有效的提高了水产病害多标签文本分类效果。
[0123]
表1各类别分类结果对比
[0124][0125]
表2交叉嵌入注意力机制思想的效果对比结果
[0126][0127]
本技术是参照根据本技术的方法、设备(系统)的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0128]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0129]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0130]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
技术特征:
1.一种交叉嵌入式注意力bilstm多标签文本分类方法,其特征在于,包括步骤s1:获取水产病害数据集;步骤s2:通过词嵌入表示将所述水产病害数据集的每一条数据的每个字的字符向量和位置向量相加获取词嵌入向量;步骤s3:根据所述词嵌入向量,roberta层输出所述水产病害数据集的每一条数据的词级别的语义表示;步骤s4:根据所述语义表示,bilstm层获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;步骤s5:根据所述潜在语义向量,text cnn层获取水产病害文本特征向量;步骤s6:softmax层根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别。2.根据权利要求1所述的交叉嵌入式注意力bilstm多标签文本分类方法,其特征在于,模型训练阶段步骤s1的获取水产病害数据集,包括s101.获取数据资源:根据水产病害的重点研究对象,围绕水产动物所患疾病名称、疾病流行温度、疾病防治方法等,搜集水产动物疾病相关网站、电子图书和相关文献的数据资源;s102.分类数据:根据获取的数据资源,在水产病害文本多标签分类语料库中定义类别;s103.数据清洗,获取水产病害数据集。3.根据权利要求2所述的交叉嵌入式注意力bilstm多标签文本分类方法,其特征在于,定义类别包括投喂治疗、流行地区、流行时间、浸泡治疗、状态症状、部位症状和预防治疗。4.根据权利要求1所述的交叉嵌入式注意力bilstm多标签文本分类方法,其特征在于,步骤s3中roberta层通过动态掩码机制把预训练数据复制10份,并逐份选取15%的字符进行mask,使模型训练时动态改变被mask的字符。5.根据权利要求1-4任一项所述的交叉嵌入式注意力bilstm多标签文本分类方法,其特征在于,其中,所述步骤s4中的所述bilstm层的第一种lstm的隐藏层的单向传播方向与第二种lstm的隐藏层的单向传播方向相反,不同节点对应的第一种lstm的隐藏层单向连接形成第一种lstm的隐藏层的单向传播方向,不同节点对应的第二种lstm的隐藏层单向连接形成第二种lstm的隐藏层的单向传播方向;步骤s4的所述根据所述语义表示,bilstm层获取所述语义表示的上下文语义信息的方法,包括s401.一个节点的所述语义表示w
i
分别输入所述一个节点对应的一个第一种lstm以及所述一个节点对应的一个第二种lstm中学习上文表示c
f
(w
i
)和下文表示c
b
(w
i
),由公式(1)和公式(2)表示:c
f
(w
i
)=f(w
(f)
c
f
(w
i-1
))
ꢀꢀꢀꢀ
(1)c
b
(w
i
)=f(w
(b)
c
b
(w
i+1
))
ꢀꢀꢀꢀ
(2)其中w
(f)
表示前向lstm的权重矩阵,w
(b)
表示后向lstm的权重矩阵;s402.将上文表示c
f
(w
i
)和下文表示c
b
(w
i
)分别进行注意力提取,获取优化特征b
f
和b
b
,由公式(3)和公式(4)表示:
其中w
it
表示wi的转置向量,n表示注意力变量的个数;s403.将优化特征b
f
和b
b
拼接获取向量a
i
,由公式(5)表示:a
i
=[b
f
,b
b
]
ꢀꢀꢀꢀ
(5)s404.将向量a
i
作为所述语义表示w
i
学习之后的的语义表示,通过tanh激活函数计算后输出,得到语义表示w
i
的潜在语义向量h,由公式(6)表示:h=tan h(wa
i
+b)
ꢀꢀꢀꢀ
(6)其中w与b表示权重参数。6.根据权利要求5所述的交叉嵌入式注意力bilstm多标签文本分类方法,其特征在于,步骤s5的根据所述潜在语义向量,text cnn层提取水产病害文本特征向量特征的方法,包括s501.text cnn层的三种卷积核对bilstm模型获取的语义表示w
i
的潜在语义向量h进行特征提取,所述三种卷积核第二维的维度与潜在语义向量h的第二维的维度一致,移动并提取潜在语义向量h的卷积特征,由公式(7)和公式(8)表示:v
i
=f(w
c
·
h
i:i+m-1
+b)
ꢀꢀꢀꢀ
(7)v=[v1,v2,
…
,v
n
]
ꢀꢀꢀꢀꢀ
(8)其中w
c
为权重矩阵,m为卷积的滑动步长,h
i:i+m-1
表示从潜在语义向量h第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为sigmoid激活函数,v
i
表示第i个位置的卷积特征值,v表示卷积特征的集合;s502.将卷积特征的集合v通过池化层,最大池化层对卷积特征的集合v的卷积特征的特征图压缩,通过不同卷积核提取特征向量u,由公式(9)表示:u=max{v}
ꢀꢀꢀꢀ
(9)s503.将步骤s502提取的所述特征向量u进行拼接,形成特征序列e
c
,由公式(10)所示:e
c
=[u1,u2,
…
,u
n
]
ꢀꢀꢀꢀ
(10)其中n表示特征数量的个数;s504.将所述特征序列e
c
由relu函数激活得到所述水产病害文本特征向量。7.一种交叉嵌入式注意力bilstm多标签文本分类模型,其特征在于,包括roberta层,根据所述词嵌入向量输出水产病害数据集的每一条数据的词级别的语义表示,所述词嵌入向量通过词嵌入表示将获取的水产病害数据集的每一条数据的每个字的字符向量和位置向量相加而获取;bilstm层,根据所述语义表示获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;text cnn层,根据所述潜在语义向量获取水产病害文本特征向量;softmax层,根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别。
8.根据权利要求7所述的交叉嵌入式注意力bilstm多标签文本分类模型,其特征在于,其中,所述bilstm层的第一种lstm的隐藏层的单向传播方向与第二种lstm的隐藏层的单向传播方向相反,不同节点对应的第一种lstm的隐藏层单向连接形成第一种lstm的隐藏层的单向传播方向,不同节点对应的第二种lstm的隐藏层单向连接形成第二种lstm的隐藏层的单向传播方向;所述bilstm层基于如下方式获取所述语义表示的上下文语义信息:一个节点的所述语义表示w
i
分别输入所述一个节点对应的一个第一种lstm以及所述一个节点对应的一个第二种lstm中学习上文表示c
f
(w
i
)和下文表示c
b
(w
i
),由公式(1)和公式(2)表示:c
f
(w
i
)=f(w
(f)
c
f
(w
i-1
))
ꢀꢀꢀꢀ
(1)c
b
(w
i
)=f(w
(b)
c
b
(w
i+1
))
ꢀꢀꢀꢀ
(2)其中w
(f)
和w
(b)
分别为前后向的权重矩阵;将上文表示c
f
(w
i
)和下文表示c
b
(w
i
)分别进行注意力提取,获取优化特征b
f
和b
b
,由公式(3)和公式(4)表示:式(3)和公式(4)表示:其中;将优化特征b
f
和b
b
拼接获取向量a
i
,由公式(5)表示:a
i
=[b
f
,b
b
]
ꢀꢀꢀꢀ
(5)将向量a
i
作为所述语义表示w
i
学习之后的的语义表示,通过tanh激活函数计算后输出,得到语义表示w
i
的潜在语义向量h,由公式(6)表示:h=tan h(wa
i
+b)
ꢀꢀꢀꢀ
(6)其中。9.根据权利要求8所述的交叉嵌入式注意力bilstm多标签文本分类模型,其特征在于,所述text cnn层基于如下方式根据所述潜在语义向量提取水产病害文本特征向量特征:text cnn层的三种卷积核对bilstm模型获取的语义表示w
i
的潜在语义向量h进行特征提取,所述三种卷积核第二维的维度与潜在语义向量h的第二维的维度一致,移动并提取潜在语义向量h的卷积特征,由公式(7)和公式(8)表示:v
i
=f(w
c
·
h
i:i+m-1
+b)
ꢀꢀꢀꢀ
(7)v=[v1,v2,
…
,v
n
]
ꢀꢀꢀꢀ
(8)其中w
c
为权重矩阵,m为卷积的滑动步长,h
i:i+m-1
表示从潜在语义向量h第i个位置开始移动m个词向量所组成的矩阵表示,b为偏差项,f为sigmoid激活函数,v
i
表示第i个位置的卷积特征值,v表示卷积特征的集合;将卷积特征的集合v通过池化层,最大池化层对卷积特征的集合v的卷积特征的特征图压缩,通过不同卷积核提取特征向量,由公式(9)表示:
u=max{v}
ꢀꢀꢀꢀ
(9)将提取的所述特征向量进行拼接,形成特征序列e
c
,由公式(10)所示:e
c
=[u1,u2,
…
,u
n
]
ꢀꢀꢀꢀ
(10)将所述特征序列e
c
由relu函数激活得到所述水产病害文本特征向量。10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~6中任一项所述的方法中的步骤。
技术总结
交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备,属于深度学习的文本分类领域,用于解决因句式特征复杂,专有名词过长且频度副词多,导致的水产病害文本分类中不能全面地学习文本特征的问题。要点是根据所述词嵌入向量根据所述语义表示,获取所述语义表示的上文表示、下文表示,根据所述上、下文表示获取语义表示的潜在语义向量;根据所述潜在语义向量,获取水产病害文本特征向量;根据所述水产病害文本特征向量计算样本属于每个类别的概率,判断文本可能属于的分类标签类别,效果是有效的提高了水产病害多标签文本分类效果。有效的提高了水产病害多标签文本分类效果。有效的提高了水产病害多标签文本分类效果。
技术研发人员:张思佳 喻文甫 王水涛 孙华 付巍巍 王贵艳
受保护的技术使用者:大连海洋大学
技术研发日:2023.02.16
技术公布日:2023/7/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/