基于层次特征图网络的文本宣传意图识别方法及系统
未命名
09-29
阅读:93
评论:0
1.本发明涉及自然语言处理技术领域,尤其涉及一种基于层次特征图网络的文本宣传意图识别方法及系统。
背景技术:
2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.自媒体正逐渐取代传统媒体成为传播主体,带有鼓动宣传性的新闻文本传播更具爆炸性。然而,鼓动宣传性内容总是隐藏在自媒体新闻文本中,通过误导性的信息来影响读者的心态。鼓动宣传性新闻使用重复信息、逻辑谬论、句型转换等写作技巧来说服读者,通过对社会话题大肆渲染并带偏舆论,影响其他个人或团体的意见或行动以达到特定目的,令网络舆论呈现出混杂、焦灼态势。因此,有效识别鼓动宣传性新闻已经成为营造清朗网络空间的前提。
4.新闻鼓动宣传意图识别是一种文本分类任务,现有技术主要包括基于文章的分类方法、基于句子的分类方法和基于多模态的分类方法这三类文本意图识别及分类方法。其中:
5.(1)基于文章的分类方法,这一种方法通过对新闻文章整体进行粗粒度水平分析,即根据文章的语言特征进行分类。在大部分情况下,鼓动宣传性的标签通常在新闻媒体上,而非在新闻文章上,因此通常将鼓动宣传性新闻媒体发布的所有文章都标记上鼓动宣传性标签。然而,根据研究表明,鼓动宣传性新闻媒体也会发布非鼓动宣传性新闻,以增加媒体的可信度;非鼓动宣传性新闻媒体也会偶尔发布鼓动宣传性新闻,以增加媒体的流量。因此,这类方法会带来噪声问题,无法准确识别来自陌生来源的新闻。
6.(2)基于句子的分类方法,这一种方法通过对新闻中的具体文本进行细粒度水平分析,即根据新闻文本本身和上下文提取的特征进行分类。传统机器学习方法主要依赖于人工提取新闻内容特征,这种方法虽然易于解释,但需要手动设计特征,因此需要领域专家的知识和经验。与传统机器学习方式相比,深度学习模型能够通过不断加深网络,提取更深层次的文本特征,但处理复杂语法结构的文本会限制神经网络的表达能力。基于transformer的预训练模型被广泛应用于鼓动宣传意图识别,该类模型通过微调大型语料库捕获单词和上下文信息之间的长距离依赖关系,然而,由于预训练的权重较大,在训练较小规模的数据集时容易出现过拟合。
7.(3)基于多模态的分类方法,这一种方法通过对文本和图像进行联合建模提高鼓动宣传识别的性能,然而,当前的多模态鼓动宣传识别模型对不同模态信息进行独立编码,缺少模态间的高阶互补信息,导致最终识别精度较差。
8.图神经网络因能够捕捉全局结构信息,而被广泛应用于文本分类任务。然而,使用现有图神经网络进行鼓动宣传意图识别存在一些局限性,主要存在以下问题:
9.(1)自媒体数据包含很多嘈杂的数据,比如表情符号、标点符号和不可读的代码
等,影响数据分析;
10.(2)现有图神经网络表示缺少词间的多样依赖关系,不同文本图之间信息增强缺少联合学习,难以提取复杂多样的宣传技巧特点用于鼓动宣传意图的识别;
11.(3)现有的图神经网络无法同时获取节点的局部信息和全局信息,不能有效地挖掘文本中潜藏的鼓动宣传技巧,识别具有隐蔽性的鼓动宣传新闻。
技术实现要素:
12.为解决上述现有技术的不足,本发明提供了一种基于层次特征图网络的文本宣传意图识别方法及系统,构建层次特征图网络,提取文本的序列、句法和语义特征,挖掘词语在文本中的共现、语义和句法关系,扩大节点信息的更新范围,实现长距离节点之间和未直接连接节点之间的信息交互,挖掘文本中潜藏的鼓动宣传技巧;聚合多图最相关的序列、句法和语义信息,增强不同词语之间依赖关系的表示,提取复杂多样的宣传技巧特征用于鼓动宣传意图的识别,提高鼓动宣传意图识别的精度。
13.第一方面,本公开提供了一种基于层次特征图网络的文本宣传意图识别方法。
14.一种基于层次特征图网络的文本宣传意图识别方法,包括:
15.获取待识别文本,对待识别文本进行预处理;
16.基于预处理后的待识别文本,提取文本的序列特征、句法特征和语义特征,并根据提取的特征分别构建对应的文本特征图,获取特征图向量;
17.基于每一文本特征的特征图向量,采用残差连接的双层粗细化操作传播图内同构节点信息,扩大节点信息的更新范围,更新节点的上下文特征表示,得到节点向量;
18.基于节点向量,采用基于注意力的三通道集成操作聚合多图最相关的序列、句法和语义信息,增强图间异构节点信息,得到节点增强向量;
19.基于节点增强向量,对三张文本特征图的节点增强向量进行池化融合,得到文本向量;
20.基于文本向量,通过分类器进行最终的分类判定,得到待识别文本的识别结果。
21.第二方面,本公开提供了一种基于层次特征图网络的文本宣传意图识别系统。
22.一种基于层次特征图网络的文本宣传意图识别系统,包括:
23.文本获取及预处理模块,用于获取待识别文本,对待识别文本进行预处理;
24.特征向量构建模块,用于基于预处理后的待识别文本,提取文本的序列特征、句法特征和语义特征,并根据提取的特征分别构建对应的文本特征图,获取特征图向量;
25.信息传播模块,用于基于每一文本特征的特征图向量,采用残差连接的双层粗细化操作传播图内同构节点信息,扩大节点信息的更新范围,更新节点的上下文特征表示,得到节点向量;
26.信息增强模块,用于基于节点向量,采用基于注意力的三通道集成操作聚合多图最相关的序列、句法和语义信息,增强图间异构节点信息,得到节点增强向量;
27.文本向量获取模块,用于基于节点增强向量,对三张文本特征图的节点增强向量进行池化融合,得到文本向量;
28.分类模块,用于基于文本向量,通过分类器进行最终的分类判定,得到待识别文本的识别结果。
29.第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
30.第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
31.以上一个或多个技术方案存在以下有益效果:
32.1、本发明提供了一种基于层次特征图网络的文本宣传意图识别方法及系统,构建了层次特征图网络,提取文本的序列、句法和语义特征,挖掘词语在文本中的共现、语义和语法关系,通过残差连接的双层粗细化操作,扩大节点信息的更新范围,实现长距离节点之间和未直接连接节点之间的信息交互,深入挖掘文本中潜藏的鼓动宣传技巧,识别具有隐蔽性的鼓动宣传新闻,提高了鼓动宣传意图识别的准确率。
33.2、本发明通过基于注意力的三通道特征集成操作,聚合多图最相关的序列、句法和语义信息,增强单词依赖关系的表示,以此提取复杂多样的宣传技巧特点,用于鼓动宣传意图识别,提高了鼓动宣传意图识别的精度。
附图说明
34.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
35.图1为本发明实施例所述基于层次特征图网络的文本宣传意图识别方法的整体框架图;
36.图2为本发明实施例中文本预处理的流程图;
37.图3为本发明实施例中句法特征提取的示意图;
38.图4为本发明实施例中语义特征提取的流程示意图;
39.图5是本发明实施例中残差连接的双层粗细化操作的流程图;
40.图6是本发明实施例中基于注意力的三通道特征集成操作的流程图;
41.图7是本发明实施例中基于序列增强通道增强序列特征的流程图。
具体实施方式
42.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
43.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
44.实施例一
45.本实施例提供了一种基于层次特征图网络的文本宣传意图识别方法,如图1所示,具体包括以下步骤:
46.步骤s1、获取待识别文本,对待识别文本进行预处理;
47.步骤s2、基于预处理后的待识别文本,提取文本的序列特征、句法特征和语义特征,并根据提取的特征分别构建对应的文本特征图,获取特征图向量;
48.步骤s3、基于每一文本特征的特征图向量,采用残差连接的双层粗细化操作传播图内同构节点信息,扩大节点信息的更新范围,更新节点的上下文特征表示,得到节点向量;
49.步骤s4、基于节点向量,采用基于注意力的三通道集成操作聚合多图最相关的序列、句法和语义信息,增强图间异构节点信息,得到节点增强向量;
50.步骤s5、基于节点增强向量,对三张文本特征图的节点增强向量进行池化融合,得到文本向量;
51.步骤s6、基于文本向量,通过分类器进行最终的分类判定,得到待识别文本的识别结果。
52.具体的,步骤s1中,首选获取待识别的自媒体新闻文本,对待识别文本进行预处理。自媒体相对于传统的电视、报纸等传统媒体而言,由于缺乏相关部门的严格检测和审核,很多内容充斥着错别字、表情符号等嘈杂数据。因此,如图2所示,对待识别的自媒体新闻文本进行预处理,首先对待识别文本进行数据清洗,依次经过删除多余字符(即清理文本)、分词、删除停用词、词干提取和单词小写,能够清除与鼓动宣传识别任务不相关的字符,此时得到整洁的文本,方便词典的构建,而且便于后续的数据处理;其次,该预处理还包括数据增强处理,包括同义词替换、随机插入、随机交换和随机删除,解决文本中存在的数据不平衡和标签数据不足问题。即,在本实施例中,所述文本的预处理包括数据清洗、分词、去除停用词、小写还原、词形简化、数据增强等操作。
53.上述预处理具体包括以下步骤:
54.步骤s1.1、对待识别文本进行数据清洗,清除与鼓动宣传识别任务不相关的字符,包括清理文本,去除文本中包含的url标签和标点符号等特殊字符;分词,以单词为单位对数据进行分词处理,得到数据的token序列;删除停用词,删除在文本中出现频率高但实际意义不大的单词;单词小写,将语料库中的单词全部转化、还原为小写字母;词干提取,利用nltk工具进行词形还原,简化词形,提取单词的词干。
55.步骤s1.2、对经过数据清洗后的待识别文本进行数据增强,包括同义词替换,随机选择句子中的一个单词,替换为其同义词,保持句子意思完整;随机插入,随机选择句子中的一个单词,并随机插入该单词的同义词;随机交换,随机选择句子中的两个单词并交换它们的位置;随机删除,随机选择句子中的一个单词并将其删除。通过上述数据增强操作,解决文本中存在的数据不平衡和标签数据不足问题。
56.步骤s2中,新闻的鼓动宣传可以通过重复信息、逻辑谬论、句型转换等多种宣传技巧来传播,因此,基于预处理后的待识别文本,提取文本的序列特征、句法特征和语义特征,并根据提取的特征分别构建三张文本特征图,获取三张特征图向量。其中,文本图是一种用于表示文本数据和文本之间关系的图结构,在本实施例中,文本图中的节点表示文本的单词,边表示某一种单词间关系;根据节点间的不同关系(序列、句法和语义),将其分为不同的文本特征图,即序列特征图、句法特征图和语义特征图。通过提取单词间的多样依赖关系,有效挖掘文本中不同类型的宣传技巧,通过鼓动宣传新闻特征的学习,使分类效果更加精确。其中,特征提取的步骤包括:
57.步骤s2.1、提取文本序列特征。借助滑动窗口机制,利用pmi描述文本中任意两个单词之间的共现信息,生成单词对序列权重。具体的,首先定义滑动窗口的大小为window_size,遍历文本内容,根据数据长度seq_len得到文本所包含的滑动窗口数目n
windows
;其次,统计单词wi、wj在语料库中存在的次数和单词对(wi,wj)在语料库中存在的次数;最后,利用pmi定义序列图中节点之间的边权值其中
58.步骤s2.2、提取文本句法特征。借助stanfordnlp对文本进行句法特征提取,统计每对词在整个语料库中具有句法依赖的次数,生成单词对句法权重。具体的,首先,利用stanfordnlp解析器提取每个单词之间的无向关系,提取结果如图3所示;其次,统计单词对(wi,wj)在语料库中具有语法依赖的次数n
ij
,统计具有句法关系的单词对在整个语料库中最多和最少的次数max
syn
、min
syn
;最后,定义语法图中节点之间的边权值
59.步骤s2.3、提取文本语义特征。借助bert提取单词的语义特征,并计算两个单词间的余弦相似度,统计每对词在整个语料库中具有相似语义的次数,生成单词对语义权重。文本语义特征的提取过程如图4所示,首先将文本输入bert中,获得其隐藏层向量h;其次,利用隐藏层向量h计算单词对(wi,wj)之间的余弦相似度为再次,设定相似度阈值ρ,若两个单词间的相似度值超过阈值ρ,则判定这两个词在当前文本中存在语义关系;接着,统计单词对(wi,wj)在语料库中具有语法依赖的次数n
ij
,统计具有句法关系的单词对在整个语料库中最多和最少的次数max
sem
、min
sem
;最后,定义语法图中节点之间的边权值
60.步骤s2.4、基于提取的文本序列特征、文本句法特征和文本语义特征,分别构建文本序列特征图g
seq
、文本句法特征图g
syn
和文本语义特征图g
sem
,每一张文本特征图均可表示为g=(v,e),获取三张特征图向量,其中,v(|v|=n)表示节点集合,e(e∈{w
seq
,w
syn
,w
sem
,})描述节点之间权重关系。
61.步骤s3中,基于每一文本特征的特征图向量,采用残差连接的双层粗细化操作传播图内同构节点信息,扩大节点信息的更新范围,更新节点的上下文特征表示,得到节点向量。通过捕捉不同层次之间的节点关系,有效挖掘文本中潜藏的鼓动宣传技巧,识别具有隐蔽性的鼓动宣传新闻。步骤s3实际上是图内同构节点信息的传播,首先采用残差连接的双层粗细化操作扩大节点的更新范围,然后采用协调层整合全局上下文信息,得到节点向量,具体包括以下步骤:
62.步骤s3.1、构建残差连接的双层粗细化架构,如图5所示,该架构包括两层,层内设有两个对称的粗化操作单元和细化操作单元,通过粗化操作和细化操作分别构建粗化图和细化图,层间设有下层细化图与上层粗化图节点表示的残差连接,用于更新上层节点信息。
63.步骤s3.2、针对每一文本特征图,通过图卷积(即图卷积神经网络gcn,graph convolutional network)聚合邻域信息,捕获文本图的结构特征和属性特征,获取文本图
的节点表示h(后简化称节点表示或图节点表示),基于图节点表示,利用所构建的残差连接的双层粗细化架构,将三张文本特征图分别采用残差连接的双层粗细化操作更新节点表示,具体包括以下步骤:
64.步骤s3.2.1、基于原始文本特征图,通过上层粗化操作将结构相似的节点聚合为超节点,生成上层粗化图,得到上层粗化图节点表示,其中,节点权重定义为超节点中包含的节点数量。具体的,若两个节点共享相同的邻居集,则认为这两个节点在结构上是等价的,因此,聚合结构等价节点为超节点;然后,除了上述共享相同邻居集的节点,选择结构相似度最大的节点对聚合为超节点,节点vi和节点vj之间结构相似度定义为:其中w
ij
是节点vi和节点vj之间边的权重,d(
·
)为节点权重;最后,剩余未被选择的节点自身构成超节点。通过粗化操作将上述结构相似的节点聚合为超节点,并生成上层粗化图g
′c,其节点表示矩阵为h
′c=m
t
h和邻接矩阵为a
′c=m
t
hm,其中,m∈rn×m为变换矩阵,n为原始文本图的节点数量,m为上层粗化图的节点数量,变换矩阵m定义为:
[0065][0066]
其中,g表示原始图,g
′c表示上层粗化图,vk表示超节点。
[0067]
步骤s3.2.2、基于上层粗化图,通过下层粗化操作再次聚合超节点,生成下层粗化图g
″c,其节点表示矩阵表示为h
″c。生成的下层粗化图通过细化操作恢复上层粗化图的原始拓扑结构,生成下层细化图g
″r,获得下层细化图节点表示h
″r。具体的,基于下层粗化图节点表示,计算当前层图的节点表示,获得细化后的文本图节点表示h
″r=m
′
th″c。
[0068]
步骤s3.2.3、上层粗化图和下层细化图的节点表示通过残差连接后,通过上层细化操作恢复文本图的原始拓扑结构,生成上层细化图g
′r,得到上层细化图节点表示h
′r。具体的,上层粗化图节点表示h
′c经过步骤s3.1.2进行非线性变化操作f(h
′c)=refine(coarse(h
′c)),其中coarse为粗化操作,refine为细化操作;然后,层间设有残差连接,即叠加上层粗化图节点表示h
′c和经过非线性变化的文本图节点表示f(h
′c),即h
′c+f(h
′c);最终,获得经过细化操作更新后的文本图节点表示h
′r。
[0069]
步骤s3.2.4、原始文本图和上层细化图的节点表示通过残差连接后,通过图卷积恢复,得到更新后的节点表示。
[0070]
步骤s3.3、构建协调层,将更新后的节点表示输入到协调层的图卷积网络中进行图卷积操作,整合全局上下文信息,得到节点向量。具体的,所述协调层包括具有softmax分类器的图卷积神经网络gcn,将最后一层残差连接后的文本图节点表示h
′c,c∈{seq,syn,sem}输入到gcn中,协调节点信息,获得全局上下文信息,即获得文本图节点向量sem}输入到gcn中,协调节点信息,获得全局上下文信息,即获得文本图节点向量
[0071]
步骤s4中,基于节点向量,采用基于注意力的三通道集成操作聚合多图最相关的序列、句法和语义信息,增强图间异构节点信息,得到节点增强向量。通过残差连接的双层粗细化操作能够更新文本图内的节点表示,但是序列、句法和语义特征之间彼此还是分割的,因此,本实施例采用基于注意力的三通道特征集成,在特定关系增强通道内融合其余特征信息,增强图内节点信息表示和单词间的依赖关系。这一步骤通过协调来自三个通道的
序列、句法和语义特征,反映不同特征之间的重要性差异,提取复杂多样的宣传技巧特点,用于鼓动宣传意图识别。
[0072]
具体的,如图6所示,构造序列增强通道、句法增强通道和语义增强通道这三种特征通道;其次,基于节点向量,根据特征增强算法,通过节点注意力策略和消息传递机制,获取当前通道外其他特征的增强表示,用于增强当前通道特征;最后,各通道内特征增强算法相互独立,通过矩阵运算实现多通道并行化,得到序列、句法和语义特征图的节点增强向量。基于序列增强通道、句法增强通道和语义增强通道,根据特征增强算法,分别获得序列、句法和语义特征图的节点增强向量,具体包括以下步骤:
[0073]
以序列增强通道为例,增强序列特征,如图7所示,步骤s4.1、根据语义关系图和句法关系图对序列关系图的重要性分配不同的权重;
[0074]
步骤s4.2、基于节点注意力策略,将语义关系和句法关系融合为单个增强矩阵;
[0075]
步骤s4.3、基于消息传递机制,融合序列关系和增强矩阵,增强文本的序列相关性表示,更新文本序列特征图的节点向量,得到节点增强向量。
[0076]
在本实施例中,首先,分别计算语义关系图和句法关系图对序列关系图的重要性分数αc=softmax(ffnc([h
seq
;hc])),c∈{syn,sem};其次,利用计算出的重要性分数,计算语义关系和句法关系的加权和o=α
synhsyn
+α
semhsem
;最后,使用门控机制,动态选择语义关系和句法关系,并与序列关系节点表示融合,融合为单个增强矩阵f=σ(w
seq
·
(h
seq
;o)+b
seq
),更新序列文本图节点向量h
′
seq
=f
·hseq
+(1-f)
·
o,此时得到节点增强向量。
[0077]
同样的,利用相似的方法进行句法特征增强和语义特征增强。其中,句法特征增强,包括:首先,分别计算序列关系图和语义关系图对句法关系图的重要性分数αc=softmax(ffnc([h
syn
;hc])),c∈{seq,sem};其次,利用计算出的重要性分数,计算序列关系和语义关系的加权和o=α
seqhseq
+α
semhsem
;最后,使用门控机制,动态选择序列关系和语义关系,并与句法关系节点表示融合,融合为单个增强矩阵f=σ(w
syn
·
(h
syn
;o)+b
syn
),更新句法文本图节点向量h
′
syn
=f
·hsyn
+(1-f)
·
o,此时得到节点增强向量。
[0078]
语义特征增强,包括:首先,分别计算序列关系图和句法关系图对语义关系图的重要性分数αc=softmax(ffnc([h
sem
;hc])),c∈{seq,syn};其次,利用计算出的重要性分数,计算序列关系和句法关系的加权和o=α
seqhseq
+α
synhsyn
;最后,使用门控机制,动态选择序列关系和句法关系,并与语义关系节点表示融合,融合为单个增强矩阵f=σ(w
sem
·
(h
sem
;o)+b
sem
),更新语义文本图节点向量h
′
sem
=f
·hsem
+(1-f)
·
o,此时得到节点增强向量。
[0079]
步骤s5中,基于节点增强向量,对三张文本特征图的节点增强向量进行池化融合,得到文本向量,为:h
final
=pooling(h
′
seq
,h
′
syn
,h
′
sem
)。
[0080]
最后,步骤s6中,基于文本向量,通过分类器进行最终的分类判断,判定文本是否具有鼓动宣传性,并将文本结果以可视化的方式展现给用户。
[0081]
本实施例上述所提出的文本意图识别方法中,构建了层次特征图网络,在该网络中依次进行特征提取、图内信息传播、图间信息增强和分类,通过提取文本的序列特征、语义特征和句法特征,并基于所提取的特征构建文本特征图得到特征图向量,对所构建的图进行分析,增强单词依赖关系的表示,深入挖掘文本中潜藏的鼓动宣传技巧。通过标注宣传意图的文本构建训练集来训练上述层次特征图网络,利用训练完成的层次特征图网络识别具有隐藏性的鼓动宣传新闻,提高鼓动宣传意图识别的准确率。
[0082]
实施例二
[0083]
本实施例提供了一种基于层次特征图网络的文本宣传意图识别系统,包括:
[0084]
文本获取及预处理模块,用于获取待识别文本,对待识别文本进行预处理;
[0085]
特征向量构建模块,用于基于预处理后的待识别文本,提取文本的序列特征、句法特征和语义特征,并根据提取的特征分别构建对应的文本特征图,获取特征图向量;
[0086]
信息传播模块,用于基于每一文本特征的特征图向量,采用残差连接的双层粗细化操作传播图内同构节点信息,扩大节点信息的更新范围,更新节点的上下文特征表示,得到节点向量;
[0087]
信息增强模块,用于基于节点向量,采用基于注意力的三通道集成操作聚合多图最相关的序列、句法和语义信息,增强图间异构节点信息,得到节点增强向量;
[0088]
文本向量获取模块,用于基于节点增强向量,对三张文本特征图的节点增强向量进行池化融合,得到文本向量;
[0089]
分类模块,用于基于文本向量,通过分类器进行最终的分类判定,得到待识别文本的识别结果。
[0090]
实施例三
[0091]
本实施例提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如上所述的基于层次特征图网络的文本宣传意图识别方法中的步骤。
[0092]
实施例四
[0093]
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成如上所述的基于层次特征图网络的文本宣传意图识别方法中的步骤。
[0094]
以上实施例二至四中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
[0095]
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
[0096]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0097]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
技术特征:
1.一种基于层次特征图网络的文本宣传意图识别方法,其特征是,包括:获取待识别文本,对待识别文本进行预处理;基于预处理后的待识别文本,提取文本的序列特征、句法特征和语义特征,并根据提取的特征分别构建对应的文本特征图,获取特征图向量;基于每一文本特征的特征图向量,采用残差连接的双层粗细化操作传播图内同构节点信息,扩大节点信息的更新范围,更新节点的上下文特征表示,得到节点向量;基于节点向量,采用基于注意力的三通道集成操作聚合多图最相关的序列、句法和语义信息,增强图间异构节点信息,得到节点增强向量;基于节点增强向量,对三张文本特征图的节点增强向量进行池化融合,得到文本向量;基于文本向量,通过分类器进行最终的分类判定,得到待识别文本的识别结果。2.如权利要求1所述的基于层次特征图网络的文本宣传意图识别方法,其特征是,所述预处理包括:对待识别文本进行数据清洗,所述数据清洗包括清理文本、分词、删除停用词、单词小写和词干提取;对经过数据清洗后的待识别文本进行数据增强,所述数据增强包括同义词替换、随机插入、随机交换和随机删除。3.如权利要求1所述的基于层次特征图网络的文本宣传意图识别方法,其特征是,所述提取文本的序列特征、句法特征和语义特征,包括:提取文本序列特征,为:基于滑动窗口机制,利用pmi描述文本中任意两个单词之间的共现信息,生成单词对序列权重;提取文本句法特征,为:基于stanfordnlp对文本进行句法特征提取,统计每对词在整个语料库中具有句法依赖的次数,生成单词对句法权重;提取文本语义特征,为:基于bert提取单词的语义特征,并计算两个单词间的余弦相似度,统计每对词在整个语料库中具有相似语义的次数,生成单词对语义权重。4.如权利要求1所述的基于层次特征图网络的文本宣传意图识别方法,其特征是,所述基于每一文本特征的特征图向量,采用残差连接的双层粗细化操作传播图内同构节点信息,扩大节点信息的更新范围,更新节点的上下文特征表示,得到节点向量,包括:构建残差连接的双层粗细化架构;针对每一文本特征图,通过图卷积聚合邻域信息,捕获文本特征图的结构特征和属性特征,获取文本图的节点表示,基于节点表示,利用所构建的残差连接的双层粗细化架构,将三张文本特征图分别采用残差连接的双层粗细化操作更新节点表示;构建协调层,将更新后的节点表示输入到协调层的图卷积网络中进行图卷积操作,整合全局上下文信息,得到节点向量。5.如权利要求4所述的基于层次特征图网络的文本宣传意图识别方法,其特征是,所述残差连接的双层粗细化架构包括两层,层内设有两个对称的粗化操作单元和细化操作单元,通过粗化操作和细化操作分别构建粗化图和细化图;层间设有下层细化图与上层粗化图节点表示的残差连接,用于更新上层节点信息。6.如权利要求4所述的基于层次特征图网络的文本宣传意图识别方法,其特征是,所述将三张文本特征图分别采用残差连接的双层粗细化操作更新节点表示,包括:
基于原始文本图,通过上层粗化操作将结构相似的节点聚合为超节点,生成上层粗化图,得到上层粗化图节点表示;基于上层粗化图,通过下层粗化操作再次聚合超节点,生成下层粗化图,生成的下层粗化图通过细化操作恢复上层粗化图的原始拓扑结构,生成下层细化图,获得下层细化图节点表示;上层粗化图和下层细化图的节点表示通过残差连接后,通过上层细化操作恢复文本图的原始拓扑结构,生成上层细化图,得到上层细化图节点表示;原始文本图和上层细化图的节点表示通过残差连接后,通过图卷积恢复,得到更新后的节点表示。7.如权利要求1所述的基于层次特征图网络的文本宣传意图识别方法,其特征是,所述基于节点向量,采用基于注意力的三通道集成操作聚合多图最相关的序列、句法和语义信息,增强图间异构节点信息,得到节点增强向量,包括:构造序列增强通道、句法增强通道和语义增强通道;基于节点向量,根据特征增强算法,通过节点注意力策略和消息传递机制,获取当前通道外其他特征的增强表示,用于增强当前通道特征;各通道内特征增强算法独立并行运行,分别得到序列、句法和语义特征图的节点增强向量。8.一种基于层次特征图网络的文本宣传意图识别系统,其特征是,包括:文本获取及预处理模块,用于获取待识别文本,对待识别文本进行预处理;特征向量构建模块,用于基于预处理后的待识别文本,提取文本的序列特征、句法特征和语义特征,并根据提取的特征分别构建对应的文本特征图,获取特征图向量;信息传播模块,用于基于每一文本特征的特征图向量,采用残差连接的双层粗细化操作传播图内同构节点信息,扩大节点信息的更新范围,更新节点的上下文特征表示,得到节点向量;信息增强模块,用于基于节点向量,采用基于注意力的三通道集成操作聚合多图最相关的序列、句法和语义信息,增强图间异构节点信息,得到节点增强向量;文本向量获取模块,用于基于节点增强向量,对三张文本特征图的节点增强向量进行池化融合,得到文本向量;分类模块,用于基于文本向量,通过分类器进行最终的分类判定,得到待识别文本的识别结果。9.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如权利要求1-7中任一项所述的一种基于层次特征图网络的文本宣传意图识别方法的步骤。10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成如权利要求1-7中任一项所述的一种基于层次特征图网络的文本宣传意图识别方法的步骤。
技术总结
本发明公开了一种基于层次特征图网络的文本宣传意图识别方法及系统,该方法包括:基于预处理后的待识别文本,提取文本的序列、句法和语义特征,并根据提取的特征分别构建对应的文本特征图,获取特征图向量;基于每一文本特征的特征图向量,采用残差连接的双层粗细化操作传播图内同构节点信息,更新节点的上下文特征表示,得到节点向量;基于节点向量,采用基于注意力的三通道集成操作聚合多图最相关的序列、句法和语义信息,增强图间异构节点信息,得到节点增强向量;对三张文本特征图的节点增强向量进行池化融合,得到文本向量,通过分类器进行最终的分类判定,得到待识别文本鼓动宣传意图识别精度更高的识别结果。传意图识别精度更高的识别结果。传意图识别精度更高的识别结果。
技术研发人员:马坤 刘心雨 刘筱云 纪科 陈贞翔 杨波
受保护的技术使用者:济南大学
技术研发日:2023.06.26
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/