一种基于语境表征的中文网络暴力语言检测方法及系统

未命名 09-29 阅读:94 评论:0


1.本发明涉及网络安全领域和自然语言处理的技术领域,尤其涉及一种基于语境表征的中文网络暴力语言检测方法及系统。


背景技术:

2.在社交网络环境中,暴力语言的表现形式有很多,比如诅咒、谩骂、诋毁、侮辱等,往往是网民对于热点事件的主观评价。当被大量复制和传播,这些暴力语言的攻击性和破坏力,容易给当事人造成严重的伤害,可能会让受害人遭受抑郁、焦虑等心理创伤。如果网络暴力得不到有效治理,将可能引发大众的不满情绪,甚至会对社会的和谐稳定造成威胁,产生恶劣的社会影响。
3.目前关于网络暴力语言的干预仍大量依赖人工介入,存在人力和时间代价的问题。这种基于关键词过滤的传统检测方法具有很大的局限性:
4.(1)网络环境具有复杂性和多样性,针对于不同社交平台,基于特征工程的网络暴力语言检测方法呈现出不同的结构特征,不具备通用性,且迁移能力较差。
5.(2)网络暴力语言的表达具有一定的主观性和语境依赖性,有些词语在不同的语境下表现出不同的含义,基于传统的语义建模方法无法有效判断语言的含义,模型的检测能力有待进一步提升。


技术实现要素:

6.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
7.鉴于上述现有存在的问题,提出了本发明。
8.因此,本发明目的是提供一种基于语境表征的中文网络暴力语言检测方法,解决目前关于网络暴力语言的干预存在大量依赖人工介入,人力和时间代价的问题。
9.为解决上述技术问题,本发明提供如下技术方案:
10.第一方面,本发明实施例提供了一种基于语境表征的中文网络暴力语言检测方法,包括:获取当前用户的网络评论数据;
11.构建暴力语言敏感禁止词典,将中文网络语言中的脏话使用情况以及具有明显人身攻击倾向的网络词汇添加到该词典中,提高方法的整体识别效率;
12.构建暴力语言检测模型,对用户的网络评论信息进行分析,检测是否包含网络暴力、情绪化攻击语言敏感词并输出分析结果;
13.其中,所述暴力语言检测模型,通过预训练模型nezha对当前用户的网络评论数据进行词嵌入编码,对文本进行上下文建模,作为提取到的文本向量特征表示;
14.将文本向量特征表示输入到bilstm层,捕获长距离依赖;
15.采用一个全连接网络进行输出连接;
16.通过softmax函数输出所述暴力语言检测模型的分析结果;
17.根据所述暴力语言检测模型输出的分析结果,判断该网络评论数据是否为网络禁止语言以及是否提示用户修改评论;
18.根据所述用户是否修改评论判断是否跳出检测流程得到检测结果。
19.作为本发明所述基于语境表征的中文网络暴力语言检测方法,其中:对用户的网络评论信息进行判断,检测是否包含网络暴力、情绪化攻击语言敏感词包括,
20.若不包含,则当前用户的网络评论数据默认为非网络暴力语言,正常发布;
21.若包含,则将当前用户的网络评论数据传入网络语言检测模型进行分析。
22.作为本发明所述基于语境表征的中文网络暴力语言检测方法,其中:通过预训练模型nezha对当前用户的网络评论数据进行词嵌入编码,对文本进行上下文建模,提取文本的特征表示包括,
23.采用函数相对位置编码,每个位置转换为它与其他位置的相对距离包括使用正弦编码矩阵和两个可训练的偏差项表示相对位置如下:
[0024][0025][0026]
其中,i,j表示索引位置,s
ij
表示由位置i和位置j的隐藏状态,分别考虑a
ij
的2k维和2k+1维的正弦函数编码,dz表示nezha模型的每个头的隐藏尺寸大小,即隐藏尺寸除以头的数目。
[0027]
作为本发明所述基于语境表征的中文网络暴力语言检测方法,其中:将文本的向量表示输入到bilstm层,捕获长距离依赖包括,
[0028]
lstm模型结构中,通过输入门i
t
、遗忘门f
t
和输出门o
t
三个门控机制,控制当前节点的信息输入、状态保持和信息输出,存储当前节点的候选记忆信息,输出门o
t
控制输出信息的获取,计算当前节点的隐藏状态信息h
t
如下:
[0029]it
=σ(w
xi
x
t
+w
hiht-1
+bi)
[0030]ft
=σ(w
xf
x
t
+w
hfht-1
+bf)
[0031]ot
=σ(w
xo
x
t
+w
hoht-1
+bo)
[0032][0033][0034]ht
=o
t
·
tanh(c
t
)
[0035]
其中,c
t
表示当前节点的记忆信息,通过保留之前的记忆信息和控制当前节点的输入信息x
t
,存储并更新第t个节点的记忆状态,w
xf
、w
hf
、w
xi
、w
hi
、w
xo
、w
ho
、w
xc
和w
hc
表示权重矩阵,bf、bi、bo和bc表示偏置向量。
[0036]
作为本发明所述基于语境表征的中文网络暴力语言检测方法,其中:还包括,
[0037]
bilstm将两个方向的lstm的隐状态输出进行拼接如下:
[0038][0039]
[0040][0041]
其中,表示前向lstm的隐状态信息,表示后面lstm的隐状态信息;
[0042]
将向量h
t
作为学习到的序列的长期依赖信息,并传递给下一节点。
[0043]
作为本发明所述基于语境表征的中文网络暴力语言检测方法,其中:采用一个全连接网络进行输出连接包括,
[0044]
以relu作为激活函数,进一步挖掘相关信息,避免梯度消失的问题;
[0045]
其中,relu激活函数公式如下:
[0046]
relu:f(x)=max(0,x)
[0047]
通过以下softmax函数对所有输出节点进行归一化处理,计算模型的分类结果并输出分析结果:
[0048][0049]
其中,c表示输出节点的个数,zi表示第i个节点的输出值,zj表示第j个节点的输出值。
[0050]
作为本发明所述基于语境表征的中文网络暴力语言检测方法,其中:根据所述用户是否修改评论判断是否跳出检测流程得到检测结果包括,
[0051]
若用户未修改评论,则跳出检测流程;
[0052]
若用户修改评论,则重新对用户的网络评论信息进行判断,检测是否包含网络暴力、情绪化攻击语言敏感词。
[0053]
第二方面,本发明实施例提供了一种基于语境表征的中文网络暴力语言检测系统,包括,
[0054]
输入层,获取当前用户的网络评论数据;
[0055]
词嵌入层,构建暴力语言敏感禁止词典,将中文网络语言中的脏话使用情况以及具有明显人身攻击倾向的网络词汇添加到该词典中,提高方法的整体识别效率;
[0056]
构建暴力语言检测模型,对用户的网络评论信息进行分析,检测是否包含网络暴力、情绪化攻击语言敏感词并输出分析结果;
[0057]
其中,所述暴力语言检测模型,通过预训练模型nezha对原始语句进行词嵌入编码,对文本进行上下文建模,提取文本的特征表示;
[0058]
bilstm层,捕获长距离依赖;
[0059]
全连接层,采用一个全连接网络进行输出连接;
[0060]
输出层,通过softmax函数输出模型的分析结果;
[0061]
根据所述暴力语言检测模型输出的分析结果,判断该网络评论数据是否为网络禁止语言以及是否提示用户修改评论;
[0062]
根据所述用户是否修改评论判断是否跳出检测流程得到检测结果。
[0063]
第三方面,本发明实施例提供了一种计算设备,包括:
[0064]
存储器和处理器;
[0065]
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器
实现如本发明任一实施例所述的基于语境表征的中文网络暴力语言检测方法。
[0066]
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现所述基于语境表征的中文网络暴力语言检测方法。
[0067]
本发明的有益效果:本发明基于语境表征的中文网络暴力语言检测方法,面向中文理解的神经语境表征模型,对于中文网络暴力语言具有更好的检测性能,具有很高的通用性,适用于普遍的中文网络社交平台。
附图说明
[0068]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0069]
图1为本发明一种基于语境表征的中文网络暴力语言检测方法的流程图。
[0070]
图2为本发明一种基于语境表征的中文网络暴力语言检测系统的检测模块结构图。
具体实施方式
[0071]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
[0072]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0073]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0074]
再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0075]
实施例1
[0076]
参照图1~图2,为本发明的一个实施例,提供了一种基于语境表征的中文网络暴力语言检测方法,包括:
[0077]
如图1所示,本发明的具体流程如下:
[0078]
s1:获取并输入当前用户的网络评论数据。
[0079]
s2:构建暴力语言敏感禁止词典,将中文网络语言中的脏话使用情况以及具有明显人身攻击倾向的网络词汇添加到该词典中,提高方法的整体识别效率。
[0080]
s3:构建暴力语言检测模型,对用户的网络评论信息进行分析,检测是否包含网络暴力、情绪化攻击语言敏感词并输出分析结果。应说明的是:
[0081]
若不包含,则当前用户的网络评论数据默认为非网络暴力语言,正常发布;
[0082]
若包含,则将当前用户的网络评论数据传入网络语言检测模型进行分析。
[0083]
具体的,暴力语言检测模型,分析过程如下:
[0084]
通过预训练模型nezha对原始语句进行词嵌入编码,对文本进行上下文建模,作为提取到的文本向量特征表示,包括,
[0085]
采用函数相对位置编码,每个位置转换为它与其他位置的相对距离包括使用正弦编码矩阵和两个可训练的偏差项表示相对位置如下:
[0086][0087][0088]
其中,i,j表示索引位置,a
ij
表示由位置i和位置j的隐藏状态,分别考虑a
ij
的2k维和2k+1维的正弦函数编码,dz表示nezha模型的每个头的隐藏尺寸大小,即隐藏尺寸除以头的数目。
[0089]
将文本向量特征表示输入到bilstm层,捕获长距离依赖包括,
[0090]
lstm模型结构中,通过输入门i
t
、遗忘门f
t
和输出门o
t
三个门控机制,控制当前节点的信息输入、状态保持和信息输出,存储当前节点的候选记忆信息,输出门o
t
控制输出信息的获取,计算当前节点的隐藏状态信息h
t
如下:
[0091]it
=σ(w
xi
x
t
+w
hiht-1
+bi)
[0092]ft
=σ(w
xf
x
t
+w
hfht-1
+bf)
[0093]ot
=σ(w
xo
x
t
+w
hoht-1
+bo)
[0094][0095][0096]ht
=o
t
·
tanh(c
t
)
[0097]
其中,c
t
表示当前节点的记忆信息,通过保留之前的记忆信息和控制当前节点的输入信息x
t
,存储并更新第t个节点的记忆状态,w
xf
、w
hf
、w
xi
、w
hi
、w
xo
、w
ho
、w
xc
和w
hc
表示权重矩阵,bf、bi、bo和bc表示偏置向量。
[0098]
bilstm将两个方向的lstm的隐状态输出进行拼接如下:
[0099][0100][0101][0102]
其中,表示前向lstm的隐状态信息,表示后面lstm的隐状态信息;
[0103]
将向量h
t
作为学习到的序列的长期依赖信息,并传递给下一节点。
[0104]
采用一个全连接网络进行输出连接包括,
[0105]
以relu作为激活函数,进一步挖掘相关信息,避免梯度消失的问题;
[0106]
其中,relu激活函数公式如下:
[0107]
relu:f(x)=max(0,x)
[0108]
通过以下softmax函数对所有输出节点进行归一化处理,计算模型的分类结果并
输出分析结果:
[0109][0110]
其中,c表示输出节点的个数,zi表示第i个节点的输出值,zj表示第j个节点的输出值。
[0111]
s4:根据暴力语言检测模型输出的分析结果,判断该网络评论数据是否为网络禁止语言以及是否提示用户修改评论。
[0112]
s5:根据用户是否修改评论判断是否跳出检测流程得到检测结果。应说明的是:
[0113]
若用户未修改评论,则跳出检测流程;
[0114]
若用户修改评论,则重新对用户的网络评论信息进行判断,检测是否包含网络暴力、情绪化攻击语言敏感词。
[0115]
如图2所示,本实施例还提供一种基于语境表征的中文网络暴力语言检测系统,包括:
[0116]
输入层,获取当前用户的网络评论数据;
[0117]
词嵌入层,构建暴力语言敏感禁止词典,将中文网络语言中的脏话使用情况以及具有明显人身攻击倾向的网络词汇添加到该词典中,提高方法的整体识别效率;
[0118]
构建暴力语言检测模型,对用户的网络评论信息进行分析,检测是否包含网络暴力、情绪化攻击语言敏感词并输出分析结果;
[0119]
其中,暴力语言检测模型,通过预训练模型nezha对原始语句进行词嵌入编码,对文本进行上下文建模,提取文本的特征表示;
[0120]
bilstm层,捕获长距离依赖;
[0121]
全连接层,采用一个全连接网络进行输出连接;
[0122]
输出层,通过softmax函数输出模型的分析结果;
[0123]
根据暴力语言检测模型输出的分析结果,判断该网络评论数据是否为网络禁止语言以及是否提示用户修改评论;
[0124]
根据用户是否修改评论判断是否跳出检测流程得到检测结果。
[0125]
本实施例还提供一种计算设备,适用于基于语境表征的中文网络暴力语言检测方法的情况,包括:
[0126]
存储器和处理器;存储器用于存储计算机可执行指令,处理器用于执行计算机可执行指令,实现如上述实施例提出的基于语境表征的中文网络暴力语言检测方法。
[0127]
该计算机设备可以是终端,该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触
控板或鼠标等。
[0128]
本实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提出的实现基于语境表征的中文网络暴力语言检测方法。
[0129]
本实施例提出的存储介质与上述实施例提出的数据存储方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
[0130]
实施例2
[0131]
为本发明的另一个实施例,该实施例不同于第一个实施例的是,提供了一种基于语境表征的中文网络暴力语言检测方法的验证测试,对本方法中采用的技术效果加以验证说明。
[0132]
本发明采用杭州电子科技大学标注的公开数据集,进行整合处理后,用于验证模型的有效性。然后,在相同数据集上,分别采用word2vec和bert进行语言建模,作为对比模型。
[0133]
网络暴力语言检测作为二分类任务,采用的评价指标为准确率(accuracy)和f1值。准确率是分类器分类正确的样本数占总样本数的比例,f1值是精确率(precision)和召回率(recall)的调和平均数。
[0134][0135][0136][0137][0138]
其中,tp表示正例标签预测正确的个数,fn表示正例标签预测错误的个数,fp表示负例标签预测错误的个数,tn表示负例标签预测正确的个数。精确率表示模型避免误判的能力,召回率衡量了模型避免漏检的能力,f1值同时考虑了模型的错误率和漏检率,f1值越高表示模型的综合能力越好,证明越能从文本数据集中发现更多的暴力语言。
[0139]
表1.对比模型的预测结果
[0140][0141][0142]
由表1可知,对于中文网络暴力数据集,基于bert和nezha的网络模型的性能要远优于基于word2vec词嵌入的模型性能,相比于word2vec-bilstm模型,bert和nezha的accuracy值分别提升了5.85%和6.78%,f1值分别提升了9.21%和10.09%。相比于模型word2vec-bilstm、bert、bert-bilstm和nezha,nezha-bilstm的f1值分别提升了11.17%、1.97%、0.78%和1.08%。这表明对于中文网络暴力语言,基于上下文的表征方式具有一定
的有效性,并且相较于对比模型,本发明提出的基于nezha语境表征的改进模型表现最佳。综上实验表明,在中文网络暴力语言检测任务中,本发明提出的基于语境表征的nezha-bilstm模型性能表现最佳,具有较高的检测精度,为面向中文理解、跨平台的暴力语言检测以及社交网络的环境建设,提出了新的网络安全技术方案。
[0143]
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.一种基于语境表征的中文网络暴力语言检测方法,其特征在于:包括,获取并输入当前用户的网络评论数据;构建暴力语言敏感禁止词典,将中文网络语言中的脏话使用情况以及具有明显人身攻击倾向的网络词汇添加到该词典中,提高方法的整体识别效率;构建暴力语言检测模型,对用户的网络评论信息进行分析,检测是否包含网络暴力、情绪化攻击语言敏感词并输出分析结果;其中,所述暴力语言检测模型,通过预训练模型nezha对当前用户的网络评论数据进行词嵌入编码,对文本进行上下文建模,作为提取到的文本向量特征表示;将文本向量特征表示输入到bilstm层,捕获长距离依赖;采用一个全连接网络进行输出连接;通过softmax函数输出所述暴力语言检测模型的分析结果;根据所述暴力语言检测模型输出的分析结果,判断该网络评论数据是否为网络禁止语言以及是否提示用户修改评论;根据所述用户是否修改评论判断是否跳出检测流程得到检测结果。2.如权利要求1所述的一种基于语境表征的中文网络暴力语言检测方法,其特征在于:对用户的网络评论信息进行判断,检测是否包含网络暴力、情绪化攻击语言敏感词包括,若不包含,则当前用户的网络评论数据默认为非网络暴力语言,正常发布;若包含,则将当前用户的网络评论数据传入网络语言检测模型进行分析。3.如权利要求1所述的一种基于语境表征的中文网络暴力语言检测方法,其特征在于:通过预训练模型nezha对当前用户的网络评论数据进行词嵌入编码,对文本进行上下文建模,提取文本向量特征表示包括,采用函数相对位置编码,每个位置转换为它与其他位置的相对距离包括使用正弦编码矩阵和两个可训练的偏差项表示相对位置如下:矩阵和两个可训练的偏差项表示相对位置如下:其中,i,j表示索引位置,a
ij
表示由位置i和位置j的隐藏状态,分别考虑a
ij
的2k维和2k+1维的正弦函数编码,d
z
表示nezha模型的每个头的隐藏尺寸大小,即隐藏尺寸除以头的数目。4.如权利要求3所述的一种基于语境表征的中文网络暴力语言检测方法,其特征在于:将文本向量特征表示输入到bilstm层,捕获长距离依赖包括,lstm模型结构中,通过输入门i
t
、遗忘门f
t
和输出门o
t
三个门控机制,控制当前节点的信息输入、状态保持和信息输出,存储当前节点的候选记忆信息,输出门o
t
控制输出信息的获取,计算当前节点的隐藏状态信息h
t
如下:i
t
=σ(w
xi
x
t
+w
hi
h
t-1
+b
i
)f
t
=σ(w
xf
x
t
+w
hf
h
t-1
+b
f
)o
t
=σ(w
xo
x
t
+w
ho
h
t-1
+b
o
)
h
t
=o
t
·
tanh(c
t
)其中,c
t
表示当前节点的记忆信息,通过保留之前的记忆信息和控制当前节点的输入信息x
t
,存储并更新第t个节点的记忆状态,w
xf
、w
hf
、w
xi
、w
hi
、w
xo
、w
ho
、w
xc
和w
hc
表示权重矩阵,b
f
、b
i
、b
o
和b
c
表示偏置向量。5.如权利要求4所述的一种基于语境表征的中文网络暴力语言检测方法,其特征在于:还包括,bilstm将两个方向的lstm的隐状态输出进行拼接如下:bilstm将两个方向的lstm的隐状态输出进行拼接如下:bilstm将两个方向的lstm的隐状态输出进行拼接如下:其中,表示前向lstm的隐状态信息,表示后面lstm的隐状态信息;将向量h
t
作为学习到的序列的长期依赖信息,并传递给下一节点。6.如权利要求5所述的一种基于语境表征的中文网络暴力语言检测方法,其特征在于:采用一个全连接网络进行输出连接包括,以relu作为激活函数,进一步挖掘相关信息,避免梯度消失的问题;其中,relu激活函数公式如下:relu:f(x)=max(0,x)通过以下softmax函数对所有输出节点进行归一化处理,计算模型的分类结果并输出分析结果:其中,c表示输出节点的个数,z
i
表示第i个节点的输出值,z
j
表示第j个节点的输出值。7.如权利要求1所述的一种基于语境表征的中文网络暴力语言检测方法,其特征在于:根据所述用户是否修改评论判断是否跳出检测流程得到检测结果包括,若用户未修改评论,则跳出检测流程;若用户修改评论,则重新对用户的网络评论信息进行判断,检测是否包含网络暴力、情绪化攻击语言敏感词。8.一种基于语境表征的中文网络暴力语言检测系统,其特征在于,包括,输入层,获取当前用户的网络评论数据;词嵌入层,构建暴力语言敏感禁止词典,将中文网络语言中的脏话使用情况以及具有明显人身攻击倾向的网络词汇添加到该词典中,提高方法的整体识别效率;构建暴力语言检测模型,对用户的网络评论信息进行分析,检测是否包含网络暴力、情绪化攻击语言敏感词并输出分析结果;其中,所述暴力语言检测模型,通过预训练模型nezha对当前用户的网络评论数据进行词嵌入编码,对文本进行上下文建模,提取文本向量特征表示;
bilstm层,捕获长距离依赖;全连接层,采用一个全连接网络进行输出连接;输出层,通过softmax函数输出暴力语言检测模型的分析结果;根据所述暴力语言检测模型输出的分析结果,判断该网络评论数据是否为网络禁止语言以及是否提示用户修改评论;根据所述用户是否修改评论判断是否跳出检测流程得到检测结果。9.一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任意一项基于语境表征的中文网络暴力语言检测方法的步骤。10.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述一种基于语境表征的中文网络暴力语言检测方法的步骤。

技术总结
本发明公开了一种基于语境表征的中文网络暴力语言检测方法及系统,包括:获取当前用户的网络评论数据;构建暴力语言敏感禁止词典;构建暴力语言检测模型,通过预训练模型NEZHA对当前用户的网络评论数据进行词嵌入编码,对文本进行上下文建模,提取文本的特征表示;将文本的向量表示输入到BiLSTM层,捕获长距离依赖;采用一个全连接网络进行输出连接;通过softmax函数输出分析结果,判断数据是否为网络禁止语言以及是否提示用户修改评论,并判断是否跳出检测流程得到检测结果。本发明基于语境表征的中文网络暴力语言检测方法,面向中文理解的神经语境表征模型,对于中文网络暴力语言具有更好的检测性能以及通用性。力语言具有更好的检测性能以及通用性。力语言具有更好的检测性能以及通用性。


技术研发人员:王栋 梁晓静 许子鑫
受保护的技术使用者:上海应用技术大学
技术研发日:2023.04.19
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐