一种基于深度学习模型的图像敏感词识别方法与系统与流程

未命名 09-23 阅读:187 评论:0


1.本发明属于机器视觉和自然语言处理技术领域,尤其是涉及一种基于深度学习模型的图像敏感词识别方法与系统。


背景技术:

2.随着网络技术的不断发展,互联网信息数量均呈指数级增长,网络不良信息也越来越多,除了色情信息、图片和视频外,不良敏感词也是日益增多,不良敏感词识别作为一种检测网络不良信息的方法,日益受到重视。但是目前关于不良敏感词识别方法存在一定的检测漏洞,这些漏洞的形成主要是由于对于以图片形式展示的不良敏感词的检测精度要求较高,同时以图片形式展示不良敏感词的行为也越来越多,因此造成了传统不良敏感词识别方法具有不易识别以图片形式展示的不良敏感词的缺点。网站管理人员希望能够针对以图片形式展示的不良敏感词进行识别,进而拦截不良敏感词。因此,如何准确识别以图片形式展示的不良敏感词就变得尤为重要,对于以图片形式展示的不良敏感词的精准清楚可以成为清除网络不良信息的重要助力。
3.以图片形式展示的不良敏感词也可以称为图像敏感词。对图像敏感词识别相对一般文字敏感词识别具有较高难度,主要包括:一是图像文字识别的准确性。由于图像敏感词形式多样化,如何准确提炼图像文字中的不良敏感词是检测和识别图像敏感词的关键之一,也是难点之一。二是由于敏感词类别极其繁多,需要对含有敏感词的文字进行语义分析以及准确分词才能提高敏感词识别精度,但是由于图像文字识别具有一定误差,也会导致提取图像文字时出现文字割裂、乱码和识别不清楚等问题,也就增加了语义分析难度,会降低图像敏感词识别的精度,这也是检测和识别图像敏感词的难点之一。


技术实现要素:

4.本发明的目的是提供一种基于深度学习模型的图像敏感词识别方法与系统,以解决现有图像敏感词识别存在的易出现文字割裂、乱码和识别不清楚,语义分析难度高、识别精度低的问题。
5.本发明为解决技术问题所采用的技术方案如下:
6.本发明的一种基于深度学习模型的图像敏感词识别方法,包括以下步骤:
7.步骤一、数据收集;
8.收集图像数据集和敏感词数据集;
9.步骤二、数据标注;
10.对图像数据集进行敏感词标注,记录包含敏感词的图像数据序号、包含的敏感词和包含的敏感词数量;
11.步骤三、数据集划分;
12.将图像数据集进行划分,划分为训练集和测试集;
13.步骤四、模型训练;
14.针对训练集中的图像数据,按照步骤s4.1-s4.6进行模型训练:
15.步骤s4.1:图像文本区域检测;
16.步骤s4.2:图像文本区域文字识别;
17.步骤s4.3:图像文字数据集形成;
18.步骤s4.4:模型训练初始设置;
19.步骤s4.5:敏感词识别;
20.步骤s4.6:模型训练;
21.步骤五、图像敏感词识别;
22.针对待检测敏感词图像数据,按照步骤s5.1-s5.5进行模型训练:
23.步骤s5.1:图像文本区域检测;
24.步骤s5.2:文本区域文字识别;
25.步骤s5.3:文字分词;
26.步骤s5.4:图像敏感词识别;
27.步骤s5.5:图像敏感词处理,最终得到待检测敏感词图像数据的图像敏感词识别结果。
28.进一步的,步骤一中,所述图像数据集有两类,分别为包含敏感词和不包含敏感词的图像数据集;所述包含敏感词的图像数据集指的是图像中文字带有敏感词的图像文件集合,所述不包含敏感词的图像数据集指的是图像中文字没有敏感词的图像文件集合;
29.进一步的,步骤一中,所述敏感词数据集包括文字形式敏感词数据集和敏感词类别数据集。
30.进一步的,步骤三中,所述训练集和测试集中的图像数据量之比为7:3。
31.进一步的,步骤四的具体操作步骤如下:
32.步骤s4.1:图像文本区域检测;
33.针对训练集中的图像数据利用深度学习模型ctpn对图像中的文字进行检测,形成若干个图像文本区域,并按照从上到下的顺序和从左到右的顺序,标记每个图像文本区域序号;
34.步骤s4.2:图像文本区域文字识别;
35.利用深度学习模型crnn对步骤s4.1中的每个图像文本区域进行文字识别,提取图像文字;
36.步骤s4.3:图像文字数据集形成;
37.将文字识别后提取的图像文字按照图像文本区域顺序形成图像文字数据集;
38.步骤s4.4:模型训练初始设置;
39.设定深度学习分词模型jieba的参数;
40.步骤s4.5:敏感词识别;
41.针对步骤s4.3中形成的图像文字数据集,利用深度学习分词模型jieba对图像文字数据集进行分词;以敏感词匹配度和敏感词数量进行对比,对比敏感词标注结果计算得到敏感词识别准确率;
42.步骤s4.6:模型训练;
43.当敏感词识别准确率小于95%时,转入步骤s4.4继续调整深度学习分词模型
jieba的参数,随后进行步骤s4.5,直至敏感词识别准确率大于95%为止,停止训练,确定深度学习分词模型jieba的最终参数。
44.进一步的,步骤五的具体操作步骤如下:
45.步骤s5.1:图像文本区域检测;
46.利用深度学习模型ctpn对待检测敏感词图像数据进行文本区域检测,得到若干个文本区域;
47.步骤s5.2:文本区域文字识别;
48.利用深度学习模型crnn针对步骤s5.1中的每个文本区域进行文字识别,得到两种类型文字数据集:第一种为整体图像的文字数据集,第二种为整体图像中每个文本区域的文字数据集;
49.步骤s5.3:文字分词;
50.利用步骤s4.6得到的深度学习分词模型jieba,对步骤s5.2中得到的两种文字数据集进行分词,得到两种分词结果:第一种是整体图像的文字数据集分词结果,第二种是整体图像中每个文本区域的文字数据集分词结果;
51.步骤s5.4:图像敏感词识别;
52.将上述两种分词结果分别和步骤一中敏感词数据集进行匹配,得到两种形式敏感词识别结果;
53.步骤s5.5:图像敏感词处理;
54.对上述两种形式敏感词识别结果进行重复性检测,过滤掉重复性敏感词识别结果,最终得到待检测敏感词图像数据的图像敏感词识别结果。
55.本发明还提供一种电子设备,包括:存储器和处理器;所述存储器存储有可执行指令,所述处理器被配置为执行存储器中可执行指令以实现所述的一种基于深度学习模型的图像敏感词识别方法的步骤。
56.本发明还提供一种可读存储介质,该可存储介质上存储有可执行指令,可执行指令被处理器执行时实现所述的一种基于深度学习模型的图像敏感词识别方法的步骤。
57.本发明还提供一种基于深度学习模型的图像敏感词识别系统,该系统包括:图像数据获取设备、一种电子设备和一种可读存储介质。
58.本发明的有益效果是:
59.本发明的一种基于深度学习模型的图像敏感词识别方法及系统,可以提高图像敏感词的识别精度,降低语义分析难度。同时本发明的一种基于深度学习模型的图像敏感词识别方法及系统,解决了现有图像敏感词识别存在的易出现文字割裂、乱码和识别不清楚的问题,可以和目前现有网络不良信息检测系统进行集成,实现图像敏感词识别,进而完成不良图像敏感词检测识别任务。
附图说明
60.图1为本发明的一种基于深度学习模型的图像敏感词识别方法的流程图。
具体实施方式
61.下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,
显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
62.第一方面,本具体实施方式提供了一种基于深度学习模型的图像敏感词识别方法,主要包括:数据收集

数据集划分

模型训练

图像敏感词识别;通过本发明的一种基于深度学习模型的图像敏感词识别方法,可以针对图像中的敏感词进行识别、分析,达到图像敏感词精准识别的目的。
63.如图1所示,本发明的一种基于深度学习模型的图像敏感词识别方法,具体操作步骤如下:
64.步骤一、数据收集;
65.收集图像数据集(含敏感词或不含敏感词)和敏感词数据集,图像数据集有两类,分别为包含敏感词和不包含敏感词的图像数据集,其中包含敏感词的图像数据集指的是图像中文字带有敏感词的图像文件集合,不包含敏感词的图像数据集指的是图像中文字没有敏感词的图像文件集合;敏感词数据集包括一定数量的文字形式敏感词数据集和敏感词类别数据集等。
66.步骤二、数据标注;
67.对步骤一获得的图像数据集进行敏感词标注,记录包含敏感词的图像数据序号、包含的敏感词以及包含的敏感词数量。
68.步骤三、数据集划分;
69.将图像数据集进行划分,划分为训练集和测试集,训练集和测试集中的图像数据量之比为7:3。
70.步骤四、模型训练;
71.针对训练集中的图像数据,按照步骤s4.1-s4.6进行模型训练。具体操作步骤如下:
72.步骤s4.1:图像文本区域检测;
73.针对训练集中的图像数据利用深度学习模型ctpn(connectionisttext proposalnetwork)对图像中的文字进行检测,形成若干个图像文本区域,并按照从上到下的顺序和从左到右的顺序(由于图像数据可能含有多行文本,一个图像文本区域有可能只包含一行的部分文字,所以从上到下的顺序和从左到右的顺序,是指从图像左上角开始,针对水平方向,是从左到右,针对垂直方向,是从上到下),标记每个图像文本区域序号。
74.步骤s4.2:图像文本区域文字识别;
75.利用深度学习模型crnn(convolutionalrecurrentneuralnetwork)对步骤s4.1中的每个图像文本区域进行文字识别(需要注意的是,此处所说的文字识别不是对图像进行直接识别),提取图像文字。
76.步骤s4.3:图像文字数据集形成;
77.将文字识别后提取的图像文字按照图像文本区域顺序形成图像文字数据集。
78.步骤s4.4:模型训练初始设置;
79.设定深度学习分词模型jieba(结巴分词)的参数(包括模式、自定义词典、关键词频次、迭代最大次数等)。jieba(结巴分词)是优秀的中文分词第三方库。
80.步骤s4.5:敏感词识别;
81.针对步骤s4.3中形成的图像文字数据集,利用深度学习分词模型jieba(结巴分词)对图像文字数据集进行分词;以敏感词匹配度和敏感词数量进行对比,对比敏感词标注结果计算得到敏感词识别准确率。计算时,针对样本数据集,利用人工统计所有图像数据的敏感词,标记每张图像数据敏感词出现位置和图像中出现敏感词的数量,这里是和人工统计数据进行比对,得到敏感词识别准确率。
82.步骤s4.6:模型训练;
83.当敏感词识别准确率小于95%时,转入步骤s4.4继续调整深度学习分词模型jieba的参数,随后进行步骤s4.5,直至敏感词识别准确率大于95%为止,停止训练,确定深度学习分词模型jieba的最终参数。
84.步骤五、图像敏感词识别;
85.针对待检测敏感词图像数据,按照步骤s5.1-s5.5进行模型训练。这里所说的待检测敏感词图像数据可以是测试集中的图像数据,也可以是其它待检测敏感词图像数据。具体操作步骤如下:
86.步骤s5.1:图像文本区域检测;
87.利用步骤s4.1中的深度学习模型ctpn(connectionisttextproposal network)对待检测敏感词图像数据进行文本区域检测,得到若干个文本区域。
88.步骤s5.2:文本区域文字识别;
89.利用步骤s4.2中的深度学习模型crnn(convolutionalrecurrentneural network)针对步骤s5.1中的每个文本区域进行文字识别,得到两种类型文字数据集:第一种为整体图像的文字数据集,第二种为整体图像中每个文本区域的文字数据集。
90.步骤s5.3:文字分词;
91.利用步骤s4.6得到的深度学习分词模型jieba,对步骤s5.2中得到的两种文字数据集进行分词,得到两种分词结果:第一种是整体图像的文字数据集分词结果,第二种是整体图像中每个文本区域的文字数据集分词结果。
92.步骤s5.4:图像敏感词识别;
93.将上述两种分词结果分别和步骤一中敏感词数据集进行匹配,得到两种形式敏感词识别结果。
94.步骤s5.5:图像敏感词处理;
95.对上述两种形式敏感词识别结果进行重复性检测,过滤掉重复性敏感词识别结果,最终得到待检测敏感词图像数据的图像敏感词识别结果。
96.第二方面,本具体实施方式还提供了一种电子设备,该电子设备包括:存储器以及处理器。其中,存储器存储有可执行指令,处理器被配置为执行存储器中可执行指令以实现上述第一方面提供的一种基于深度学习模型的图像敏感词识别方法的步骤,处理器具体可选用微处理器(microcontrollerunit,mcu),但不限于此。
97.第三方面,本具体实施方式还提供了一种可读存储介质,该可存储介质上存储有可执行指令,可执行指令被处理器执行时实现上述第一方面提供的一种基于深度学习模型的图像敏感词识别方法的步骤。其中,该可存储介质具体可选用u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory)、磁碟或者光盘等,但不
限于此。
98.第四方面,本具体实施方式还提供了一种基于深度学习模型的图像敏感词识别系统,上述第一方面提供的一种基于深度学习模型的图像敏感词识别方法、上述第二方面提供的一种电子设备以及上述第三方面提供的一种可读存储介质均应用于一种基于深度学习模型的图像敏感词识别系统。该一种基于深度学习模型的图像敏感词识别系统主要包括:图像数据获取设备和硬件执行端。硬件执行端主要包括上述第二方面提供的一种电子设备和上述第三方面提供的一种可读存储介质。
99.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种基于深度学习模型的图像敏感词识别方法,其特征在于,包括以下步骤:步骤一、数据收集;收集图像数据集和敏感词数据集;步骤二、数据标注;对图像数据集进行敏感词标注,记录包含敏感词的图像数据序号、包含的敏感词和包含的敏感词数量;步骤三、数据集划分;将图像数据集进行划分,划分为训练集和测试集;步骤四、模型训练;针对训练集中的图像数据,按照步骤s4.1-s4.6进行模型训练:步骤s4.1:图像文本区域检测;步骤s4.2:图像文本区域文字识别;步骤s4.3:图像文字数据集形成;步骤s4.4:模型训练初始设置;步骤s4.5:敏感词识别;步骤s4.6:模型训练;步骤五、图像敏感词识别;针对待检测敏感词图像数据,按照步骤s5.1-s5.5进行模型训练:步骤s5.1:图像文本区域检测;步骤s5.2:文本区域文字识别;步骤s5.3:文字分词;步骤s5.4:图像敏感词识别;步骤s5.5:图像敏感词处理,最终得到待检测敏感词图像数据的图像敏感词识别结果。2.根据权利要求1所述的一种基于深度学习模型的图像敏感词识别方法,其特征在于,步骤一中,所述图像数据集有两类,分别为包含敏感词和不包含敏感词的图像数据集;所述包含敏感词的图像数据集指的是图像中文字带有敏感词的图像文件集合,所述不包含敏感词的图像数据集指的是图像中文字没有敏感词的图像文件集合。3.根据权利要求1所述的一种基于深度学习模型的图像敏感词识别方法,其特征在于,步骤一中,所述敏感词数据集包括文字形式敏感词数据集和敏感词类别数据集。4.根据权利要求1所述的一种基于深度学习模型的图像敏感词识别方法,其特征在于,步骤三中,所述训练集和测试集中的图像数据量之比为7:3。5.根据权利要求1所述的一种基于深度学习模型的图像敏感词识别方法,其特征在于,步骤四的具体操作步骤如下:步骤s4.1:图像文本区域检测;针对训练集中的图像数据利用深度学习模型ctpn对图像中的文字进行检测,形成若干个图像文本区域,并按照从上到下的顺序和从左到右的顺序,标记每个图像文本区域序号;步骤s4.2:图像文本区域文字识别;利用深度学习模型crnn对步骤s4.1中的每个图像文本区域进行文字识别,提取图像文字;
步骤s4.3:图像文字数据集形成;将文字识别后提取的图像文字按照图像文本区域顺序形成图像文字数据集;步骤s4.4:模型训练初始设置;设定深度学习分词模型jieba的参数;步骤s4.5:敏感词识别;针对步骤s4.3中形成的图像文字数据集,利用深度学习分词模型jieba对图像文字数据集进行分词;以敏感词匹配度和敏感词数量进行对比,对比敏感词标注结果计算得到敏感词识别准确率;步骤s4.6:模型训练;当敏感词识别准确率小于95%时,转入步骤s4.4继续调整深度学习分词模型jieba的参数,随后进行步骤s4.5,直至敏感词识别准确率大于95%为止,停止训练,确定深度学习分词模型jieba的最终参数。6.根据权利要求1所述的一种基于深度学习模型的图像敏感词识别方法,其特征在于,步骤五的具体操作步骤如下:步骤s5.1:图像文本区域检测;利用深度学习模型ctpn对待检测敏感词图像数据进行文本区域检测,得到若干个文本区域;步骤s5.2:文本区域文字识别;利用深度学习模型crnn针对步骤s5.1中的每个文本区域进行文字识别,得到两种类型文字数据集:第一种为整体图像的文字数据集,第二种为整体图像中每个文本区域的文字数据集;步骤s5.3:文字分词;利用步骤s4.6得到的深度学习分词模型jieba,对步骤s5.2中得到的两种文字数据集进行分词,得到两种分词结果:第一种是整体图像的文字数据集分词结果,第二种是整体图像中每个文本区域的文字数据集分词结果;步骤s5.4:图像敏感词识别;将上述两种分词结果分别和步骤一中敏感词数据集进行匹配,得到两种形式敏感词识别结果;步骤s5.5:图像敏感词处理;对上述两种形式敏感词识别结果进行重复性检测,过滤掉重复性敏感词识别结果,最终得到待检测敏感词图像数据的图像敏感词识别结果。7.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器存储有可执行指令,所述处理器被配置为执行存储器中可执行指令以实现权利要求1至6中任意一项所述的一种基于深度学习模型的图像敏感词识别方法的步骤。8.一种可读存储介质,其特征在于,该可存储介质上存储有可执行指令,可执行指令被处理器执行时实现权利要求1至6任意一项所述的一种基于深度学习模型的图像敏感词识别方法的步骤。9.一种基于深度学习模型的图像敏感词识别系统,其特征在于,该系统包括:图像数据获取设备、权利要求7所述的一种电子设备和权利要求8所述的一种可读存储介质。

技术总结
一种基于深度学习模型的图像敏感词识别方法与系统,属于机器视觉和自然语言处理领域,包括:数据收集;数据标注;数据集划分;模型训练:图像文本区域检测、图像文本区域文字识别、图像文字数据集形成、模型训练初始设置;敏感词识别、模型训练;针对待检测敏感词图像数据进行模型训练:图像文本区域检测、文本区域文字识别、文字分词、图像敏感词识别、图像敏感词处理,最终得到待检测敏感词图像数据的图像敏感词识别结果。本发明提高了图像敏感词的识别精度,降低了语义分析难度,同时解决了现有图像敏感词识别存在的易出现文字割裂、乱码和识别不清楚的问题,可以和现有网络不良信息检测系统进行集成,实现图像敏感词识别。实现图像敏感词识别。实现图像敏感词识别。


技术研发人员:杨玉东 赵新峰 刘健 苏恒强 桂东昫 焦东秋
受保护的技术使用者:长春市万易科技有限公司
技术研发日:2023.06.25
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐