一种基于文本挖掘的企业安全生产风险等级划分方法

未命名 09-01 阅读:165 评论:0


1.本发明涉及一种基于文本挖掘的企业安全生产风险等级划分方法。


背景技术:

2.事故隐患排查治理和风险预警管控作为遏制重特大事故、实现安全生产超前预防的主要措施途径,对提升企业安全生产保障水平、提高政府安全监管效能具有至关重要的作用。企业管理与政府监管信息化和智能化程度正不断加深,事故隐患数据充斥着整个安全生产领域并渗透到每一个行业和职能机构。
3.企业在日常安全管理中很容易累积大量的文本数据,多次的隐患排查也会产生大量的隐患文本数据。当前存在的问题是,这些文本都未得到充分利用,特别是这些数据的内在价值并没有得到充分挖掘,也不能对安全事故的预防起到应有的作用。如何让这些数据发挥高效作用,基于安全隐患文本的数据挖掘研究应运而生。
4.文本数据挖掘旨在从文本数据中提炼出对用户有用的知识信息,并可以使用户避免大量读取文本信息,直接形成用户方便理解的知识。以文本挖掘对象为标准,可以把文本挖掘技术分为基于单文档的文本数据挖掘和基于文档集的文本数据挖掘两大类。文本数据挖掘的流程主要为文本预处理、文本特征提取、学习与知识模式的提取及模式评价。文本数据挖掘算法主要有关联分析、文本聚类、中文分词、文本分类等。基于此,本发明对安全检查文本数据深入挖掘分析,综合运用风险辨识、风险分析等技术,确定不同安全生产场所的各种隐患,并通过合理手段实现风险的预警预控,以及为隐患排查治理提供科学手段和方法支撑。对于大量安全问题的分析与预防,传统的做法是依赖静态的安全条例加上技术人员的丰富经验来完成,但如果能将隐患信息可视化展示,自动识别安全问题并给出对应的防控措施,这将为推动安全的进步起到举足轻重的作用。先进技术配合传统的人工识别的思路能够有效的提高隐患识别准确率和效率,因此,本发明将文本挖掘技术纳入到安全管理,对企业安全风险等级进行划分。


技术实现要素:

5.本发明的目的是为了解决如何利用文本数据挖掘技术以发掘现有的企业安全管理产生大量文本数据的内在价值,对企业安全风险等级进行划分的方法的问题,而提出一种基于文本挖掘的企业安全生产风险等级划分方法。
6.上述目的通过以下的技术方案实现:
7.一种基于文本挖掘的企业安全生产风险等级划分方法,所述方法通过以下步骤实现:
8.步骤一、基于nlp方法,运用excel处理工具结合python编程语言,将隐患文本规范化;之后,对隐患的主题词进行提取、词频统计和词云生成的操作;
9.步骤二、利用gensim库训练安全检查文本的词向量;
10.步骤三、采用tf-idf算法提取各隐患描述文本的关键词,利用训练好的词向量模
型分别计算其相似词;通过均值聚类的操作,得到不同隐患主题;
11.步骤四、对企业的安全风险进行等级划分。
12.进一步地,步骤一所述的基于nlp方法包括语言学基础、nlp语言模型、中文分词方法、行业语料库和图论基础;
13.所述的将隐患文本规范化的操作,具体是:将文本格式归一化,导入pycharm中,利用停用词表对文本进行初次处理;具体是:
14.第一、增强数据:采用回译数据增强法,使用python调用google翻译接口,先将隐患文本数据翻译成韩语,之后再翻译为日语,最后回译为中文,并剔除与原始数据重复的描述,得到与原语料同标签的新语料,最后合并得到增强的隐患描述文本数据;
15.第二、构建词库:将句子拆分成一个个的词语,通过对其进行词的切分,完成分词处理;下载的词库,并利用专用词库进行补充;
16.第三、去停用词:剔除无意义的单词,减少无效信息;
17.所述的对隐患的主题词进行提取的操作,具体是:第一步识别出实体词边界,即实体的开始位置和结束位置;第二步识别出实体的类型,即人名、地名具体的实体类型。
18.进一步地,步骤二所述的利用gensim库训练安全检查文本的词向量的过程,具体为:建立安全专用词库,结合结巴分词方法对文本进行二次处理,得到精炼的文本信息。
19.进一步地,步骤三所述的采用tf-idf算法提取各隐患描述文本的关键词,利用训练好的词向量模型分别计算其相似词;通过均值聚类的操作,得到不同隐患主题的过程,具体为:
20.使用tf-idf算法对切分好的精炼信息进行特征提取,得到隐患文本的主题词,使用kmeans算法对不同类型的隐患词进行聚类,最后利用pycharm中的showwordcloud算法,对主题词信息和各类隐患词信息进行云图绘制;其中,
21.计算词条相似度的操作具体是:
22.文本向量化后,通过计算空间中距离从而计算相似度,首先使用大规模语料库通过word2vec训练出语料的词向量模型,之后将短文本进行分词,并找出每个词对应的词向量,最后矢量累加短文本的所有词的词向量,获得该短文本的句子向量;对两个短文本句子向量进行距离度量,最终获得其相似度值;通过计算两向量间夹角的余弦值,来度量二者方向上的差异程度;
23.设二维空间中向量a(x11,x12)与b(x21,x22)的夹角余弦计算公式为:
[0024][0025]
n维空间中向量a(x11,x12,

,x1n)与b(x21,x22,

,x2n)间的夹角余弦计算公式为:
[0026][0027]
规定夹角余弦取值范围为[0,1],则余弦值与两向量的夹角成反比例关系,余弦值越大则夹角越小,也就是这两个向量的相似性越高。
[0028]
进一步地,步骤四所述的对企业的安全风险进行等级划分的方法包括对隐患文本
处理结果进行分析,分析潜在风险的优先级及隐患后果严重度判别,结合现有的治理措施分析,对企业的安全风险进行等级划分;具体包括:
[0029]
步骤四一、建立风险预警系统板块,根据文本聚类结果以及风险辨识设计预警系统板块,包括人员岗位、设备设施、环境氛围、制度管理四个方面,分别对应四种隐患类型;
[0030]
针对人员岗位类隐患,从以下方面考虑制定相应制度:规范操作、认真履行本职工作、做出正确决策、保持良好的生理心理状况;
[0031]
针对设备设施类隐患,从以下方面考虑制定相应制度:按规定配备必需设备、全面维护保养设备、保证防护设施与设备警示标识的完备性、其他设备设施的不安全因素;
[0032]
针对环境氛围类隐患,从以下方面考虑制定相应制度:工作场所各种指标不得超过规定、照明采光要充足、供电线路合理布置以及各种其他因素的潜在威胁;
[0033]
针对制度管理类隐患,从以下方面考虑制定相应制度:保证组织结构和规章制度健全合理、机构职责合理清晰、文件记录管理符合要求、各类安全相关文件的编制审批和管理符合规定并贯彻学习、根据风险评估及本单位生产计划完善合理编制应急预案;
[0034]
步骤四二、划分预警区间,
[0035]
设计系统的不同预警区间,并采用不同颜色灯对应显示系统单项预警。
[0036]
本发明的有益效果为:
[0037]
(1)本发明利用自然语言技术结合相关工具对隐患文本进行处理,将文本数据化、可视化展示。
[0038]
(2)通过分类算法对不同类型的隐患进行聚类处理,得到隐患高频词词云,常见隐患分布树图,常见隐患描述类别分析等以及聚类结果中不同主题的关联句子云。
[0039]
(3)对得到的各云图进行分析,并提出预警防控方法。
附图说明
[0040]
图1是本发明涉及的方法流程图;
[0041]
图2是本发明实施例涉及的流程。
具体实施方式
[0042]
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0043]
本发明优选的实施例:
[0044]
请参阅图1-图2,本发明提供一种技术方案:
[0045]
一种基于文本挖掘的企业安全生产风险等级划分方法,如图1所示,所述方法通过以下步骤实现:
[0046]
步骤一、基于nlp方法,运用excel处理工具结合python编程语言,将隐患文本规范化;之后,对隐患的主题词进行提取、词频统计和词云生成的操作;
[0047]
步骤一所述的基于nlp方法包括语言学基础、nlp语言模型、中文分词方法、行业语
料库和图论基础;
[0048]
所述的将隐患文本规范化的操作,具体是:将文本格式归一化,导入pycharm中,利用停用词表对文本进行初次处理;具体是:
[0049]
第一、增强数据:采用回译数据增强法,使用python调用google翻译接口,先将隐患文本数据翻译成韩语,之后再翻译为日语,最后回译为中文,并剔除与原始数据重复的描述,得到与原语料同标签的新语料,最后合并得到增强的隐患描述文本数据;
[0050]
第二、构建词库:将句子拆分成一个个的词语,通过对其进行词的切分,完成分词处理;下载的词库,并利用专用词库进行补充;最后合并为安全词库,以使分词更加准确。
[0051]
第三、去停用词:剔除无意义的单词,减少无效信息。分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。隐患描述中,其实最重要的就是哪个部位和出现了什么问题,对于一些空白、标点符号、介词、冠词等无意义的词,应当去除。一是减少文件的大小,二是使得分析结果更加准确;
[0052]
所述的对隐患的主题词进行提取的操作,具体是:第一步识别出实体词边界,即实体的开始位置和结束位置;第二步识别出实体的类型,即人名、地名等具体的实体类型。
[0053]
步骤二、利用gensim库训练安全检查文本的词向量;步骤二所述的利用gensim库训练安全检查文本的词向量的过程,具体为:建立安全专用词库,结合结巴分词方法对文本进行二次处理,得到精炼的文本信息
[0054]
步骤三、采用tf-idf算法提取各隐患描述文本的关键词,利用训练好的词向量模型分别计算其相似词;通过均值聚类的操作,得到不同隐患主题;
[0055]
步骤三所述的采用tf-idf算法提取各隐患描述文本的关键词,利用训练好的词向量模型分别计算其相似词;通过均值聚类的操作,得到不同隐患主题的过程,具体为:
[0056]
使用tf-idf算法对切分好的精炼信息进行特征提取,得到隐患文本的主题词,使用kmeans算法对不同类型的隐患词进行聚类,最后利用pycharm中的showwordcloud算法,对主题词信息和各类隐患词信息进行云图绘制;其中,
[0057]
计算词条相似度的操作具体是:
[0058]
上下文关联,因此能够提取出词条上下文中的关联信息,而词条间的相似度可以直接利用此类信息加以计算。word2vec用来计算词条相似度非常合适,较短的文本如果希望计算相似度,可以将各自内部的word2vec向量分别进行平均,用平均的向量作为文本向量,从而用于计算相似度。
[0059]
文本向量化后,通过计算空间中距离从而计算相似度,首先使用大规模语料库通过word2vec训练出语料的词向量模型,之后将短文本进行分词,并找出每个词对应的词向量,最后矢量累加短文本的所有词的词向量(也可以根据词性或规则进行加权求和),获得该短文本的句子向量;对两个短文本句子向量进行距离度量,最终获得其相似度值;距离度量的常见算法有欧式距离、余弦距离等。余弦距离,即通过计算两向量间夹角的余弦值,来度量二者方向上的差异程度;
[0060]
设二维空间中向量a(x11,x12)与b(x21,x22)的夹角余弦计算公式为:
[0061]
[0062]
n维空间中向量a(x11,x12,

,x1n)与b(x21,x22,

,x2n)间的夹角余弦计算公式为:
[0063][0064]
规定夹角余弦取值范围为[0,1],根据计算公式得出则余弦值与两向量的夹角成反比例关系,余弦值越大则夹角越小,也就是这两个向量的相似性越高。非监督学习方法虽然可以在不需要标注预料的情况下较快地计算出相似度值,但是其句子向量的质量往往依赖于人为设置的单词权重值,并且易受到主观因素的影响。但通过非监督学习算法,可以让计算机深入数据自行发现和探索,寻找数据间的模式和联系,帮助发现解决问题的新颖思路,得到一些不一样的结论。
[0065]
步骤四、对企业的安全风险进行等级划分。
[0066]
步骤四所述的对企业的安全风险进行等级划分的方法包括对隐患文本处理结果进行分析,分析潜在风险的优先级及隐患后果严重度判别,结合现有的治理措施分析,对企业的安全风险进行等级划分,从而对安全风险提出个性化管控措施;具体包括:
[0067]
步骤四一、建立风险预警系统板块,根据文本聚类结果以及风险辨识设计预警系统板块,包括人员岗位、设备设施、环境氛围、制度管理四个方面,分别对应四种隐患类型;
[0068]
针对人员岗位类隐患,从以下方面考虑制定相应制度:规范操作、认真履行本职工作、做出正确决策、保持良好的生理心理状况;
[0069]
针对设备设施类隐患,从以下方面考虑制定相应制度:按规定配备必需设备(包括按规定选型和安装)、全面维护保养设备、保证防护设施与设备警示标识的完备性、其他设备设施的不安全因素;
[0070]
针对环境氛围类隐患,从以下方面考虑制定相应制度:工作场所各种指标不得超过规定、照明采光要充足、供电线路合理布置以及各种其他因素的潜在威胁;
[0071]
针对制度管理类隐患,从以下方面考虑制定相应制度:保证组织结构和规章制度健全合理、机构职责合理清晰、文件记录管理符合要求、各类安全相关文件的编制审批和管理符合规定并贯彻学习、根据风险评估及本单位生产计划完善合理编制应急预案;
[0072]
步骤四二、划分预警区间,
[0073]
设计系统的不同预警区间,并采用不同颜色灯对应显示系统单项预警,则不同颜色的灯号显示所代表的警情会随预警区间的不同而不同;对于隐患集中的高风险区域,相关部门可采取积极有效的措施进行整改和突出监控防范。
[0074]
对隐患实体及其关联词的计算,能有效推测得到大多企业常常忽略的潜在问题,也能为企业的安全管理决策者提供一些管理措施及应急预案制定上的思路。以此为基础,使用均值聚类算法,借助nltk、sklearn等工具,对预处理后的文本数据进行了聚类分析,将所有的文本自动归类到了不同的主题。最后依据聚类结果,对预警系统的构建思路以及防控方法作了阐述分析。
[0075]
一种基于文本挖掘的企业安全生产风险等级划分方法在粮食企业的实证分析的实施例,流程如图2所示:
[0076]
1.隐患源文本处理过程:
[0077]
将文本格式归一化,导入pycharm中,利用停用词表对文本进行初次处理,建立安
全专用词库结合结巴分词技术对文本进行二次处理,得到精炼的文本信息,使用tf-idf算法对切分好的精炼信息进行特征提取,得到隐患文本的主题词,使用kmeans算法对不同类型的隐患词进行聚类,最后利用pycharm中的showwordcloud算法,对主题词信息和各类隐患词信息进行云图绘制。
[0078]
2.设计安全风险预警方法:
[0079]
对隐患文本处理结果进行分析,分析其中潜在风险的优先级及隐患后果严重度判别,结合现有的治理措施分析,对企业的安全风险提出个性化管控措施。
[0080]
本发明的实施例公布的是较佳的实施例,但并不局限于此,本领域的普通技术人员,极易根据上述实施例,领会本发明的精神,并做出不同的引申和变化,但只要不脱离本发明的精神,都在本发明的保护范围内。

技术特征:
1.一种基于文本挖掘的企业安全生产风险等级划分方法,其特征在于:所述方法通过以下步骤实现:步骤一、基于nlp方法,运用excel处理工具结合python编程语言,将隐患文本规范化;之后,对隐患的主题词进行提取、词频统计和词云生成的操作;步骤二、利用gensim库训练安全检查文本的词向量;步骤三、采用tf-idf算法提取各隐患描述文本的关键词,利用训练好的词向量模型分别计算其相似词;通过均值聚类的操作,得到不同隐患主题;步骤四、对企业的安全风险进行等级划分。2.根据权利要求1所述的一种基于文本挖掘的企业安全生产风险等级划分方法,其特征在于:步骤一所述的基于nlp方法包括语言学基础、nlp语言模型、中文分词方法、行业语料库和图论基础;所述的将隐患文本规范化的操作,具体是:将文本格式归一化,导入pycharm中,利用停用词表对文本进行初次处理;具体是:第一、增强数据:采用回译数据增强法,使用python调用google翻译接口,先将隐患文本数据翻译成韩语,之后再翻译为日语,最后回译为中文,并剔除与原始数据重复的描述,得到与原语料同标签的新语料,最后合并得到增强的隐患描述文本数据;第二、构建词库:将句子拆分成一个个的词语,通过对其进行词的切分,完成分词处理;下载的词库,并利用专用词库进行补充;第三、去停用词:剔除无意义的单词,减少无效信息;所述的对隐患的主题词进行提取的操作,具体是:第一步识别出实体词边界,即实体的开始位置和结束位置;第二步识别出实体的类型,即人名、地名具体的实体类型。3.根据权利要求2所述的一种基于文本挖掘的企业安全生产风险等级划分方法,其特征在于:步骤二所述的利用gensim库训练安全检查文本的词向量的过程,具体为:建立安全专用词库,结合结巴分词方法对文本进行二次处理,得到精炼的文本信息。4.根据权利要求3所述的一种基于文本挖掘的企业安全生产风险等级划分方法,其特征在于:步骤三所述的采用tf-idf算法提取各隐患描述文本的关键词,利用训练好的词向量模型分别计算其相似词;通过均值聚类的操作,得到不同隐患主题的过程,具体为:使用tf-idf算法对切分好的精炼信息进行特征提取,得到隐患文本的主题词,使用kmeans算法对不同类型的隐患词进行聚类,最后利用pycharm中的showwordcloud算法,对主题词信息和各类隐患词信息进行云图绘制;其中,计算词条相似度的操作具体是:文本向量化后,通过计算空间中距离从而计算相似度,首先使用大规模语料库通过word2vec训练出语料的词向量模型,之后将短文本进行分词,并找出每个词对应的词向量,最后矢量累加短文本的所有词的词向量,获得该短文本的句子向量;对两个短文本句子向量进行距离度量,最终获得其相似度值;通过计算两向量间夹角的余弦值,来度量二者方向上的差异程度;设二维空间中向量a(x11,x12)与b(x21,x22)的夹角余弦计算公式为:
n维空间中向量a(x11,x12,

,x1n)与b(x21,x22,

,x2n)间的夹角余弦计算公式为:规定夹角余弦取值范围为[0,1],则余弦值与两向量的夹角成反比例关系,余弦值越大则夹角越小,也就是这两个向量的相似性越高。5.根据权利要求4所述的一种基于文本挖掘的企业安全生产风险等级划分方法,其特征在于:步骤四所述的对企业的安全风险进行等级划分的方法包括对隐患文本处理结果进行分析,分析潜在风险的优先级及隐患后果严重度判别,结合现有的治理措施分析,对企业的安全风险进行等级划分;具体包括:步骤四一、建立风险预警系统板块,根据文本聚类结果以及风险辨识设计预警系统板块,包括人员岗位、设备设施、环境氛围、制度管理四个方面,分别对应四种隐患类型;针对人员岗位类隐患,从以下方面考虑制定相应制度:规范操作、认真履行本职工作、做出正确决策、保持良好的生理心理状况;针对设备设施类隐患,从以下方面考虑制定相应制度:按规定配备必需设备、全面维护保养设备、保证防护设施与设备警示标识的完备性、其他设备设施的不安全因素;针对环境氛围类隐患,从以下方面考虑制定相应制度:工作场所各种指标不得超过规定、照明采光要充足、供电线路合理布置以及各种其他因素的潜在威胁;针对制度管理类隐患,从以下方面考虑制定相应制度:保证组织结构和规章制度健全合理、机构职责合理清晰、文件记录管理符合要求、各类安全相关文件的编制审批和管理符合规定并贯彻学习、根据风险评估及本单位生产计划完善合理编制应急预案;步骤四二、划分预警区间,设计系统的不同预警区间,并采用不同颜色灯对应显示系统单项预警。

技术总结
一种基于文本挖掘的企业安全生产风险等级划分方法,属于安全预警方法领域。如何利用文本数据挖掘技术以发掘现有的企业安全管理产生大量文本数据的内在价值,对企业安全风险等级进行划分是目前本技术领域的空白技术。一种基于文本挖掘的企业安全生产风险等级划分方法,基于NLP方法,运用Excel处理工具结合Python编程语言,将隐患文本规范化;之后,对隐患的主题词进行提取、词频统计和词云生成的操作;利用Gensim库训练安全检查文本的词向量;采用TF-IDF算法提取各隐患描述文本的关键词,利用训练好的词向量模型分别计算其相似词;通过均值聚类的操作,得到不同隐患主题。对企业的安全风险进行等级划分。的安全风险进行等级划分。的安全风险进行等级划分。


技术研发人员:蒋永清 曹震
受保护的技术使用者:哈尔滨理工大学
技术研发日:2023.05.23
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐