基于含有记忆块的深度学习模型的行业知识图谱构建方法及系统
未命名
07-23
阅读:76
评论:0

1.本发明属于数据处理技术领域,涉及深度学习技术和自然语言处理技术,尤其涉及利用自然语言处理技术和含有记忆块的深度学习模型进行行业细分的方法及系统。
背景技术:
2.在进行产业规划和制订经济政策时,需要充分了解企业的行业分类和主营产品。政府进行招商开发或金融机构对企业进行贷前调查时,也需要结合行业知识图谱了解企业的主营产品。目前国家采用四级行业分类体系,即使分到第四级,仍然较为宽泛,不能提供充分的信息,需要在四级行业分类下构造更为细分的行业知识图谱,帮助政府和金融机构更好地了解企业的主营产品。
技术实现要素:
3.本发明是要解决现有技术所存在的上述技术问题,提供一种基于含有记忆块的深度学习模型的行业知识图谱构建方法及系统。
4.本发明提供基于含有记忆块的深度学习模型的行业细分的方法和系统,为政府和金融机构等在产业规划和经济决策方面提供依据。
5.为了实现上述目的,本技术技术方案如下:基于含有记忆块的深度学习模型的行业知识图谱构建方法及系统,包括以下步骤:
6.基于含有记忆块的深度学习模型的行业知识图谱构建方法,包括如下步骤:
7.步骤一:获取相关数据。输入国标四级行业标准作为语料库。
8.步骤二:使用分词技术hanlp,对语料库进行分词。检测语料库信息,查看格式是否符合标准,去除文本中的特殊字符、空格、标点符号等,确保文本内容的准确性。用bert技术得到对应四级行业多维语料信息的词向量。
9.步骤三:使用聚类算法,对四级行业语料库进行初步分类与分析。具体的,使用elmo算法,通过步骤二产生的语料信息产生词向量表。生成词向量由为n个高维向量w1,w2……
wn组成,同时运用kmeans聚类算法,找到最优的聚类类别数量k,选取k个聚类中心,对各个词向量进行聚类,并选取部分关键词形成新的企业语料信息向量。
10.e=[w1,w2,
……
,wm](1)
[0011]
为所述企业语料信息向量的各个部分生成权重矩阵:
[0012]
k=[k1,k2,
……
,km](2)
[0013]
步骤四:使用经过所述预处理得到的大量的细分行业知识图谱的多维信息向量,对深度学习模型进行训练。具体的,所述深度学习算法为含有记忆块的transformer模型。所述含有记忆块的transformer模型为深度学习算法,利用自注意力机制实现快速并行计算。将词向量输入到所述算法模型中,利用transformer模块进行编码与解码最后通过softmax进行分类,最终得到所述行业细分类别的知识图谱。
[0014]
步骤五:对企业经营产品进行分词并进行词向量转换。
[0015]
步骤六:将所述步骤四中经过聚类得到的一行业知识图谱与企业经营产品的关键词向量分别输入到训练好的transformer模型中。得到企业主营产品的对应的知识图谱。
[0016]
进一步,步骤二所述的词向量为:
[0017]
e=[w1,w2,
……
,wn](3)
[0018][0019]
由于transformer不采用rnn的结构,而是使用全局信息,不能利用单词的顺序信息,而这部分信息对于nlp来说非常重要,所以transformer中使用位置embedding保存单词在序列中的相对或绝对位置。通过词向量与位置编码相加,作为transformer的输入矩阵:
[0020][0021]
而对于建立行业知识图谱的任务来说,位置编码并没有起到很大作用,因为很多信息并不是完全联系在一起的。故在本任务中引入记忆力模块,记忆力模块为所述权重向量,标志着某关键词向量在行业分类中的重要程度,将权重矩阵作为输入的记忆模块,得到所述含有记忆块的输入矩阵:
[0022][0023]
将所述矩阵输入到基于含有记忆模块的transformer的分类模型中,该模型含有若干个transformer模块,最后经过一个分类器softmax得到目标企业的行业分类。
[0024]
进一步,步骤四所述的自注意力机制sa是指将企业多维信息向量作为输入,乘以三个不同的权重矩阵,得到键向量k、查询向量q和值向量v。然后计算注意力得分,所述得分由查询向量q与各个单词的键向量k的点积得到,并将得分分别除以一个特定数值,让梯度更加稳定。所述特定数值为键向量k维度的平方根。最后,使用softmax主要将分数标准化,并使值向量v乘上经过所述softmax得到的结果,并将所述所有得到的值向量相加,所述过程可总结为以下公式:
[0025][0026]
完成自注意力机制后,得到的输出作为前馈神经网络的输入,并得到相同维度的输出值。整个深度学习模型由若干个最后将使用解码器进行解码得到的结果通过softmax进行分类,得到所述企业行业细分的类别。
[0027]
进一步,步骤四中在所述含有记忆块的transformer模型的训练阶段,首先使用四级行业的多维信息向量训练所述含有记忆块的transformer模型。对于细分的行业知识图谱,根据所述聚类算法,修改向量中关键词的权重矩阵,进而对所述含有记忆块的transformer模型进行微调。所述微调为对模型的部分结构重新训练,其余部分保持不变,
可以减少训练的开销。以此类推,形成四级行业分类对应的含有记忆块的transformer模型。
[0028]
本发明还提供了一种基于含有记忆块的深度学习模型的行业知识图谱系统。具体的该行业细分系统包含三个模块,企业信息获取模块、初步处理模块和分类模块。
[0029]
企业信息获取模块,用于获取目标企业的主营产品数据;
[0030]
初步处理模块,用于初步处理该企业的多维信息生成企业语料信息矩阵与权重矩阵;
[0031]
分类模块,用于确定企业所处的行业,使用基于含有记忆模块的transformer的分类模型对初步处理模块生成的企业语料信息矩阵与权重矩阵输入到分类模型中,得到企业所处的行业知识图谱。
[0032]
本发明的优点是:本发明的模型能够利用记忆模块存储和更新行业知识图谱中的实体和关系,提高了分类模型的准确性和鲁棒性,且训练所需资源小。根据企业的多维信息所生成企业语料信息矩阵和权重矩阵,可以有效地表示企业的特征和重要性,提高了分类模型的效率和灵敏度。在此过程当中,模型只需要用户的少量信息,如企业名称和年报,便能实现用户对企业进行行业分类分级识别。此外,本发明的模型能够适应不同行业的知识图谱结构和规模,具有较强的通用性和扩展性。
附图说明
[0033]
图1是本发明方法的总体示意图;
[0034]
图2是本发明的含有记忆块的transformer模型总体示意图;
[0035]
图3是本发明的transformer模块示意图;
[0036]
图4是本发明的含有记忆块的深度学习模型的知识图谱系统示意图;
[0037]
图5是本发明的四级行业细分标签举例图。
具体实施方式
[0038]
下面结合附图进一步说明本发明的技术方案。
[0039]
实施例1
[0040]
参照图1-图5,本发明的一种基于含有记忆块的深度学习模型的行业知识图谱构建方法,包括:
[0041]
步骤一:获取相关数据。输入国标四级行业标准作为语料库。
[0042]
步骤二:使用分词技术hanlp,对语料库进行分词。检测语料库信息,查看格式是否符合标准,去除文本中的特殊字符、空格、标点符号等,确保文本内容的准确性。用bert技术得到对应四级行业多维语料信息的词向量。
[0043]
步骤三:使用聚类算法,对四级行业语料库进行初步分类与分析。具体的,使用elmo算法,通过步骤二产生的语料信息产生词向量表。生成词向量由为n个高维向量w1,w2……
wn组成,同时运用kmeans聚类算法,找到最优的聚类类别数量k,选取k个聚类中心,对各个词向量进行聚类,并选取部分关键词形成新的企业语料信息向量。
[0044]
e=[w1,w2,
……
,wm](1)
[0045]
为所述企业语料信息向量的各个部分生成权重矩阵:
[0046]
k=[k1,k2,
……
,km](2)
[0047]
步骤四:使用经过所述预处理得到的大量的细分行业知识图谱的多维信息向量,对深度学习模型进行训练。具体的,所述深度学习算法为含有记忆块的transformer模型。所述含有记忆块的transformer模型为深度学习算法,利用自注意力机制实现快速并行计算。将词向量输入到所述算法模型中,利用transformer模块进行编码与解码最后通过softmax进行分类,最终得到所述行业细分类别的知识图谱。
[0048]
具体的,步骤二所述的词向量为:
[0049]
e=[w1,w2,
……
,wn](3)
[0050][0051]
由于transformer不采用rnn的结构,而是使用全局信息,不能利用单词的顺序信息,而这部分信息对于nlp来说非常重要,所以transformer中使用位置embedding保存单词在序列中的相对或绝对位置。通过词向量与位置编码相加,作为transformer的输入矩阵:
[0052][0053]
而对于建立行业知识图谱的任务来说,位置编码并没有起到很大作用,因为很多信息并不是完全联系在一起的。故在本任务中引入记忆力模块,记忆力模块为所述权重向量,标志着某关键词向量在行业分类中的重要程度,将权重矩阵作为输入的记忆模块,得到所述含有记忆块的输入矩阵:
[0054][0055]
将所述矩阵输入到基于含有记忆模块的transformer的分类模型中,如图2所示,该模型含有若干个transformer模块,最后经过一个分类器softmax得到目标企业的行业分类。
[0056]
具体的,步骤四所述的transformer模块,如图3所示,包含一个自注意力块sa,输入的特征向量首先经过所述自注意力块sa,再经过相加与归一化add&norm模块相加与归一化,最后经过前馈神经网络ffn与相加与归一化add&norm模块。
[0057]
f1=add&norm(sa(e
′
))(8)
[0058]
f2=add&norm(ffm(f1))(9)
[0059]
具体的,步骤四所述的自注意力机制sa是指将企业多维信息向量作为输入,乘以三个不同的权重矩阵,得到键向量k、查询向量q和值向量v。然后计算注意力得分,所述得分由查询向量q与各个单词的键向量k的点积得到,并将得分分别除以一个特定数值,让梯度更加稳定。所述特定数值为键向量k维度的平方根。最后,使用softmax主要将分数标准化,并使值向量v乘上经过所述softmax得到的结果,并将所述所有得到的值向量相加,所述过程可总结为以下公式:
[0060][0061]
完成自注意力机制后,得到的输出作为前馈神经网络的输入,并得到相同维度的输出值。整个深度学习模型由若干个最后将使用解码器进行解码得到的结果通过softmax进行分类,得到所述企业行业细分的类别。
[0062]
在所述含有记忆块的transformer模型的训练阶段,首先使用四级行业的多维信息向量训练所述含有记忆块的transformer模型。对于细分的行业知识图谱,根据所述聚类算法,修改向量中关键词的权重矩阵,进而对所述含有记忆块的transformer模型进行微调。所述微调为对模型的部分结构重新训练,其余部分保持不变,可以减少训练的开销。以此类推,形成四级行业分类对应的含有记忆块的transformer模型。
[0063]
步骤五:对企业经营产品进行分词并进行词向量转换。
[0064]
步骤六:将所述步骤四中经过聚类得到的一行业知识图谱与企业经营产品的关键词向量分别输入到训练好的transformer模型中。得到企业主营产品的对应的知识图谱。
[0065]
实施例2
[0066]
本发明还提供了一种基于含有记忆块的深度学习模型的行业知识图谱系统,用于实施实施例1的方法。具体的,该行业细分系统包含三个模块,企业信息获取模块、初步处理模块和分类模块。
[0067]
企业信息获取模块,用于获取目标企业的主营产品数据;
[0068]
初步处理模块,用于初步处理该企业的多维信息生成企业语料信息矩阵与权重矩阵;
[0069]
分类模块,用于确定企业所处的行业,使用基于含有记忆模块的transformer的分类模型对初步处理模块生成的企业语料信息矩阵与权重矩阵输入到分类模型中,得到企业所处的行业知识图谱。
[0070]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0071]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
技术特征:
1.基于含有记忆块的深度学习模型的行业知识图谱构建方法,其特征在于:包括如下步骤:步骤一:获取相关数据;输入国标四级行业标准作为语料库;步骤二:使用分词技术hanlp,对语料库进行分词;检测语料库信息,查看格式是否符合标准,去除文本中的特殊字符、空格、标点符号等,确保文本内容的准确性;用bert技术得到对应四级行业多维语料信息的词向量;步骤三:使用聚类算法,对四级行业语料库进行初步分类与分析;具体的,使用elmo算法,通过步骤二产生的语料信息产生词向量表;生成词向量由为n个高维向量w1,w2……
w
n
组成,同时运用kmeans聚类算法,找到最优的聚类类别数量k,选取k个聚类中心,对各个词向量进行聚类,并选取部分关键词形成新的企业语料信息向量;e=[w1,w2,
……
,w
m
](1)为所述企业语料信息向量的各个部分生成权重矩阵:k=[k1,k2,
……
,k
m
](2)步骤四:使用经过所述预处理得到的大量的细分行业知识图谱的多维信息向量,对深度学习模型进行训练;具体的,所述深度学习算法为含有记忆块的transformer模型;所述含有记忆块的transformer模型为深度学习算法,利用自注意力机制实现快速并行计算;将词向量输入到所述算法模型中,利用transformer模块进行编码与解码最后通过softmax进行分类,最终得到所述行业细分类别的知识图谱;步骤五:对企业经营产品进行分词并进行词向量转换;步骤六:将所述步骤四中经过聚类得到的一行业知识图谱与企业经营产品的关键词向量分别输入到训练好的transformer模型中。得到企业主营产品的对应的知识图谱。2.如权利要求1所述的基于含有记忆块的深度学习模型的行业知识图谱构建方法,其特征在于:步骤二所述的词向量为:e=[w1,w2,
……
,w
n
](3)由于transformer不采用rnn的结构,而是使用全局信息,不能利用单词的顺序信息,而这部分信息对于nlp来说非常重要,所以transformer中使用位置embedding保存单词在序列中的相对或绝对位置。通过词向量与位置编码相加,作为transformer的输入矩阵:而对于建立行业知识图谱的任务来说,位置编码并没有起到很大作用,因为很多信息并不是完全联系在一起的。故在本任务中引入记忆力模块,记忆力模块为所述权重向量,标志着某关键词向量在行业分类中的重要程度,将权重矩阵作为输入的记忆模块,得到所述含有记忆块的输入矩阵:
将所述矩阵输入到基于含有记忆模块的transformer的分类模型中,该模型含有若干个transformer模块,最后经过一个分类器softmax得到目标企业的行业分类。3.如权利要求1所述的基于含有记忆块的深度学习模型的行业知识图谱构建方法,其特征在于:步骤四所述的自注意力机制sa是指将企业多维信息向量作为输入,乘以三个不同的权重矩阵,得到键向量k、查询向量q和值向量v;然后计算注意力得分,所述得分由查询向量q与各个单词的键向量k的点积得到,并将得分分别除以一个特定数值,让梯度更加稳定;所述特定数值为键向量k维度的平方根;最后,使用softmax主要将分数标准化,并使值向量v乘上经过所述softmax得到的结果,并将所述所有得到的值向量相加,所述过程可总结为以下公式:完成自注意力机制后,得到的输出作为前馈神经网络的输入,并得到相同维度的输出值;整个深度学习模型由若干个最后将使用解码器进行解码得到的结果通过softmax进行分类,得到所述企业行业细分的类别。4.如权利要求3所述的基于含有记忆块的深度学习模型的行业知识图谱构建方法,其特征在于:步骤四中在所述含有记忆块的transformer模型的训练阶段,首先使用四级行业的多维信息向量训练所述含有记忆块的transformer模型。对于细分的行业知识图谱,根据所述聚类算法,修改向量中关键词的权重矩阵,进而对所述含有记忆块的transformer模型进行微调;所述微调为对模型的部分结构重新训练,其余部分保持不变,可以减少训练的开销;以此类推,形成四级行业分类对应的含有记忆块的transformer模型。5.一种基于含有记忆块的深度学习模型的行业知识图谱系统,其特征在于,包含:企业信息获取模块,用于获取目标企业的主营产品数据;初步处理模块,用于初步处理该企业的多维信息生成企业语料信息矩阵与权重矩阵;分类模块,用于确定企业所处的行业,使用基于含有记忆模块的transformer的分类模型对初步处理模块生成的企业语料信息矩阵与权重矩阵输入到分类模型中,得到企业所处的行业知识图谱。
技术总结
基于含有记忆块的深度学习模型的行业知识图谱构建方法和系统,包括:获取企业相关数据;对获取的数据进行预处理,产生企业多维信息语料库;对语料库进行分词,获得企业多维语料信息的词向量;使用聚类算法,对企业多维语料库中的信息进行初步分类与分析,并产生企业语料信息向量的各个部分生成权重矩阵;使用经过所述预处理得到的大量企业的多维信息向量,对深度学习模型进行训练,所述深度学习模型为含有记忆块的Transformer;通过对深度学习模型进行微调,得到四级分类的模型;最终通过深度学习模型直接预测企业所在的四级行业类别。本发明的模型对行业的分类更加准确,且训练开销更小。销更小。销更小。
技术研发人员:季白杨 许函宁 刘哲源 周芝宇 徐珂嘉
受保护的技术使用者:浙江工业大学
技术研发日:2023.05.11
技术公布日:2023/7/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/