一种多源异构大数据处理系统的制作方法

未命名 09-03 阅读:105 评论:0


1.本发明涉及大数据技术领域,更具体地说,它涉及一种多源异构大数据处理系统。


背景技术:

2.大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分,对于来源范围有限的大数据,例如地区政务大数据,对于大数据进行结构化和统一化的需求大于对于大数据的挖掘的需求,但是通过人工进行特征提取来进行大数据的结构化和统一化耗时较长。


技术实现要素:

3.本发明提供一种多源异构大数据处理系统,解决相关技术中通过人工进行特征提取来进行大数据的结构化和统一化耗时较长的技术问题。
4.本发明提供了一种多源异构大数据处理系统,包括:类别特征生成模块,其基于主数据的字段名称来生成主数据类别特征,一个主数据的字段名称对应一个主数据类别特征;数据源特征生成模块,其基于主数据所链接的原始数据集来生成数据源特征;生成特征提取器,其用于从原始数据集中随机提取字符和/或词来生成单元特征向量,然后将单元特征向量组合获得生成特征;模型生成模块,其用于生成主数据生成模型;主数据生成模型包括特征合成模块、第二特征生成器、第一神经网络、第二神经网络,其中特征合成模块用于将主数据类别特征与生成特征进行合成来生成基本特征,第一神经网络输入基本特征,然后输出第一特征;第二特征生成器从主数据集合中随机选择n个主数据,为提取的每个主数据生成一个主数据特征,将生成的所有主数据特征和主数据类别特征合成生成第二特征;第二特征和第一特征输入第二神经网络,第二神经网络,第二神经网络的输出映射到分类空间,分类空间包含两个分类标签,分别表示输入为第二特征和输入为第一特征;主数据生成模块,其用于将使用者输入的主数据的字段名称输入类别特征生成模块,生成主数据类别特征;将该主数据类别特征与从待生成主数据的原始数据集中生成的生成特征合成基本特征,将该基本特征输入主数据生成模型的第一神经网络,基于第一神经网络生成的第一特征获得待生成主数据的原始数据集的主数据和主数据对应的字段名称。
5.进一步地,主数据所链接的原始数据集是指需要与该主数据关联的原始数据集。
6.进一步地,第一神经网络和第二神经网络均为多层感知机。
7.进一步地,主数据特征和主数据类别特征合成时在主数据类别特征之后拼接主数据特征。
8.进一步地,主数据类别特征与生成特征进行合成时在主数据类别特征之后拼接随机特征向量。
9.进一步地,第一特征和第二特征的维度相同,第一特征和第二特征进行矩阵化之
后表示为:,表示矩阵u中的第一行的第i个元素,表示第i个主数据类别特征;表示矩阵u中的第j行的第i列的元素,表示第j个主数据对应于第i个主数据类别特征的字段,m表示主数据的总数,n表示一个主数据的主数据类别特征的总数。
10.进一步地,第二神经网络经过softmax层进行输出,输出的值为概率值。
11.进一步地,对于第一神经网络和第二神经网络是进行联合训练的,训练的损失函数为:
12.其中表示损失值,等于训练集的训练样本的数量,y为设置的常数值,表示第二神经网络输入第t个训练样本的第二特征时输出的对应于第二特征的分类标签的概率值,表示第二神经网络输入第t个训练样本的第g个第一特征时,输出的对应于第一特征的分类标签的概率值。
13.进一步地,联合训练的训练样本来源于已经构建主数据的原始数据集,生成特征提取器从一个作为训练样本的原始数据集进行多次提取可以获得多个生成特征,因此可以合成多个基本特征,通过第一神经网络生成多个第一特征。
14.进一步地,主数据生成模块从待生成主数据的原始数据集中生成多个生成特征,分别合成多个基本特征,将合成的多个基本特征分别输入第一神经网络获得多组主数据,从多组主数据中删除重复的主数据之后获得最终的主数据集合。
15.本发明的有益效果在于:本发明能够对于来源范围有限的大数据自动化地生成与之匹配的主数据,通过主数据对大数据进行结构化和统一化。
附图说明
16.图1是本发明的一种多源异构大数据处理系统的模块示意图。
17.图中:类别特征生成模块101,数据源特征生成模块102,生成特征提取器103,模型生成模块104,主数据生成模块105。
具体实施方式
18.现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其他例子中也可以进行组合。
19.如图1所示,一种多源异构大数据处理系统,包括:类别特征生成模块101,其基于主数据的字段名称来生成主数据类别特征,一个主数据的字段名称对应一个主数据类别特征;数据源特征生成模块102,其基于主数据所链接的原始数据集来生成数据源特征;主数据所链接的原始数据集是指需要与该主数据关联的原始数据集,另一方面主
数据的信息来源于该原始数据集。
20.生成特征提取器103,其用于从原始数据集中随机提取字符和/或词来生成单元特征向量,然后将单元特征向量组合获得生成特征;模型生成模块104,其用于生成主数据生成模型;主数据生成模型包括特征合成模块、第二特征生成器、第一神经网络、第二神经网络,其中特征合成模块用于将主数据类别特征与生成特征进行合成来生成基本特征,第一神经网络输入基本特征,然后输出第一特征;第二特征生成器从主数据集合中随机选择n个主数据,为提取的每个主数据生成一个主数据特征,将生成的所有主数据特征和主数据类别特征合成生成第二特征;第二特征和第一特征输入第二神经网络,第二神经网络,第二神经网络的输出映射到分类空间,分类空间包含两个分类标签,分别表示输入为第二特征和输入为第一特征。
21.第一神经网络、第二神经网络与一般的神经网络相同,在本发明的一个实施例中,第一神经网络和第二神经网络均为多层感知机;在本发明的一个实施例中,第一神经网络和第二神经网络均为卷积神经网络。
22.在本发明的一个实施例中,合成特征的方式是将特征向量进行拼接,例如对于两个向量和,合成后的结果为。
23.主数据特征和主数据类别特征合成时在主数据类别特征之后拼接主数据特征;主数据类别特征与生成特征进行合成时在主数据类别特征之后拼接随机特征向量;第一特征和第二特征的维度相同,第一特征和第二特征进行矩阵化之后表示为:,表示矩阵u中的第一行的第i个元素,表示第i个主数据类别特征;表示矩阵u中的第j行的第i列的元素(j>1),表示第j个主数据对应于第i个主数据类别特征的字段,m表示主数据的总数,n表示一个主数据的主数据类别特征的总数。
24.对于数据中的文字部分(包括主数据的字段名称),通过skip-gram模型(跳字模型)对文字部分进行处理获得词向量,主数据特征由主数据中提取的词向量和一般向量直接合并生成,一般特征是指直接主数据中直接可以作为向量的内容生成的特征。
25.为了保证生成的第二特征的维度一致,可以限制主数据的范围,例如主数据集合中的主数据都是同一类别的,基于同一主数据表来生成的;第一神经网络和第二神经网络组合为对抗生成神经网络。
26.在本发明的一个实施例中,对于第一神经网络和第二神经网络进行联合训练的,训练的损失函数为:
27.其中表示损失值,等于训练集的训练样本的数量,y为设置的常数值,表示第二神经网络输入第t个训练样本的第二特征时输出的对应于第二特征的分类标签的概率值,表示第二神经网络输入第t个训练样本的第g个第一特征时,输出的对应于第一特征的分类标签的概率值;
第二神经网络经过softmax(归一化指数函数)层进行输出,输出的值为概率值。
28.y的缺省值为12。
29.联合训练的训练样本来源于已经构建主数据的原始数据集。生成特征提取器103从一个作为训练样本的原始数据集进行多次提取可以获得多个生成特征,因此可以合成多个基本特征,通过第一神经网络生成多个第一特征;需要处理的原始数据集与训练集的训练样板一般来源于同样类型的数据来源,例如都是来源于地区政务数据。
30.类别特征生成模块101基于训练集的原始数据集的主数据的字段名称来生成主数据类别特征。
31.主数据生成模块105,其用于将使用者输入的主数据的字段名称输入类别特征生成模块101,生成主数据类别特征;将该主数据类别特征与从待生成主数据的原始数据集中生成的生成特征合成基本特征,将该基本特征输入主数据生成模型的第一神经网络,基于第一神经网络生成的第一特征获得待生成主数据的原始数据集的主数据和主数据对应的字段名称。
32.生成的主数据的字段需要与对应的字段名称进行映射。
33.基于第一神经网络生成的第一特征获得的主数据的原始数据集的主数据对应的字段名称可能与使用者输入的主数据的字段名称不同。
34.在本发明的一个实施例中,主数据生成模块105从待生成主数据的原始数据集中生成多个生成特征,分别合成多个基本特征,将合成的多个基本特征分别输入第一神经网络获得多组主数据,从多组主数据中删除重复的主数据之后获得最终的主数据集合。
35.上面对本实施例的实施例进行了描述,但是本实施例并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本实施例的启示下,还可做出很多形式,均属于本实施例的保护之内。

技术特征:
1.一种多源异构大数据处理系统,其特征在于,包括:类别特征生成模块,其基于主数据的字段名称来生成主数据类别特征,一个主数据的字段名称对应一个主数据类别特征;数据源特征生成模块,其基于主数据所链接的原始数据集来生成数据源特征;生成特征提取器,其用于从原始数据集中随机提取字符和/或词来生成单元特征向量,然后将单元特征向量组合获得生成特征;模型生成模块,其用于生成主数据生成模型;主数据生成模型包括特征合成模块、第二特征生成器、第一神经网络、第二神经网络,其中特征合成模块用于将主数据类别特征与生成特征进行合成来生成基本特征,第一神经网络输入基本特征,然后输出第一特征;第二特征生成器从主数据集合中随机选择n个主数据,为提取的每个主数据生成一个主数据特征,将生成的所有主数据特征和主数据类别特征合成生成第二特征;第二特征和第一特征输入第二神经网络,第二神经网络,第二神经网络的输出映射到分类空间,分类空间包含两个分类标签,分别表示输入为第二特征和输入为第一特征;主数据生成模块,其用于将使用者输入的主数据的字段名称输入类别特征生成模块,生成主数据类别特征;将该主数据类别特征与从待生成主数据的原始数据集中生成的生成特征合成基本特征,将该基本特征输入主数据生成模型的第一神经网络,基于第一神经网络生成的第一特征获得待生成主数据的原始数据集的主数据和主数据对应的字段名称。2.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,主数据所链接的原始数据集是指需要与该主数据关联的原始数据集。3.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,第一神经网络和第二神经网络均为多层感知机。4.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,主数据特征和主数据类别特征合成时在主数据类别特征之后拼接主数据特征。5.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,主数据类别特征与生成特征进行合成时在主数据类别特征之后拼接随机特征向量。6.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,第一特征和第二特征的维度相同,第一特征和第二特征进行矩阵化之后表示为:,表示矩阵u中的第一行的第i个元素,表示第i个主数据类别特征;表示矩阵u中的第j行的第i列的元素,表示第j个主数据对应于第i个主数据类别特征,m表示主数据的总数,n表示一个主数据的主数据类别特征的总数。7.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,第二神经网络经过softmax层进行输出,输出的值为概率值。8.根据权利要求7所述的一种多源异构大数据处理系统,其特征在于,对于第一神经网络和第二神经网络是进行联合训练的,训练的损失函数为:,其中表示损失值,等于训练集的训练样本的数量,y为设置的常数值,表示第二神经网络输入第t个训练样本的第二特征
时输出的对应于第二特征的分类标签的概率值,表示第二神经网络输入第t个训练样本的第g个第一特征时,输出的对应于第一特征的分类标签的概率值。9.根据权利要求8所述的一种多源异构大数据处理系统,其特征在于,联合训练的训练样本来源于已经构建主数据的原始数据集,生成特征提取器从一个作为训练样本的原始数据集进行多次提取可以获得多个生成特征,因此可以合成多个基本特征,通过第一神经网络生成多个第一特征。10.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,主数据生成模块从待生成主数据的原始数据集中生成多个生成特征,分别合成多个基本特征,将合成的多个基本特征分别输入第一神经网络获得多组主数据,从多组主数据中删除重复的主数据之后获得最终的主数据集合。

技术总结
本发明涉及大数据技术领域,公开了一种多源异构大数据处理系统,包括:类别特征生成模块,其基于主数据的字段名称来生成主数据类别特征,一个主数据的字段名称对应一个主数据类别特征;数据源特征生成模块,其基于主数据所链接的原始数据集来生成数据源特征;生成特征提取器,其用于从原始数据集中随机提取字符和/或词来生成单元特征向量,然后将单元特征向量组合获得生成特征;模型生成模块,其用于生成主数据生成模型;主数据生成模块,其用于生成待生成主数据的原始数据集的主数据和主数据对应的字段名称;本发明能够对于来源范围有限的大数据自动化的生成与之匹配的主数据,通过主数据对大数据进行结构化和统一化。通过主数据对大数据进行结构化和统一化。通过主数据对大数据进行结构化和统一化。


技术研发人员:张晶 董哲
受保护的技术使用者:河北维嘉信息科技有限公司
技术研发日:2023.06.21
技术公布日:2023/8/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐