一种基于非结构化地址数据构建结构化地址库的方法与流程
未命名
09-03
阅读:88
评论:0

1.本发明涉及深度学习技术领域,更具体地说,它涉及一种基于非结构化地址数据构建结构化地址库的方法。
背景技术:
2.现有系统对地址数据的细粒度要求较高,但是由于地址数据来源复杂,地址数据存在非结构化的问题,需要对地址数据中的地址要素进行识别并纠错,并基于非结构化的地址数据构建结构化的地址树。
技术实现要素:
3.本发明提供一种基于非结构化地址数据构建结构化地址库的方法,解决相关技术中对地址数据中的地址要素进行识别并纠错,并基于非结构化的地址数据构建结构化的地址树的技术问题。
4.本发明提供了一种基于非结构化地址数据构建结构化地址库的方法,包括以下步骤:
5.步骤一:构建初始地址树;
6.初始地址树包括8个层级;
7.步骤二:从地址文本中提取地址要素;
8.从地址文本中提取地址要素,一个地址要素是一个词;
9.步骤三:地址要素映射初始地址树;
10.一个地址文本生成一个地址要素集合,表示为a={a1…an
},n《9,集合a中的地址要素的顺序与地址文本中的地址要素的顺序相同;基于命名实体识别将地址要素映射到初始地址树的层级,并对集合a中相邻的地址要素之间通过单向指针建立连接;
11.步骤四:构建并训练地址要素纠错模型;
12.基于初始地址树的地址链条生成地址链条特征矩阵;
13.地址链条特征矩阵表示为:其中表示其中的第n列第s行的元素,并表示第n个层级的地址要素的混合向量的第s个维度;
14.混合向量通过词向量和位置向量组合获得,第n个层级的地址要素的混合向量的对应词向量的维度,对应位置向量的维度;
15.如果地址链条的第n个地址要素为空,则将第n个层级的地址要素的混合向量的各个维度的值插补为0;
16.地址要素纠错模型的输出映射到八个分类空间,第i个分类空间表示为其中分别表示第i层的地址要素的五个错误类型,五个错误类型分别
为地址正确、地址错字、地址层级顺序错乱、地址缺失、同时出现地址错字和地址层级顺序错乱;
17.步骤五:使用地址要素纠错模型,并对地址要素进行纠错;
18.步骤六:对初始地址树进行剪枝获得最终地址树;
19.进一步地,初始地址树的每个层级分别对应国家、省、市、区\县、街道、社区\村委、路\街\巷\坊\里\弄\自然村、小区;
20.进一步地,从地址文本中提取地址要素包括以下步骤:
21.步骤101,地址文本清洗,去除地址文本中无用的字符和标点符号,比如冗余的空格和标点符号;
22.步骤102,地址文本分词,通过分词工具将地址文本进行分词处理获得地址要素;
23.进一步地,命名实体识别是将一个地址要素集合的每个元素顺序性映射到初始地址树的每个层级;
24.进一步地,词向量通过词向量模型获得,位置向量通过以下计算公式获得:
25.pe
(pos,2i)
=sin(pos/10000
2i/d
)
26.pe
(pos,2i+1)
=cos(pos/10000
2i/d
)
27.其中,pos表示第pos个地址要素在地址要素集合的位置下标,d表示位置向量的维度,2i表示位置向量的偶数维度,2i+1表示位置向量的奇数维度;
28.进一步地,地址要素纠错模型包括编码器和解码器,编码器输入地址链条特征矩阵,输出编码矩阵;地址链条特征矩阵和编码矩阵的维度相同;解码器输入编码矩阵,输出连接八个分类器,第i个分类器的分类空间表示为其中分别表示第i层的地址要素的五个错误类型,五个错误类型分别为地址正确、地址错字、地址层级顺序错乱、地址缺失、同时出现地址错字和地址层级顺序错乱;
29.进一步地,使用地址要素纠错模型,并对地址要素进行纠错包括以下步骤:
30.步骤201,输入初始地址树的一个地址链条特征矩阵,输出地址链条的每个地址要素的错误类型;
31.步骤202,从地址链条的最后一个地址要素向上进行遍历,直至遍历的地址要素的错误类型为正确,如果能够遍历到正确节点,则进入步骤203,否则进入步骤204;
32.步骤203,从完整地址库中遍历包含所述正确的地址要素的完整地址;
33.步骤204,从地址链条的最后一个地址要素向上进行遍历,遍历所有错误类型为地址层级顺序错乱的地址要素作为第一地址要素,从完整地址库中遍历包含第一地址要素的完整地址;
34.步骤205,从步骤203或步骤204中获得的完整地址中选择与当前的地址链条最匹配的一个作为最终完整地址,然后基于该最终完整地址对当前的地址链条进行校正;
35.进一步地,校正方式是基于最终完整地址生成地址链条替换当前的地址链条;
36.进一步地,完整地址与当前的地址链条的匹配度的可以是通过神经网络进行计算,神经网络的分类空间为离散化之后的匹配度评分;
37.进一步地,通过删除初始地址树的重复地址链获得最终地址树。
38.本发明的有益效果在于:通过提取非结构化的地址文本中的地址要素,并通过神经网络模型对地址要素进行自动纠错,将非结构化的地址文本构建成结构化的地址树。
附图说明
39.图1是本发明的基于非结构化地址数据构建结构化地址库的方法步骤图。
具体实施方式
40.现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其他例子中也可以进行组合。
41.如图1所示,一种基于非结构化地址数据构建结构化地址库的方法,包括以下步骤:
42.步骤一:构建初始地址树;
43.初始地址树包括8个层级,每个层级分别对应国家、省、市、区\县、街道、社区\村委、路\街\巷\坊\里\弄\自然村、小区;
44.步骤二:从地址文本中提取地址要素;
45.从地址文本中提取地址要素,一个地址要素是一个词;
46.例如安徽省或合肥市;
47.从地址文本中提取地址要素包括以下步骤:
48.步骤101,地址文本清洗,去除地址文本中无用的字符和标点符号,比如冗余的空格和标点符号;
49.步骤102,地址文本分词,通过分词工具将地址文本进行分词处理获得地址要素;
50.步骤三:地址要素映射初始地址树;
51.一个地址文本生成一个地址要素集合,表示为a={a1…an
},n《9,集合a中的地址要素的顺序与地址文本中的地址要素的顺序相同;基于命名实体识别将地址要素映射到初始地址树的层级,并对集合a中相邻的地址要素之间通过单向指针建立连接;
52.命名实体识别是将一个地址要素集合的每个元素顺序性映射到初始地址树的每个层级;
53.例如将当涂县映射到初始地址树的区\县层;
54.步骤四:构建并训练地址要素纠错模型;
55.基于初始地址树的地址链条生成地址链条特征矩阵;
56.地址链条特征矩阵表示为:其中表示其中的第n列第s行的元素,并表示第n个层级的地址要素的混合向量的第s个维度;
57.混合向量通过词向量和位置向量组合获得,第n个层级的地址要素的混合向量的对应词向量的维度,对应位置向量的维度。
58.如果地址链条的第n个地址要素为空,则将第n个层级的地址要素的混合向量的各个维度的值插补为0。
59.地址要素纠错模型的输出映射到八个分类空间,第i个分类空间表示为其中分别表示第i层的地址要素的五个错误类型,五个错误类型分别为地址正确、地址错字、地址层级顺序错乱、地址缺失、同时出现地址错字和地址层级顺序错乱。
60.在本发明的一个实施例中,词向量通过词向量模型获得,例如word2vec模型;位置向量通过以下计算公式获得:
61.pe
(pos,2i)
=sin(pos/10000
2i/d
)
62.pe
(pos,2i+1)
=cos(pos/10000
2i/d
)
63.其中,pos表示第pos个地址要素在地址要素集合的位置下标,d表示位置向量的维度,2i表示位置向量的偶数维度,2i+1表示位置向量的奇数维度;
64.在本发明的一个实施例中,地址要素纠错模型为transformer神经网络模型,包括编码器和解码器;
65.编码器输入地址链条特征矩阵,输出编码矩阵;地址链条特征矩阵和编码矩阵的维度相同;
66.解码器输入编码矩阵,输出层为softmax分类层,输出连接八个分类器,第i个分类器的分类空间表示为其中分别表示第i层的地址要素的五个错误类型,五个错误类型分别为地址正确、地址错字、地址层级顺序错乱、地址缺失、同时出现地址错字和地址层级顺序错乱;
67.编码器和解码器的训练为常规技术手段,在此不做赘述;
68.步骤五:使用地址要素纠错模型,并对地址要素进行纠错;包括以下步骤:
69.步骤201,输入初始地址树的一个地址链条特征矩阵,输出地址链条的每个地址要素的错误类型;
70.步骤202,从地址链条的最后一个地址要素向上进行遍历,直至遍历的地址要素的错误类型为正确,如果能够遍历到正确节点,则进入步骤203,否则进入步骤204;
71.步骤203,从完整地址库中遍历包含所述正确的地址要素的完整地址;
72.步骤204,从地址链条的最后一个地址要素向上进行遍历,遍历所有错误类型为地址层级顺序错乱的地址要素作为第一地址要素,从完整地址库中遍历包含第一地址要素的完整地址;
73.步骤205,从步骤203或步骤204中获得的完整地址中选择与当前的地址链条最匹配的一个作为最终完整地址,然后基于该最终完整地址对当前的地址链条进行校正。
74.在本发明的一个实施例中,校正方式是基于最终完整地址生成地址链条替换当前的地址链条。
75.在本发明的一个实施例中,完整地址与当前的地址链条的匹配度的可以是通过神经网络进行计算,神经网络的分类空间为离散化之后的匹配度评分。
76.步骤六:对初始地址树进行剪枝获得最终地址树;
77.在本发明的一个实施例中,通过删除初始地址树的重复地址链获得最终地址树。
78.上面对本实施例的实施例进行了描述,但是本实施例并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本
实施例的启示下,还可做出很多形式,均属于本实施例的保护之内。
技术特征:
1.一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,包括以下步骤:步骤一:构建初始地址树;初始地址树包括8个层级;步骤二:从地址文本中提取地址要素;从地址文本中提取地址要素,一个地址要素是一个词;步骤三:地址要素映射初始地址树;一个地址文本生成一个地址要素集合,表示为a={a1…
a
n
},n<9,集合a中的地址要素的顺序与地址文本中的地址要素的顺序相同;基于命名实体识别将地址要素映射到初始地址树的层级,并对集合a中相邻的地址要素之间通过单向指针建立连接;步骤四:构建并训练地址要素纠错模型;基于初始地址树的地址链条生成地址链条特征矩阵;地址链条特征矩阵表示为:其中表示其中的第n列第s行的元素,并表示第n个层级的地址要素的混合向量的第s个维度;混合向量通过词向量和位置向量组合获得,第n个层级的地址要素的混合向量的对应词向量的维度,对应位置向量的维度;如果地址链条的第n个地址要素为空,则将第n个层级的地址要素的混合向量的各个维度的值插补为0;地址要素纠错模型的输出映射到八个分类空间,第i个分类空间表示为其中分别表示第i层的地址要素的五个错误类型,五个错误类型分别为地址正确、地址错字、地址层级顺序错乱、地址缺失、同时出现地址错字和地址层级顺序错乱;步骤五:使用地址要素纠错模型,并对地址要素进行纠错;步骤六:对初始地址树进行剪枝获得最终地址树。2.根据权利要求1所述的一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,初始地址树的每个层级分别对应国家、省、市、区\县、街道、社区\村委、路\街\巷\坊\里\弄\自然村、小区。3.根据权利要求1所述的一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,从地址文本中提取地址要素包括以下步骤:步骤101,地址文本清洗,去除地址文本中无用的字符和标点符号,比如冗余的空格和标点符号;步骤102,地址文本分词,通过分词工具将地址文本进行分词处理获得地址要素。4.根据权利要求1所述的一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,命名实体识别是将一个地址要素集合的每个元素顺序性映射到初始地址树的每个层级。5.根据权利要求1所述的一种基于非结构化地址数据构建结构化地址库的方法,其特
征在于,词向量通过词向量模型获得,位置向量通过以下计算公式获得:pe
(pos,2i)
=sin(pos/10000
2i/d
)pe
(pos,2i+1)
=cos(pos/10000
2i/d
)其中,pos表示第pos个地址要素在地址要素集合的位置下标,d表示位置向量的维度,2i表示位置向量的偶数维度,2i+1表示位置向量的奇数维度。6.根据权利要求1所述的一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,地址要素纠错模型包括编码器和解码器,编码器输入地址链条特征矩阵,输出编码矩阵;地址链条特征矩阵和编码矩阵的维度相同;解码器输入编码矩阵,输出连接八个分类器,第i个分类器的分类空间表示为其中分别表示第i层的地址要素的五个错误类型,五个错误类型分别为地址正确、地址错字、地址层级顺序错乱、地址缺失、同时出现地址错字和地址层级顺序错乱。7.根据权利要求1所述的一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,使用地址要素纠错模型,并对地址要素进行纠错包括以下步骤:步骤201,输入初始地址树的一个地址链条特征矩阵,输出地址链条的每个地址要素的错误类型;步骤202,从地址链条的最后一个地址要素向上进行遍历,直至遍历的地址要素的错误类型为正确,如果能够遍历到正确节点,则进入步骤203,否则进入步骤204;步骤203,从完整地址库中遍历包含所述正确的地址要素的完整地址;步骤204,从地址链条的最后一个地址要素向上进行遍历,遍历所有错误类型为地址层级顺序错乱的地址要素作为第一地址要素,从完整地址库中遍历包含第一地址要素的完整地址;步骤205,从步骤203或步骤204中获得的完整地址中选择与当前的地址链条最匹配的一个作为最终完整地址,然后基于该最终完整地址对当前的地址链条进行校正。8.根据权利要求7所述的一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,校正方式是基于最终完整地址生成地址链条替换当前的地址链条。9.根据权利要求7所述的一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,完整地址与当前的地址链条的匹配度的可以是通过神经网络进行计算,神经网络的分类空间为离散化之后的匹配度评分。10.根据权利要求1所述的一种基于非结构化地址数据构建结构化地址库的方法,其特征在于,通过删除初始地址树的重复地址链获得最终地址树。
技术总结
本发明涉及深度学习技术领域,公开了一种基于非结构化地址数据构建结构化地址库的方法,包括以下步骤:构建初始地址树;从地址文本中提取地址要素;地址要素映射初始地址树;构建并训练地址要素纠错模型;使用地址要素纠错模型,并对地址要素进行纠错;对初始地址树进行剪枝获得最终地址树;本发明通过提取非结构化的地址文本中的地址要素,并通过神经网络模型对地址要素进行自动纠错,将非结构化的地址文本构建成结构化的地址树。文本构建成结构化的地址树。文本构建成结构化的地址树。
技术研发人员:何秋芸 陈伟 谢宏宇 郑炜 曾荣甫 许熠 林笔星 赖伟平 黄晓玲
受保护的技术使用者:国网信通亿力科技有限责任公司
技术研发日:2023.06.13
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种小儿外科手术台的制作方法 下一篇:医疗古文推荐方法、装置、电子设备及介质与流程