一种基于文本综合算法的对比方法与流程
未命名
10-21
阅读:63
评论:0
1.本发明涉及文本数据分析技术领域,具体为一种基于文本综合算法的对比方法。
背景技术:
2.近年来,互联网的普及和社交媒体的兴起导致了大量用户生成的文本内容,人们通过社交网络、微博、博客等平台分享各种各样的文本信息,包括文章、评论、推文、短信等,这些文本数据的规模和多样性使得人们需要一种快速准确的方式来比较和分析它们之间的相似度。
3.传统的文本对比方法需要人工逐条对比文本,文本对比的工作量巨大,而且不方便针对多组文本数据做出准确相似判断,可扩展性和适应性较低。
技术实现要素:
4.本发明目的是提供一种基于文本综合算法的对比方法,以解决上述背景技术中的问题。
5.为实现上述目的,本发明提供如下技术方案:一种基于文本综合算法的对比方法,包括以下步骤:
6.s1,获取所有待比对的文本数据,对文本数据做三维划分;
7.s2,将文本数据综合整理,使用文本切割和向量转换的方法将文本进行分词;
8.s3,根据词向量构建所有文本向量,建立索引矩阵;
9.s4,根据编号获取当前待比对文本,将待比对文本根据总体文本向量进行分词;
10.s5,构建待对比的文本向量;
11.s6,将待比对文本的向量与索引矩阵计算余弦相似度,形成相似度矩阵;
12.s7,将对比结果进行排序,将待对比文本结果按照对比度要求与默认三维划分对比;
13.s8,按照对比结果重新对原始文本进行划分,形成最终的对比结果。
14.优选的,所述s1的具体操作步骤如下:
15.s11,利用python中pandas数据处理模块获取离线数据信息,通过调用本地离线文件,返回本地文件文本数据内容;
16.s12,针对数据结果,利用list列表构建模块对数据进行三维划分。
17.优选的,所述s2的具体操作如下:
18.使用jieba分词模块将待对比文本逐个进行分词后统一归集进list中综合整理。
19.优选的,所述s3包括以下操作步骤:
20.s31,根据s2的中分词,使用gensim模块中corpora方法构建文本语料库;
21.s32,根据s31中语料库通过doc2bow方法构建文本词袋;
22.s33,根据s32中词袋通过tfidfmodel方法,计算词语出现的频率,构建所有文本的词频向量。
23.优选的,所述s4包括以下操作步骤:
24.s41,根据s12中文本编号获取当前待比对的文本;
25.s42,将待对比的每组文本使用jieba重新分词。
26.优选的,所述s5包括以下操作步骤:
27.s51,使用s31中构建的语料库对s42分词后的文本进行向量化;
28.s52,根据s31语料库内容和特征数量使用sparsematrixsimilarity构建全文本相似度矩阵。
29.优选的,所述s6包括以下操作步骤:
30.s61,结合s52的全文本相似度矩阵,通过s51计算出的待对比文本的向量化数据索引获得当前文本的相似度矩阵;
31.s62,对s61获取的相似度矩阵进行降维排序,获取排序后的相似度列表。
32.优选的,所述s7的具体操作如下:
33.根据s62中获取到的相似度列表和设定的相似度阈值作比较,更改s12中文本编号第二维度作为相似度结果数据,更改s12中文本编号第三维度作为相似目标编号数据。
34.优选的,所述s8的具体操作如下:
35.根据s7中结果数据,比对原始数据编号,并将相似文本数据进行填充,形成结果数据。
36.本发明至少具备以下有益效果:
37.(1)本发明提供的一种基于文本综合算法的对比方法,大大减少了人工进行文本对比的工作量,传统的文本对比方法需要人工逐条对比文本,而通过向量化和相似度对比,可以自动化地找到相似文本,从而减少了人工处理的时间和精力;
38.(2)本发明提供的一种基于文本综合算法的对比方法,还具有可扩展性和适应性,通过使用不同的文本向量化方法和相似度度量方法,可以根据不同的需求和应用场景进行定制和优化,这使得该方法可以应用于各种领域,包括信息检索、文本分类、推荐系统等。
附图说明
39.图1为本发明的流程示意图。
具体实施方式
40.下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
41.实施例
42.如图1所示,本发明提供的一种基于文本综合算法的对比方法,包括下列步骤:
43.s1,获取所有待比对的文本数据,对文本数据做三维划分,具体操作步骤如下:
44.s11,利用python(编程语言)中pandas(数据处理工具)数据处理模块获取离线数据信息,通过调用本地离线文件,返回本地文件文本数据内容;
45.s12,针对数据结果,利用list(数据结构工具)列表构建模块对数据进行三维划
分;本实施例中,将数据编号为[i,0,i],i为数据对应的编号,其中,第一个i为当前数据本身的编号本实施例中不做更改,0在后续调整为相关度具体数值,第二个i在后续调整为匹配目标的编号;
[0046]
s2,将文本数据综合整理,使用文本切割和向量转换的方法将文本进行分词,具体操作如下:
[0047]
使用jieba(分词工具)分词模块将待对比文本逐个进行分词后统一归集进list中综合整理;本实施例中,jieba分词;
[0048]
s3,根据词向量构建所有文本向量,建立索引矩阵,包括以下操作步骤:
[0049]
s31,根据s2中分词,使用gensim(语义分析模块)模块中corpora(建立语料库)方法构建文本语料库。
[0050]
s32,根据s31中语料库通过doc2bow(构建词袋工具)方法构建文本词袋;
[0051]
s33,根据s32中词袋通过tfidfmodel(向量构建)方法,计算词语出现的频率,构建所有文本的词频向量;
[0052]
s4,根据编号获取当前待比对文本,将待比对文本根据总体文本向量进行分词,包括以下操作步骤:
[0053]
s41,根据s12中文本编号获取当前待比对的文本;
[0054]
s42,将待对比的每组文本使用jieba(分词工具)重新分词;
[0055]
s5,构建待对比的文本向量,包括以下操作步骤:
[0056]
s51,使用s31中构建的语料库对s42分词后的文本进行向量化;
[0057]
s52,根据s31语料库内容和特征数量使用sparsematrixsimilarity(相似度矩阵构建方法)构建全文本相似度矩阵;
[0058]
s6,将待比对文本的向量与索引矩阵计算余弦相似度,形成相似度矩阵,包括以下操作步骤:
[0059]
s61,结合s52的全文本相似度矩阵,通过s51计算出的待对比文本的向量化数据索引获得当前文本的相似度矩阵;
[0060]
s62,对s61获取的相似度矩阵进行降维排序,获取排序后的相似度列表;
[0061]
s7,将对比结果进行排序,将待对比文本结果按照对比度要求与默认三维划分对比,具体操作如下:
[0062]
根据s62中获取到的相似度列表和设定的相似度阈值作比较,更改s12中文本编号第二维度作为相似目标编号数据,更改s12中文本编号第三维度作为相似度结果数据;
[0063]
s8,按照对比结果重新对原始文本进行划分,形成最终的对比结果,具体操作如下:
[0064]
根据s7中结果数据,比对原始数据编号,并将相似文本数据进行填充,形成结果数据。
[0065]
本发明技术方案的核心流程如下:
[0066]
首先,自然语言处理是本技术方案的基础,可以对文本数据进行语义理解和处理,包括分词等,能够将文本数据转化为机器可处理的形式,为后续的文本表示和相似度计算提供基础。
[0067]
其次,文本表示模型是实现文本向量化的关键技术,包括词袋模型、词嵌入模型,
能够将文本数据转换为数学向量,捕捉文本的语义和特征,为后续的相似度计算提供基础。
[0068]
接下来,相似度计算方法是对比算法的核心,包括余弦相似度、编辑距离等,通过计算不同文本之间的相似度得分,确定它们在语义或结构上的相似程度。
[0069]
最后,对比算法是整个技术方案的关键环节,对比算法结合了文本表示模型和相似度计算方法,将文本数据进行向量化,并使用相似度计算方法进行对比,可以高效地找到相似文本,并根据相似度的阈值进行筛选和排序,对比算法的设计和优化对于提高对比效果和准确度至关重要。
[0070]
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
[0071]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于文本综合算法的对比方法,其特征在于,包括以下步骤:s1,获取所有待比对的文本数据,对文本数据做三维划分;s2,将文本数据综合整理,使用文本切割和向量转换的方法将文本进行分词;s3,根据词向量构建所有文本向量,建立索引矩阵;s4,根据编号获取当前待比对文本,将待比对文本根据总体文本向量进行分词;s5,构建待对比的文本向量;s6,将待比对文本的向量与索引矩阵计算余弦相似度,形成相似度矩阵;s7,将对比结果进行排序,将待对比文本结果按照对比度要求与默认三维划分对比;s8,按照对比结果重新对原始文本进行划分,形成最终的对比结果。2.根据权利要求1所述的一种基于文本综合算法的对比方法,其特征在于,所述s1的具体操作步骤如下:s11,利用python中pandas数据处理模块获取离线数据信息,通过调用本地离线文件,返回本地文件文本数据内容;s12,针对数据结果,利用list列表构建模块对数据进行三维划分。3.根据权利要求2所述的一种基于文本综合算法的对比方法,其特征在于,所述s2的具体操作如下:使用jieba分词模块将待对比文本逐个进行分词后统一归集进list中综合整理。4.根据权利要求3所述的一种基于文本综合算法的对比方法,其特征在于,所述s3包括以下操作步骤:s31,根据s2的中分词,使用gensim模块中corpora方法构建文本语料库;s32,根据s31中语料库通过doc2bow方法构建文本词袋;s33,根据s32中词袋通过tfidfmodel方法,计算词语出现的频率,构建所有文本的词频向量。5.根据权利要求4所述的一种基于文本综合算法的对比方法,其特征在于,所述s4包括以下操作步骤:s41,根据s12中文本编号获取当前待比对的文本;s42,将待对比的每组文本使用jieba重新分词。6.根据权利要求5所述的一种基于文本综合算法的对比方法,其特征在于,所述s5包括以下操作步骤:s51,使用s31中构建的语料库对s42分词后的文本进行向量化;s52,根据s31语料库内容和特征数量使用sparsematrixsimilarity构建全文本相似度矩阵。7.根据权利要求6所述的一种基于文本综合算法的对比方法,其特征在于,所述s6包括以下操作步骤:s61,结合s52的全文本相似度矩阵,通过s51计算出的待对比文本的向量化数据索引获得当前文本的相似度矩阵;s62,对s61获取的相似度矩阵进行降维排序,获取排序后的相似度列表。8.根据权利要求7所述的一种基于文本综合算法的对比方法,其特征在于,所述s7的具体操作如下:
根据s62中获取到的相似度列表和设定的相似度阈值作比较,更改s12中文本编号第二维度作为相似度结果数据,更改s12中文本编号第三维度作为相似目标编号数据。9.根据权利要求8所述的一种基于文本综合算法的对比方法,其特征在于,所述s8的具体操作如下:根据s7中结果数据,比对原始数据编号,并将相似文本数据进行填充,形成结果数据。
技术总结
本发明提供了一种基于文本综合算法的对比方法,包括以下步骤:S1,获取所有待比对的文本数据,对文本数据做三维划分;S2,将文本数据综合整理,使用文本切割和向量转换的方法将文本进行分词;S3,根据词向量构建所有文本向量,建立索引矩阵;S4,根据编号获取当前待比对文本,将待比对文本根据总体文本向量进行分词;S5,构建待对比的文本向量;S6,将待比对文本的向量与索引矩阵计算余弦相似度,形成相似度矩阵;S7,将对比结果进行排序,将待对比文本结果按照对比度要求与默认三维划分对比;S8,按照对比结果重新对原始文本进行划分,形成最终的对比结果。本方案大大减少了人工进行文本对比的工作量,还具有可扩展性和适应性。还具有可扩展性和适应性。还具有可扩展性和适应性。
技术研发人员:高诗星
受保护的技术使用者:高诗星
技术研发日:2023.08.02
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/