关键词提取方法、装置、设备及计算机可读存储介质与流程
未命名
08-29
阅读:98
评论:0

1.本技术涉及计算机技术领域,具体涉及一种关键词提取方法、装置、设备及计算机可读存储介质。
背景技术:
2.随着互联网技术的不断发展,关键词检测功能也越来越普遍于软件产品中,传统的关键词检测功能主要是基于配置人员进行手动配置,当文本数量过多时,配置人员的工作量会过大,且提取的关键词容易出现重复提取的问题。相关技术可以通过关键词提取算法对文本中的词汇进行划分,从而达到关键词提取的目的。
3.然而,相关技术虽然可以从文本中提取对应的关键词,但是,当话术内容中的文字被划分得过于分散时,提取出来的关键词也会变得过于分散,导致关键词并不能很好地体现出文本的语义,从而降低了关键词提取的准确性,降低了用户的使用体验。
技术实现要素:
4.本技术实施例提供一种文本信息处理方法、装置、设备及计算机可读存储介质,可准确地提取出目标文本的关键词,提升用户的体验感。
5.本技术实施例提供一种文本信息处理方法,包括:
6.获取目标文本,并对所述目标文本进行分词处理,得到至少一个初始文本词汇;
7.从历史文本集合中查询与所述目标文本相似的目标历史文本;
8.获取所述目标历史文本关联的历史关键词集合,并从所述历史关键词集合中确定与所述初始文本词汇匹配的候选关键词;
9.将包含所述初始文本词汇的数量最多的候选关键词确定为所述目标文本对应的目标关键词。
10.相应的,本技术实施例提供一种文本信息处理装置,包括:
11.提取单元,用于获取目标文本,并对所述目标文本进行分词处理,得到至少一个初始文本词汇;
12.查询单元,用于从历史文本集合中查询与所述目标文本相似的目标历史文本;
13.匹配单元,用于获取所述目标历史文本关联的历史关键词集合,并从所述历史关键词集合中确定与所述初始文本词汇匹配的候选关键词;
14.确定单元,用于将包含所述初始文本词汇的数量最多的候选关键词确定为所述目标文本对应的目标关键词。
15.在一些实施例中,查询单元,还用于:
16.确定所述目标文本与历史文本集合中每个历史文本之间的文本相似度;
17.基于所述文本相似度的大小关系,从历史文本集合中选取与所述目标文本相似的目标历史文本。
18.在一些实施例中,查询单元,还用于:
19.按照所述文本相似度的从大到小顺序,对所述历史文本集合中的多个历史文本进行排序,得到历史文本序列;
20.从所述历史文本序列中选取排序在先的目标历史文本。
21.在一些实施例中,确定单元,还用于:
22.识别任意两个候选关键词之间是否存在覆盖关系;
23.若识别任意两个候选关键词之间是不存在覆盖关系,则将多个所述候选关键词均确定为目标关键词;
24.若识别到存在覆盖关系的两个候选关键词,则从所述存在覆盖关系的两个候选关键词中确定词信息长度最大的目标候选关键词,并将所述目标候选关键词确定为目标关键词。
25.在一些实施例中,所述文本信息处理装置还包括显示单元,用于:
26.将所述目标关键词确定为所述目标文本的核心关键词;
27.在文本配置页面中显示所述目标文本的核心关键词。
28.在一些实施例中,所述文本信息处理装置还包括展示单元,用于:
29.从多个所述初始文本词汇中,确定未匹配到候选关键词的初始文本词汇;
30.将所述未匹配到候选关键词的初始文本词汇确定为所述目标文本的其他关键词,其中,所述其他关键词展示在文本配置页面中更多组件对应的词汇窗口内。
31.在一些实施例中,所述文本信息处理装置还包括扩展单元,用于:
32.将所述目标关键词输入预设词汇扩展模型,得到所述目标关键词对应的扩展关键词;
33.将所述扩展关键词确定为所述目标文本的扩展词汇,所述扩展词汇展示在文本配置页面中扩展组件对应的词汇窗口内。
34.在一些实施例中,扩展单元,还用于:
35.从预设组合词汇模型中获取至少一个与所述目标关键词存在组合关系的预设组合词汇,并将所述目标关键词与预设组合词汇进行组合,得到至少一个扩展词组;
36.根据所述目标关键词与预设相似词汇模型中各个参考词汇之间的词汇相似度,选取出所述词汇相似度大于预设词汇相似度阈值的参考词汇作为所述目标关键词的扩展相似词;
37.将所述扩展词组和扩展相似词作为所述目标文本的扩展关键词。
38.在一些实施例中,所述文本信息处理装置还包括保存单元,用于:
39.将所述目标关键词与所述目标文本进行关联处理;
40.将所述与目标关键词关联处理后目标文本作为历史文本保存至历史文本集合。
41.此外,本技术实施例还提供一种计算机设备,包括处理器和存储器,存储器存储有计算机程序,处理器用于运行存储器内的计算机程序实现本技术实施例提供的文本信息处理方法中的步骤。
42.此外,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本技术实施例所提供的任一种文本信息处理方法中的步骤。
43.此外,本技术实施例还提供一种计算机程序产品,计算机程序产品包括计算机指
令,计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例所提供的任一种文本信息处理方法中的步骤。
44.本技术实施例获取目标文本,并对目标文本进行分词处理,得到至少一个初始文本词汇;从历史文本集合中查询与目标文本相似的目标历史文本;获取目标历史文本关联的历史关键词集合,并从历史关键词集合中确定与初始文本词汇匹配的候选关键词;将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词。由此可得,本方案可先提取出目标文本的初始文本词汇,然后查询出与目标文本相似的目标历史文本,根据初始文本词汇从与目标历史文本关联的历史关键词集合中匹配到对应的候选关键词,从而根据候选关键词确定出目标文本的目标关键词;以此,提高了文本关键词提取的准确性,使得用户可以更加方便地获取到目标文本的关键语义,提升了用户的体验感。
附图说明
45.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
46.图1是本技术实施例提供的文本信息处理系统的场景示意图;
47.图2为本技术实施例提供的文本信息处理方法的步骤流程示意图;
48.图3是本技术实施例提供的文本信息处理方法的另一步骤流程示意图;
49.图4是本技术实施例提供的文本信息处理方法的方框流程示意图;
50.图5是本技术实施例提供的文本信息处理装置的结构示意图;
51.图6是本技术实施例提供的计算机设备的结构示意图。
具体实施方式
52.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
53.本技术实施例提供一种文本信息处理方法、装置、设备及计算机可读存储介质。本技术实施例将从文本信息处理装置的角度进行描述,该文本信息处理装置具体可以集成在计算机设备中,该计算机设备可以是终端设备,具体可以是文本信息处理工具上所搭载的终端设备,即语音终端;此外,终端设备还可以是其他类型的设备,例如,该终端可以是电视、智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能穿戴设备等设备;此外,但并不局限于此。
54.例如,参见图1,为本技术实施例提供的文本信息处理系统的场景示意图。该场景包括终端或服务器。
55.具体的,该终端可以是语音终端,用于获取目标文本,并对目标文本进行分词处理,得到至少一个初始文本词汇;从历史文本集合中查询与目标文本相似的目标历史文本;
获取目标历史文本关联的历史关键词集合,并从历史关键词集合中确定与初始文本词汇匹配的候选关键词;将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词。
56.以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
57.在本技术实施例中,将从文本信息处理装置的角度进行描述,以该文本信息处理装置具体可以集成在计算机设备如终端设备或服务器中。参见图2,图2为本技术实施例提供的一种文本信息处理方法的步骤流程示意图,以终端设备为例,该终端设备为文本信息处理工具上搭载的终端,终端设备上的处理器执行文本信息处理方法对应的程序时,该文本信息处理方法的具体流程如下:
58.101、获取目标文本,并对目标文本进行分词处理,得到至少一个初始文本词汇。
59.在本技术实施例中,为了使得可以从当前目标文本中获取与其对应的关键词信息,可以对目标文本进行分词处理后,得到至少一个初始文本词汇,进而可以根据该初始文本词汇推断出目标文本的关键词信息,以提高关键词信息的准确性。
60.其中,目标文本可以是用户需要提取关键词信息的文本信息,例如,一段文字,也可以是一串字符。
61.其中,初始文本词汇可以是组成目标文本的词汇,例如,目标文本a的内容是“它是一个百年品牌”,则目标文本a的初始文本词汇可以是“百年”和“品牌”。
62.具体的,用户可以通过键盘输入或语音输入等方式,生成一段目标文本,在获取到目标文本后,对该目标文本进行分词处理,常用的文本分词方法有一元切分、二元切分、最大匹配等。以最大匹配法是为例,首先可以确定目标文本分词的最太长度,例如5个字。然后,从前到后逐个从目标文本中取出5个字符组成字符串,判断它是为词语,若是则取出,否则将它的最后一个字去掉,重新判断,重复上一步骤,直到处理完整个文本。将能组成词语的词汇确定为目标文本的初始词汇。
63.示例性的,目标文本a为“我爱北京的美食”,对目标文本a进行分词处理,过程如下:最大长度为3,首先取出“我爱北”、“爱北京”、“北京的”“的美食”,然后进行词语判断,最终目标文本a输出的初始文本词汇结果为“我”、“爱”、“北京”、“的”、“美食”。
64.通过以上方式,可通过对目标文本进行分词处理后,得到至少一个初始文本词汇,进而可以根据该初始文本词汇推断出目标文本的关键词信息,以提高关键词信息的准确性。
65.102、从历史文本集合中查询与目标文本相似的目标历史文本。
66.在本技术实施例中,为了使得可以从当前目标文本中获取与其对应的关键词信息,可以从历史文本集合中查询与目标文本相似的目标历史文本,从而可以根据目标历史文本关联的关键词信息,对目标文本的初始文本词汇进行完善,使得可以从目标文本提取出更加准确的关键词。
67.其中,历史文本集合可以是保存参考文本的文本集合,历史文本集合还可以是用户提前设置好用于保存历史文本的集合,从目标文本中提取到对应的关键词后,可以将目标文本保存进该历史文本集合。
68.其中,目标历史文本可以是与目标文本语义和/或文本词汇相似度较高的历史文
本。
69.具体的,对目标文本进行分词处理,从而得到目标文本的初始文本词汇后,可以从预设的历史文本集合中查询与目标文本相似度较高的历史文本作为目标文本关联的目标历史文本,具体可以对历史文本也进行分词处理,提取历史文本的初始历史文本词汇,每个历史文本各取出若干个初始历史文本词汇(比如20个),合并成一个集合,为了避免文本长度的差异,可以使用若干个初始历史文本词汇的相对词频,计算每个历史文本对于这个集合中的词的词频,生成各个历史文本对应的词频向量,同理,以此方法计算出目标文本的词频向量,计算两个向量的余弦相似度,值越大就表示越相似,以此,从历史文本集中获取到与目标文本相似的目标历史文本,为后续提取目标文本的目标关键词提供参考帮助。
70.在一些实施方式中,可根据目标文本与历史文本集合中各个历史文本之间的文本相似度,挑选出目标历史文本,如步骤102“从历史文本集合中查询与目标文本相似的目标历史文本”,可以包括:
71.(102.1)确定目标文本与历史文本集合中每个历史文本之间的文本相似度;
72.(102.2)基于文本相似度的大小关系,从历史文本集合中选取与目标文本相似的目标历史文本。
73.其中,文本相似度可以是目标文本中的组成词汇与历史文本中的组成词汇之间的相似程度,例如目标文本中各个字符与历史文本中各个字符一致,则两者的文本相似度为1。
74.具体的,对目标文本进行分词处理,从而得到目标文本的初始文本词汇后,通过计算出目标文本与历史文本集合中各个历史文本之间的文本相似度,然后根据目标文本与各个历史文本之间的文本相似度,选取出对应的目标历史文本,值得说明的是,为了避免选取到无效历史文本,可以预先设置文本相似度阈值,将文本相似度低于该文本相似度阈值的历史文本排除,只选取文本相似度高于该文本相似度阈值的历史文本作为目标文本的目标历史文本,以此避免选取到相似度很低的历史文本,当需要选取多个目标历史文本时,可以根据各个历史文本对应文本相似度的大小,从大至小依次选取出目标历史文本。
75.在一些实施方式中,可根据目标文本与历史文本集合中各个历史文本之间的文本相似度,得到历史文本序列,再从历史文本序列中选取排序在先的目标历史文本,如步骤(102.2)“基于文本相似度的大小关系,从历史文本集合中选取与目标文本相似的目标历史文本”,可以包括:
76.(102.2.1)按照文本相似度的从大到小顺序,对历史文本集合中的多个历史文本进行排序,得到历史文本序列;
77.(102.2.2)从历史文本序列中选取排序在先的目标历史文本。
78.其中,历史文本序列可以是对历史文本集合中各个历史文本进行排序后得到的文本序列。
79.具体的,计算出目标文本与历史文本集合中各个历史文本之间的文本相似度之后,可以根据文本相似度的大小,从大到小将历史文本进行排序,得到历史文本序列,当需要选取目标文本的目标历史文本时,从选取历史文本序列中第一个历史文本开始,根据历史文本序列的顺序依次选取对应数量的历史文本作为目标历史文本。
80.通过以上方式,可通过从历史文本集合中查询与目标文本相似的目标历史文本,
从而可以根据目标历史文本关联的关键词信息,对目标文本的初始文本词汇进行完善,使得可以从目标文本提取出更加准确的关键词。
81.103、获取目标历史文本关联的历史关键词集合,并从历史关键词集合中确定与初始文本词汇匹配的候选关键词。
82.在本技术实施例中,为了使得可以从当前目标文本中获取到更加准确的关键词,可以从获取目标历史文本关联的历史关键词集合,并从历史关键词集合中确定与初始文本词汇匹配的候选关键词,从而可以通过人工提取配置好的参考关键词对目标文本的初始文本词汇进行调整,获得到更加准确的关键词。
83.其中,历史关键词集合可以是与目标历史文本有关键词关联关系的词汇集合,可以代表目标历史文本的语义,历史关键词可以是用户提前为目标历史文本配置好的关键词。
84.其中,候选关键词可以是历史关键词集合中包含初始文本词汇的历史关键词,例如,初始文本词汇是“百年”和“品牌”,则候选关键词可以是“百年品牌”。
85.具体的,在从历史文本集合中查询到与目标文本相似的目标历史文后,从关键词集合中获取到与目标历史文本关联的历史关键词集合,根据目标文本的初始文本词汇,从历史关键词集合中查询是否存在包含初始文本词汇的历史关键词,若历史关键词中包含了对应的初始文本词汇,则将包含了对应初始文本词汇的历史关键词确定为候选关键词。
86.示例性的,目标历史文本a关联的历史关键词集合中包含了“百年品牌”、“世界一流”、“值得信赖”3个历史关键词,目标文本a对应的初始文本词汇有3个,分别是:“百年”、“品牌”和“一流”,则目标文本的候选关键词为“百年品牌”。
87.通过以上方式,可通过从获取目标历史文本关联的历史关键词集合,并从历史关键词集合中确定与初始文本词汇匹配的候选关键词,从而可以通过人工提取配置好的参考关键词对目标文本的初始文本词汇进行调整,获得到更加准确的关键词。
88.104、将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词。
89.在本技术实施例中,为了使得可以从当前目标文本中获取到更加准确的关键词,可以将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词,从而使得该目标关键词可以更好地展示出目标文本的关键信息,进而使得用户更加方便地配置目标文本的关键词信息,提高了文本信息处理的准确率,提升了用户体验。
90.其中,目标关键词可以是最能代表目标文本关键信息的词汇,例如目标文本“a企业是一个百年企业”的目标关键词可以是“百年企业”。
91.具体的,根据目标历史文本关联的历史关键词集合,获取到与初始文本词汇匹配的候选关键词后,若候选关键词存在多个且有多个候选关键词中包含了相同的初始关键词,则查询各个候选关键词中包含的初始文本词汇的数量,候选关键词中包含的初始文本词汇的数量越多,越能准确地反映出目标文本的关键信息,将包含初始文本词汇最多的候选关键词确定为目标文本对应的目标关键词。
92.示例性的,目标文本a为“小明夺得了联赛总冠军”,初始文本词汇为“联赛”和“总冠军”,候选关键词分别为“联赛总冠军”和“总冠军”,候选关键词“联赛总冠军”中包含“联赛”和“总冠军”2个初始文本词汇,候选关键词“总冠军”只包含“总冠军”1个初始文本词汇,
则候选关键词“联赛总冠军”更加能表示出目标文本a的关键信息,候选关键词“联赛总冠军”为目标文本a的目标关键词。
93.在一些实施方式中,候选关键词的数量可能为多个,可通过判断任意两个候选关键词之间是否存在覆盖关系,从而根据其长度挑选出对应的目标关键词,如步骤104“将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词”,可以包括:
94.(104.1)识别任意两个候选关键词之间是否存在覆盖关系;
95.(104.2)若识别任意两个候选关键词之间是不存在覆盖关系,则将多个候选关键词均确定为目标关键词;
96.(104.3)若识别到存在覆盖关系的两个候选关键词,则从存在覆盖关系的两个候选关键词中确定词信息长度最大的目标候选关键词,并将目标候选关键词确定为目标关键词。
97.其中,词信息长度可以是候选关键词包含初始文本词汇的数量,也可以是候选关键词中词汇的长度。
98.具体的,从历史关键词集合中确定出与初始文本词汇匹配的候选关键词后,若匹配到多个候选关键词,则挑选出任意两个候选关键词,识别两个候选关键词之间是否存在词汇覆盖关系,即判断一个候选关键词中的所有初始文本词汇是否在另一个候选关键词中存在,例如,候选关键词a
[0099]“百年”与候选关键词b“百年品牌”之间存在覆盖关系,候选关键词b“百年品牌”与候选关键词c“百年树人”之间不存在覆盖关系。若任意选取的两个候选关键词之间不存在覆盖关系,即两个候选关键词中任一候选关键词不会被另一候选关键词覆盖,则将多个不存在覆盖关系的候选关键词均确定为目标关键词;若识别到任意两个候选关键词之间存在覆盖关系,则获取候选关键词对应的词信息长度,将两个候选关键词之间词信息长度最大的候选关键词作为目标关键词。
[0100]
示例性的,根据目标文本对应的3个初始文本词汇“百年”、“品牌”以及“企业”,从目标文本对应的目标历史文本关联的历史关键词集合中确定了3个候选关键词,分别是候选关键词a“百年”、候选关键词b“百年品牌”以及候选关键词c“百年企业”,判断3个候选关键词之间的覆盖关系,可以得出:候选关键词a“百年”与候选关键词b“百年品牌”之间存在覆盖关系,候选关键词a“百年”与候选关键词c“百年企业”之间也存在覆盖关系,候选关键词b“百年品牌”与候选关键词c“百年企业”之间不存在覆盖关系,则目标关键词为“百年品牌”和“百年企业”。
[0101]
在一些实施方式中,该文本信息处理的方法,还可以将目标关键词确定为目标文本的核心关键词,并显示在文本配置页面中,如步骤104“将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词”之后,还可以包括:
[0102]
(104.a.1)将目标关键词确定为目标文本的核心关键词;
[0103]
(104.a.2)在文本配置页面中显示目标文本的核心关键词。
[0104]
其中,文本配置页面可以是用户终端中用于显示目标文本对应关键词信息的页面,可以通过文本配置页面查看目标文本的关键词信息。
[0105]
具体的,通过判断多个候选关键词之间是否存在覆盖关系,确定出目标文本的目标关键词后,将该目标关键词确定为目标文本的核心关键词,即最能代表该目标文本的词
汇,然后将核心关键词发送至用户终端上的文本配置页面,展示给用户,以此,使得用户可以准确地查看到目标文本的核心关键词,提高了用户的体验。
[0106]
在一些实施方式中,初始文本词汇的数量可能为多个,该文本信息处理的方法,还可以先确定未匹配到候选关键词的初始文本词汇,并将未匹配到候选关键词的初始文本词汇确定为目标文本的其他关键词,展示至文本配置页面中,如步骤104“将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词”之后,还可以包括:
[0107]
(104.b.1)从多个初始文本词汇中,确定未匹配到候选关键词的初始文本词汇;
[0108]
(104.b.2)将未匹配到候选关键词的初始文本词汇确定为目标文本的其他关键词,其中,其他关键词展示在文本配置页面中更多组件对应的词汇窗口内。
[0109]
其中,其他关键词可以是目标文本的次要关键词,主要作为目标关键词的参考词汇展示在文本配置页面中更多组件对应的窗口中。
[0110]
具体的,目标文本中存在多个初始文本词汇,将初始文本词汇与目标历史文本关联的历史关键词集合进行匹配时,有的初始文本词汇未匹配到对应的候选关键词,则将未匹配到对应候选关键词的初始文本词汇作为目标文本的其他关键词,当选中文本配置页面中的更多组件时,将其他关键词展示在展示在对应的词汇窗口中,使得用户可以通过用户终端查看到目标文本的其他关键词。
[0111]
示例性的,目标文本对应的3个初始文本词汇分别为“百年”、“品牌”以及“企业”,目标文本对应的目标历史文本关联的历史关键词集合中有3个历史关键词,分别是历史关键词a“百年”、历史关键词b“百年品牌”,其中,初始文本词汇“企业”无法与任一历史关键词匹配,则初始文本词汇“企业”将作为其他关键词展示在文本配置页面中更多组件对应的词汇窗口内。
[0112]
通过以上方式,可通过将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词,从而使得该目标关键词可以更好地展示出目标文本的关键信息,进而使得用户更加方便地配置目标文本的关键词信息,提高了文本信息处理的准确率,提升了用户体验。
[0113]
在本技术实施例中,该文本信息处理方法的还包括步骤105,步骤105可以包括:
[0114]
(105.1)将目标关键词输入预设词汇扩展模型,得到目标关键词对应的扩展关键词;
[0115]
(105.2)将扩展关键词确定为目标文本的扩展词汇,扩展词汇展示在文本配置页面中扩展组件对应的词汇窗口内。
[0116]
其中,预设词汇扩展模型可以是垂直领域语言学模型或当前现有的多模态大模型,用于为目标关键词扩展相似的关键词。
[0117]
其中,扩展关键词可以是目标关键词与其它词汇的组合词汇,也可以是与目标关键词相似的词汇。
[0118]
其中,扩展组件可以是在文本配置页面中用于为用户提供扩展关键词服务的组件,当触发扩展组件对应的服务后,会在文本配置页面中扩展组件对应的词汇窗口中展示目标文本的扩展词汇。
[0119]
具体的,在确定目标文本对应的目标关键词后,可以根据用户的扩展需求,对目标关键词进行扩展。可以将目标关键词输入至预设词汇扩展模型中,该预设词汇扩展模型可
以是针对当前目标文本训练好的模型,例如:垂直领域语言学模型,预设词汇扩展模型在检测到目标关键词后,生成该目标关键词的扩展关键词。将扩展关键词确定为目标文本的扩展词汇,并作为目标文本的扩展词汇展示在文本配置页面中扩展组件对应的词汇窗口中;以此,当目标文本中的内容过长,且用户并不是非常确定目标关键词是否存在其他表达方式时,可以提供给用户一些关于目标关键词的扩展词汇。
[0120]
在一些实施方式中,预设扩展词汇模型包括预设组合词汇模型和预设相似词汇模型,扩展关键词包括扩展词组合扩展相似词,可将目标关键词与预设组合词汇进行组合,得到至少一个扩展词组,并根据目标关键词与预设相似词汇模型中各个参考词汇之间的词汇相似度,选取出目标关键词对应的扩展相似词,如步骤(105.1),可以包括:
[0121]
(105.1.1)从预设组合词汇模型中获取至少一个与目标关键词存在组合关系的预设组合词汇,并将目标关键词与预设组合词汇进行组合,得到至少一个扩展词组;
[0122]
(105.1.2)根据目标关键词与预设相似词汇模型中各个参考词汇之间的词汇相似度,选取出词汇相似度大于预设词汇相似度阈值的参考词汇作为目标关键词的扩展相似词;
[0123]
(105.1.3)将扩展词组和扩展相似词作为目标文本的扩展关键词。
[0124]
其中,预设组合词汇模型可以是针对目标文本内容训练好的语言学模型,可以生成与目标文本相同语言范围内的关键词关联组合,例如,当前目标关键词为“百年”,预设组合词汇模型是一个内容大多为运营推广类的模型,那么根据目标关键词生成的组合词汇可能就是“百年品牌”。
[0125]
其中,预设相似词汇模型可以是一种针对通用领域的多模态大模型,根据该预设相似词汇模型生成的扩展相似词汇的范围更广,例如,目标关键词为“我们”,则生成的扩展相似词可能为“咱们”、“俺们”等。
[0126]
具体的,在确定目标文本对应的目标关键词后,响应于用户的关键词扩展需求,将目标关键词输入预设组合词汇模型中,利用预设组合词汇模型获取至少一个与目标关键词有组合关系的词汇,将目标关键词与其进行词汇组合,得到对应的扩展词组,例如,“百年”和“品牌”可以组合成“百年品牌”,以此,为目标文本扩展了相关的扩展词组。同时,将目标关键词输入预设相似词汇模型中,利用预设相似词汇模型计算出目标关键词与各个参考词汇之间的词汇相似度,具体可以通过计算出目标关键词与参考词汇之间的欧氏距离等方式,计算出词汇相似度,并将词汇相似度大于预设相似度阈值的参考词汇确定为目标关键词的扩展相似词;将扩展词组和扩展相似词作为目标文本的扩展关键词,以此,可以在后续通过文本配置页面展示给用户。
[0127]
通过以上方式,可通过将目标关键词输入预设词汇扩展模型,得到目标关键词对应的扩展关键词,并将扩展关键词确定为目标文本的扩展词汇展示在文本配置页面中扩展组件对应的词汇窗口内,从而为用户提供了关于目标文本更多的关键词参考方向,提高了用户体验。
[0128]
在本技术实施例中,该文本信息处理方法的还包括步骤106,步骤106可以包括:
[0129]
(106.1)将目标关键词与目标文本进行关联处理;
[0130]
(106.2)将与目标关键词关联处理后目标文本作为历史文本保存至历史文本集合。
[0131]
具体的,根据目标文本确定出对应的目标关键词后,将目标关键词和目标文本进行关联处理,并将关联处理后的目标文本作为历史参考文本保存至历史文本集合中,以此,增加了历史文本集合的参考文本数量,为下一文本的文本信息处理提供更多的参考信息。
[0132]
通过以上方式,可通过将与目标关键词关联处理后目标文本作为历史文本保存至历史文本集合,达到扩充参考文本的目的。
[0133]
通过实施本技术实施例中任意一个实施方式或实施方式组合,可实现文本信息处理过程的应用场景。
[0134]
由上可知,本技术实施例可以提取第一语音的第一声纹特征和第二语音的第二声纹特征,接着获取第一语音和第二语音之间的预设融合权重,并按照预设融合权重对第一声纹特征和第二声纹特征进行融合,得到第三声纹特征,然后确定第三声纹特征与第一声纹特征之间的第一特征相似度,以及确定第三声纹特征与第二声纹特征之间的第二特征相似度,进而计算第一特征相似度与第二特征相似度之间的相似度比值,并确定相似度比值与预设融合权重之间的融合权重差值最后当融合权重差值小于或等于预设权重阈值时,根据第三声纹特征生成融合语音。由此可得,本方案可先提取出目标文本的初始文本词汇,然后查询出与目标文本相似的目标历史文本,根据初始文本词汇从与目标历史文本关联的历史关键词集合中匹配到对应的候选关键词,从而根据候选关键词确定出目标文本的目标关键词;以此,提高了文本关键词提取的准确性,使得用户可以更加方便地获取到目标文本的关键语义,提升了用户的体验感。
[0135]
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
[0136]
本技术实施例以文本信息处理装置为例,对本技术实施例提供的文本信息处理方法作进一步叙述。其中,图3是本技术实施例提供的文本信息处理方法的另一步骤流程示意图。为了便于理解,本技术实施例结合图3进行描述。
[0137]
在本技术实施例中,将从文本信息处理装置的角度进行描述,该文本信息处理装置具体可以集成在计算机设备中。当计算机设备上的处理器执行数据传输方法对应的程序指令时,该文本信息处理方法的具体流程如下
[0138]
201、服务器获取目标文本,并对目标文本进行分词处理,得到多个初始文本词汇。
[0139]
其中,目标文本可以是用户需要提取关键词信息的文本信息,例如,一段文字,也可以是一串字符。
[0140]
其中,初始文本词汇可以是组成目标文本的词汇,例如,目标文本a的内容是“它是一个百年品牌”,则目标文本a的初始文本词汇可以是“百年”和“品牌”。
[0141]
具体的,用户可以通过键盘输入或语音输入等方式,生成一段目标文本,服务器在获取到目标文本后,对该目标文本进行分词处理,常用的文本分词方法有一元切分、二元切分、最大匹配等。以最大匹配法是为例,首先可以确定目标文本分词的最太长度,例如5个字。然后,从前到后逐个从目标文本中取出5个字符组成字符串,判断它是为词语,若是则取出,否则将它的最后一个字去掉,重新判断,重复上一步骤,直到处理完整个文本。将能组成词语的词汇确定为目标文本的初始词汇。
[0142]
示例性的,目标文本a为“我爱北京的美食”,对目标文本a进行分词处理,过程如下:最大长度为3,首先取出“我爱北”、“爱北京”、“北京的”“的美食”,然后进行词语判断,最终目标文本a输出的初始文本词汇结果为“我”、“爱”、“北京”、“的”、“美食”。
[0143]
202、服务器计算目标文本与历史文本集合中每个历史文本之间的文本相似度,并按照文本相似度的从大到小顺序,对历史文本集合中的多个历史文本进行排序,得到历史文本序列。
[0144]
其中,历史文本集合可以是保存参考文本的文本集合,历史文本集合还可以是用户提前设置好用于保存历史文本的集合,从目标文本中提取到对应的关键词后,可以将目标文本保存进该历史文本集合。
[0145]
其中,文本相似度可以是目标文本中的组成词汇与历史文本中的组成词汇之间的相似程度,例如目标文本中各个字符与历史文本中各个字符一致,则两者的文本相似度为1。
[0146]
其中,历史文本序列可以是对历史文本集合中各个历史文本进行排序后得到的文本序列。
[0147]
具体的,服务器对目标文本进行分词处理,从而得到目标文本的初始文本词汇后,计算出目标文本与历史文本集合中各个历史文本之间的文本相似度,具体可以对历史文本也进行分词处理,提取历史文本的初始历史文本词汇,每个历史文本各取出若干个初始历史文本词汇(比如20个),合并成一个集合,为了避免文本长度的差异,可以使用若干个初始历史文本词汇的相对词频,计算每个历史文本对于这个集合中的词的词频,生成各个历史文本对应的词频向量,同理,以此方法计算出目标文本的词频向量,计算两个向量的余弦相似度,值越大就表示越相似,然后根据目标文本与各个历史文本之间的文本相似度,从大到小将历史文本进行排序,得到历史文本序列。
[0148]
203、服务器从历史文本序列中选取多个排序在先的目标历史文本。
[0149]
其中,目标历史文本可以是与目标文本语义和/或文本词汇相似度较高的历史文本。
[0150]
具体的,服务器计算出历史文本序列后,根据历史文本需求数量,从选取历史文本序列中第一个历史文本开始,根据历史文本序列的顺序依次选取对应数量的历史文本作为目标历史文本。
[0151]
204、服务器获取多个目标历史文本关联的历史关键词集合,并从历史关键词集合中确定多个与初始文本词汇匹配的候选关键词。
[0152]
其中,历史关键词集合可以是与目标历史文本有关键词关联关系的词汇集合,可以代表目标历史文本的语义,历史关键词可以是用户提前为目标历史文本配置好的关键词。
[0153]
其中,候选关键词可以是历史关键词集合中包含初始文本词汇的历史关键词,例如,初始文本词汇是“百年”和“品牌”,则候选关键词可以是“百年品牌”。
[0154]
具体的,服务器在从历史文本集合中查询到与目标文本相似的目标历史文后,从关键词集合中获取到与目标历史文本关联的历史关键词集合,根据目标文本的初始文本词汇,从历史关键词集合中查询是否存在包含初始文本词汇的历史关键词,若历史关键词中包含了对应的初始文本词汇,则将包含了对应初始文本词汇的历史关键词确定为候选关键词。
[0155]
示例性的,目标历史文本a关联的历史关键词集合中包含了“百年品牌”、“世界一流”、“值得信赖”3个历史关键词,目标文本a对应的初始文本词汇有3个,分别是:“百年”、“品牌”和“一流”,则目标文本的候选关键词为“百年品牌”。
[0156]
205、服务器在识别到任意两个候选关键词之间不存在覆盖关系时,将多个候选关键词均确定为目标关键词。
[0157]
其中,目标关键词可以是最能代表目标文本关键信息的词汇,例如目标文本“a企业是一个百年企业”的目标关键词可以是“百年企业”。
[0158]
具体的,服务器从历史关键词集合中确定出与初始文本词汇匹配的候选关键词后,若匹配到多个候选关键词,则挑选出任意两个候选关键词,识别两个候选关键词之间是否存在词汇覆盖关系,即判断一个候选关键词中的所有初始文本词汇是否在另一个候选关键词中存在,例如,候选关键词a“百年”与候选关键词b“百年品牌”之间存在覆盖关系,候选关键词b“百年品牌”与候选关键词c“百年树人”之间不存在覆盖关系。若任意选取的两个候选关键词之间不存在覆盖关系,即两个候选关键词中任一候选关键词不会被另一候选关键词覆盖,则将多个不存在覆盖关系的候选关键词均确定为目标关键词。
[0159]
206、服务器在识别到任意两个候选关键词之间存在覆盖关系时,从存在覆盖关系的两个候选关键词中确定词信息长度最大的目标候选关键词,并将目标候选关键词确定为目标关键词。
[0160]
其中,词信息长度可以是候选关键词包含初始文本词汇的数量,也可以是候选关键词中词汇的长度。
[0161]
具体的,服务器识别到任意两个候选关键词之间存在覆盖关系,则获取候选关键词对应的词信息长度,具体可查询这两个候选关键词中包含的初始文本词汇的数量,候选关键词中包含的初始文本词汇的数量越多,越能准确地反映出目标文本的关键信息,对应的词信息长度越长,将两个候选关键词之间词信息长度最大的候选关键词作为目标关键词。
[0162]
示例性的,根据目标文本对应的3个初始文本词汇“百年”、“品牌”以及“企业”,从目标文本对应的目标历史文本关联的历史关键词集合中确定了3个候选关键词,分别是候选关键词a“百年”、候选关键词b“百年品牌”以及候选关键词c“百年企业”,判断3个候选关键词之间的覆盖关系,可以得出:候选关键词a“百年”与候选关键词b“百年品牌”之间存在覆盖关系,候选关键词a“百年”与候选关键词c“百年企业”之间也存在覆盖关系,候选关键词b“百年品牌”与候选关键词c“百年企业”之间不存在覆盖关系,则目标关键词为“百年品牌”和“百年企业”。
[0163]
207、服务器将目标关键词输入预设词汇扩展模型,得到目标关键词对应的扩展关键词。
[0164]
其中,预设词汇扩展模型可以是垂直领域语言学模型或当前现有的多模态大模型,用于为目标关键词扩展相似的关键词。
[0165]
具体的,服务器在确定目标文本对应的目标关键词后,可以根据用户的扩展需求,对目标关键词进行扩展。可以将目标关键词输入至预设词汇扩展模型中,该预设词汇扩展模型可以是针对当前目标文本训练好的模型,例如:垂直领域语言学模型,预设词汇扩展模型在检测到目标关键词后,生成该目标关键词的扩展关键词。将扩展关键词确定为目标文本的扩展词汇,并作为目标文本的扩展词汇展示在文本配置页面中扩展组件对应的词汇窗口中,值得说明的是,预设扩展词汇模型包括预设组合词汇模型和预设相似词汇模型,扩展
关键词包括扩展词组合扩展相似词,将目标关键词输入预设组合词汇模型中,利用预设组合词汇模型获取至少一个与目标关键词有组合关系的词汇,将目标关键词与其进行词汇组合,得到对应的扩展词组,例如,“百年”和“品牌”可以组合成“百年品牌”,以此,为目标文本扩展了相关的扩展词组。同时,将目标关键词输入预设相似词汇模型中,利用预设相似词汇模型计算出目标关键词与各个参考词汇之间的词汇相似度,具体可以通过计算出目标关键词与参考词汇之间的欧氏距离等方式,计算出词汇相似度,并将词汇相似度大于预设相似度阈值的参考词汇确定为目标关键词的扩展相似词;将扩展词组和扩展相似词作为目标文本的扩展关键词。
[0166]
为了便于对本技术实施例的理解,将以具体的应用场景实例对本技术实施例进行描述。具体的,通过执行以上步骤201-207,以及结合图5,对该应用场景实例进行描述。其中,以该文本信息处理过程的应用场景为例,该文本信息处理场景实例的流程具体如下:
[0167]
在文本配置页面中,用户在话术框中输入了目标文本“全新eqe没有采用柏林之声自响系统,总输出功率为710瓦”,点击话术框右下侧的“自动生成关键词”组件,然后从目标文本中提取出初始文本词汇“柏林之声”、“eqe”、“功率”、“全新”、“710瓦”,同时,结果历史关键词的匹配后,初始文本词汇“柏林之声”、“eqe”、“功率”作为目标关键词展示在话术框下方,点击话术框右下侧的“更多”组件,初始文本词汇“全新”、“710瓦”作为其他关键词展示在话术框右下方的窗口中,确定好目标文本的关键词后,点击话术框右下侧的“扩展关键词”组件,将会在“扩展关键词”组件对应的窗口中展示目标关键词“柏林之声”的相似词“丹拿”,目标关键词“功率”的词汇组合“功率输出”。
[0168]
通过以上应用场景实例,可实现如下效果:当获取到目标文本后,可初步提取出对应的初始文本词汇,在选取出与目标文本相似的目标历史文本,从目标历史文本关联的关键词汇集合中,选取出与初始文本词汇匹配的候选关键词,从而根据候选关键词确定出目标文本的目标关键词,以此提高了目标文本关键词提取的准确性,使得用户可以通过目标关键词更加方便地理解目标文本的语义,提升了用户的体验。
[0169]
由此可得,本方案可先提取出目标文本的初始文本词汇,然后查询出与目标文本相似的目标历史文本,根据初始文本词汇从与目标历史文本关联的历史关键词集合中匹配到对应的候选关键词,从而根据候选关键词确定出目标文本的目标关键词;以此,提高了文本关键词提取的准确性,使得用户可以更加方便地获取到目标文本的关键语义,提升了用户的体验感。
[0170]
为了更好地实施以上方法,本技术实施例还提供一种文本信息处理装置,该文本信息处理装置可以集成在计算机设备,比如语音终端等计算机设备中。
[0171]
例如,如图5所示,该文本信息处理装置可以包括提取单元301、查询单元302、匹配单元303、确定单元304。
[0172]
提取单元301,用于获取目标文本,并对目标文本进行分词处理,得到至少一个初始文本词汇;
[0173]
查询单元302,用于从历史文本集合中查询与目标文本相似的目标历史文本;
[0174]
匹配单元303,用于获取目标历史文本关联的历史关键词集合,并从历史关键词集合中确定与初始文本词汇匹配的候选关键词;
[0175]
确定单元304,用于将包含初始文本词汇的数量最多的候选关键词确定为目标文
本对应的目标关键词。
[0176]
在一些实施例中,查询单元302,还用于:
[0177]
确定目标文本与历史文本集合中每个历史文本之间的文本相似度;
[0178]
基于文本相似度的大小关系,从历史文本集合中选取与目标文本相似的目标历史文本。
[0179]
在一些实施例中,查询单元302,还用于:
[0180]
按照文本相似度的从大到小顺序,对历史文本集合中的多个历史文本进行排序,得到历史文本序列;
[0181]
从历史文本序列中选取排序在先的目标历史文本。
[0182]
在一些实施例中,确定单元304,还用于:
[0183]
识别任意两个候选关键词之间是否存在覆盖关系;
[0184]
若识别任意两个候选关键词之间是不存在覆盖关系,则将多个候选关键词均确定为目标关键词;
[0185]
若识别到存在覆盖关系的两个候选关键词,则从存在覆盖关系的两个候选关键词中确定词信息长度最大的目标候选关键词,并将目标候选关键词确定为目标关键词。
[0186]
在一些实施例中,文本信息处理装置还包括显示单元,用于:
[0187]
将目标关键词确定为目标文本的核心关键词;
[0188]
在文本配置页面中显示目标文本的核心关键词。
[0189]
在一些实施例中,文本信息处理装置还包括展示单元,用于:
[0190]
从多个初始文本词汇中,确定未匹配到候选关键词的初始文本词汇;
[0191]
将未匹配到候选关键词的初始文本词汇确定为目标文本的其他关键词,其中,其他关键词展示在文本配置页面中更多组件对应的词汇窗口内。
[0192]
在一些实施例中,文本信息处理装置还包括扩展单元,用于:
[0193]
将目标关键词输入预设词汇扩展模型,得到目标关键词对应的扩展关键词;
[0194]
将扩展关键词确定为目标文本的扩展词汇,扩展词汇展示在文本配置页面中扩展组件对应的词汇窗口内。
[0195]
在一些实施例中,扩展单元,还用于:
[0196]
从预设组合词汇模型中获取至少一个与目标关键词存在组合关系的预设组合词汇,并将目标关键词与预设组合词汇进行组合,得到至少一个扩展词组;
[0197]
根据目标关键词与预设相似词汇模型中各个参考词汇之间的词汇相似度,选取出词汇相似度大于预设词汇相似度阈值的参考词汇作为目标关键词的扩展相似词;
[0198]
将扩展词组和扩展相似词作为目标文本的扩展关键词。
[0199]
在一些实施例中,文本信息处理装置还包括保存单元,用于:
[0200]
将目标关键词与目标文本进行关联处理;
[0201]
将与目标关键词关联处理后目标文本作为历史文本保存至历史文本集合。
[0202]
由上可知,本方案可先提取出目标文本的初始文本词汇,然后查询出与目标文本相似的目标历史文本,根据初始文本词汇从与目标历史文本关联的历史关键词集合中匹配到对应的候选关键词,从而根据候选关键词确定出目标文本的目标关键词;以此,提高了文本关键词提取的准确性,使得用户可以更加方便地获取到目标文本的关键语义,提升了用
户的体验感。
[0203]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0204]
本技术实施例还提供一种计算机设备,如图6所示,其示出了本技术实施例所涉及的计算机设备的结构示意图,具体来讲:
[0205]
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0206]
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
[0207]
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及文本信息处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如语音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
[0208]
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0209]
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0210]
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
[0211]
获取目标文本,并对目标文本进行分词处理,得到至少一个初始文本词汇;从历史文本集合中查询与目标文本相似的目标历史文本;获取目标历史文本关联的历史关键词集合,并从历史关键词集合中确定与初始文本词汇匹配的候选关键词;将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词。
[0212]
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
[0213]
由上可知,本方案可先提取出目标文本的初始文本词汇,然后查询出与目标文本
相似的目标历史文本,根据初始文本词汇从与目标历史文本关联的历史关键词集合中匹配到对应的候选关键词,从而根据候选关键词确定出目标文本的目标关键词;以此,提高了文本关键词提取的准确性,使得用户可以更加方便地获取到目标文本的关键语义,提升了用户的体验感。
[0214]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0215]
为此,本技术实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本技术实施例所提供的任一种文本信息处理方法中的步骤。例如,该指令可以执行如下步骤:
[0216]
获取目标文本,并对目标文本进行分词处理,得到至少一个初始文本词汇;从历史文本集合中查询与目标文本相似的目标历史文本;获取目标历史文本关联的历史关键词集合,并从历史关键词集合中确定与初始文本词汇匹配的候选关键词;将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词。
[0217]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0218]
其中,该计算机可读存储介质可以包括:只读存储器(rom,read onlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。
[0219]
本技术还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的文本信息处理方法。
[0220]
由于该计算机可读存储介质中所存储的指令,可以执行本技术实施例所提供的任一种文本信息处理方法中的步骤,因此,可以实现本技术实施例所提供的任一种文本信息处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0221]
以上对本技术实施例所提供的一种文本信息处理方法、装置、设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种文本信息处理方法,其特征在于,包括:获取目标文本,并对所述目标文本进行分词处理,得到至少一个初始文本词汇;从历史文本集合中查询与所述目标文本相似的目标历史文本;获取所述目标历史文本关联的历史关键词集合,并从所述历史关键词集合中确定与所述初始文本词汇匹配的候选关键词;将包含所述初始文本词汇的数量最多的候选关键词确定为所述目标文本对应的目标关键词。2.根据权利要求1所述的方法,其特征在于,所述从历史文本集合中查询与所述目标文本相似的目标历史文本,包括:确定所述目标文本与历史文本集合中每个历史文本之间的文本相似度;基于所述文本相似度的大小关系,从历史文本集合中选取与所述目标文本相似的目标历史文本。3.根据权利要求2所述的方法,其特征在于,所述基于所述文本相似度的大小关系,从历史文本集合中选取与所述目标文本相似的目标历史文本,包括:按照所述文本相似度的从大到小顺序,对所述历史文本集合中的多个历史文本进行排序,得到历史文本序列;从所述历史文本序列中选取排序在先的目标历史文本。4.根据权利要求1至3任一项所述的方法,其特征在于,所述候选关键词的数量为多个,所述将包含所述初始文本词汇的数量最多的候选关键词确定为所述目标文本对应的目标关键词,包括:识别任意两个候选关键词之间是否存在覆盖关系;若识别任意两个候选关键词之间是不存在覆盖关系,则将多个所述候选关键词均确定为目标关键词;若识别到存在覆盖关系的两个候选关键词,则从所述存在覆盖关系的两个候选关键词中确定词信息长度最大的目标候选关键词,并将所述目标候选关键词确定为目标关键词。5.根据权利要求1所述的方法,其特征在于,所述将包含所述初始文本词汇的数量最多的候选关键词确定为所述目标文本对应的目标关键词之后,还包括:将所述目标关键词确定为所述目标文本的核心关键词;在文本配置页面中显示所述目标文本的核心关键词。6.根据权利要求1所述的方法,其特征在于,所述初始文本词汇的数量为多个,所述将包含所述初始文本词汇的数量最多的候选关键词确定为所述目标文本对应的目标关键词之后,还包括:从多个所述初始文本词汇中,确定未匹配到候选关键词的初始文本词汇;将所述未匹配到候选关键词的初始文本词汇确定为所述目标文本的其他关键词,其中,所述其他关键词展示在文本配置页面中更多组件对应的词汇窗口内。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述目标关键词输入预设词汇扩展模型,得到所述目标关键词对应的扩展关键词;将所述扩展关键词确定为所述目标文本的扩展词汇,所述扩展词汇展示在文本配置页面中扩展组件对应的词汇窗口内。
8.根据权利要求7所述的方法,其特征在于,所述预设扩展词汇模型包括预设组合词汇模型和预设相似词汇模型,所述扩展关键词包括扩展词组合扩展相似词,所述从预设扩展词汇模型中获取与所述目标关键词匹配的扩展关键词,并将所述扩展关键词作为所述目标文本的扩展词汇展示在文本配置页面中,包括:从预设组合词汇模型中获取至少一个与所述目标关键词存在组合关系的预设组合词汇,并将所述目标关键词与预设组合词汇进行组合,得到至少一个扩展词组;根据所述目标关键词与预设相似词汇模型中各个参考词汇之间的词汇相似度,选取出所述词汇相似度大于预设词汇相似度阈值的参考词汇作为所述目标关键词的扩展相似词;将所述扩展词组和扩展相似词作为所述目标文本的扩展关键词。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述目标关键词与所述目标文本进行关联处理;将所述与目标关键词关联处理后目标文本作为历史文本保存至历史文本集合。10.一种文本信息处理装置,其特征在于,包括:提取单元,用于获取目标文本,并对所述目标文本进行分词处理,得到至少一个初始文本词汇;查询单元,用于从历史文本集合中查询与所述目标文本相似的目标历史文本;匹配单元,用于获取所述目标历史文本关联的历史关键词集合,并从所述历史关键词集合中确定与所述初始文本词汇匹配的候选关键词;确定单元,用于将包含所述初始文本词汇的数量最多的候选关键词确定为所述目标文本对应的目标关键词。11.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序实现权利要求1至9任一项所述的关键词提取方法中的步骤。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质为计算机可读并存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的关键词提取方法中的步骤。
技术总结
本申请公开了一种文本信息处理方法、装置、设备及计算机可读存储介质;具体的,通过提取目标文本的初始文本词汇,再获取与目标文本相似的目标历史文本关联的历史关键词集合,并从历史关键词集合中确定与初始文本词汇匹配的候选关键词;将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词。由此可得,本方案可先提取出目标文本的初始文本词汇并查询出与目标历史文本,从与目标历史文本关联的历史关键词集合中选取出与初始文本词汇匹配的候选关键词,从而根据候选关键词确定出目标文本的目标关键词;以此,提高了文本关键词提取的准确性,使得用户可以更加方便地获取到目标文本的关键语义,提升了用户的体验感。的体验感。的体验感。
技术研发人员:彭子娇 陈东鹏 张伟彬 李亚桐
受保护的技术使用者:深圳市声扬科技有限公司
技术研发日:2023.04.28
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/