一种关键短语的获取方法以及相关设备与流程
未命名
09-24
阅读:64
评论:0
1.本技术涉及人工智能领域,尤其涉及一种关键短语的获取方法以及相关设备。
背景技术:
2.人工智能(artificial intelligence,ai)是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。随着人工智能技术的发展,利用人工智能技术对文档中执行关键短语(keyphrase extraction,ke)的抽取操作是常见的一个应用方式。
3.目前采用的方式中,可以获取与某个领域的文档语料集对应的多个关键短语,并计算每个关键短语在整个文档语料库中的稀有度。当需要对新的文档中的关键短语进行抽取时,可以从该新的文档中获取多个候选短语,计算每个候选短语在该新的文档的出现频率,根据每个候选短语在该新的文档的出现频率和每个候选短语在整个文档语料库中的稀有度,从多个候选短语中确定该新的文档所对应的关键短语。其中,一个候选短语在该新的文档的出现频率越高,且在整个文档语料库中的稀有度越高,则该候选短语被确定为关键短语。
4.但采用上述方式来获得关键短语,会倾向于过滤掉某个领域的文档语料集中常见的短语,并将新的文档中独有的短语作为该文档的关键短语,但领域内常见的短语并不一定就不是新的文档的关键短语,因此,一种更为准确的关键短语的获取方法亟待推出。
技术实现要素:
5.本技术实施例提供了一种关键短语的获取方法以及相关设备,在获取待处理文档的关键短语的过程中,考虑了待处理文档和每个候选短语的语义信息,有利于提高获取到的候选短语的准确率。
6.为解决上述技术问题,本技术实施例提供以下技术方案:
7.第一方面,本技术实施例提供一种关键短语的获取方法,可用于人工智能领域的文本处理领域中,方法包括:执行设备从待处理文档中获取多个候选短语;获取与待处理文档对应的第一指示信息,第一指示信息包括待处理文档与l个主题之间的匹配度;获取与每个候选短语对应的第二指示信息,第二指示信息包括每个候选短语与l个主题之间的匹配度;根据第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语。
8.本实现方式中,从待处理文档中获取多个候选短语之后,根据待处理文档与l个主题之间的匹配度,和,每个候选短语与l个主题之间的匹配度,从多个候选短语中获取待处理文档所对应的关键短语;也即在获取待处理文档的关键短语的过程中,考虑了待处理文档和每个候选短语的语义信息,有利于提高获取到的候选短语的准确率。
9.在第一方面的一种可能实现方式中,方法还包括:执行设备对多个候选短语执行聚类操作,得到与多个候选短语对应的至少两个短语集合,每个短语集合包括至少一个候
选短语;在目标短语集合包括的至少一个候选短语中存在第一候选短语和第二候选短语的情况下,获取第一候选短语和第二候选短语之间的目标相似度,其中,目标短语集合为至少两个短语集合中的任意一个,第一候选短语为目标短语集合中任意一个候选短语,第二候选短语在待处理文档中出现的位置早于第一候选短语在待处理文档中出现的位置。执行设备根据第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语,包括:根据目标短语集合所对应的目标相似度、第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语。
10.本实现方式中,还会获取同一目标短语集合中第一候选短语和第二候选短语之间的相似度,第一候选短语为目标短语集合中任意一个候选短语,第二候选短语在待处理文档中出现的位置早于第一候选短语在待处理文档中出现的位置,由于同一短语集合中的候选短语的语义相似度可能会比较高,则在从所有的候选短语中选取关键短语的过程中,会考虑同一目标短语集合中第一候选短语和第二候选短语之间的相似度,有利于提高抽取到的关键短语的多样性,也即抽取到的关键短语能够覆盖待处理文档所涉及的不同的主题。
11.在第一方面的一种可能实现方式中,执行设备根据短语集合所对应的目标相似度、第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语,包括:根据每个目标短语集合所对应的目标相似度,对目标短语集合中的第一候选短语的目标评分值进行更新,并根据第一指示信息和第二指示信息,对每个候选短语的目标评分值进行更新;根据候选短语的目标评分值,从多个候选短语中获取待处理文档所对应的关键短语,其中,候选短语的目标评分值越高,候选短语被确定为关键短语的概率越高。
12.本实现方式中,根据候选短语的目标评分值,从多个候选短语中获取待处理文档所对应的关键短语,且会根据每个目标短语集合所对应的目标相似度,对目标短语集合中的第一候选短语的目标评分值进行更新,也即能够降低目标短语集合中的第一候选短语的目标评分值,有利于提高关键短语的获取过程的严谨度,有利于获取到更为准确的关键短语。
13.在第一方面的一种可能实现方式中,与待处理文档对应的关键短语用于确定待处理文档在与待处理文档对应的知识组织系统kos中的位置。本实现方式中,提供了与待处理文档对应的关键短语的一种应用场景,提高了本方案和具体应用场景的结合度。
14.第二方面,本技术实施例提供一种关键短语的获取装置,可用于人工智能领域的文本处理领域中,装置包括:获取模块,用于从待处理文档中获取多个候选短语;获取模块,还用于获取与待处理文档对应的第一指示信息,第一指示信息包括待处理文档与l个主题之间的匹配度;获取模块,还用于获取与每个候选短语对应的第二指示信息,第二指示信息包括每个候选短语与l个主题之间的匹配度;处理模块,用于根据第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语。
15.本技术第二方面中,关键短语的获取装置还可以用于执行第一方面以及第一方面的各个可能实现方式中执行设备执行的步骤,具体均可以参阅第一方面,此处不再赘述。
16.第三方面,本技术实施例提供了一种计算机程序产品,计算机程序产品包括程序,当所述程序在计算机上运行时,使得计算机执行上述第一方面所述的关键短语的获取方法。
17.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储
介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面所述的关键短语的获取方法。
18.第五方面,本技术实施例提供了一种执行设备,包括处理器和存储器,所述处理器与所述存储器耦合,所述存储器,用于存储程序;所述处理器,用于执行所述存储器中的程序,使得所述执行设备执行上述第一方面所述的关键短语的获取方法。
19.第六方面,本技术提供了一种芯片系统,该芯片系统包括处理器,用于支持终端设备或通信设备实现上述方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存终端设备或通信设备必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
附图说明
20.图1为本技术实施例提供的人工智能主体框架的一种结构示意图;
21.图2为本技术实施例提供的关键短语的获取系统的一种系统架构图;
22.图3为本技术实施例提供的关键短语的获取方法的一种流程示意图;
23.图4为本技术实施例提供的关键短语的获取方法中客户设备的显示界面一种示意图;
24.图5为本技术实施例提供的关键短语的获取方法中客户设备的显示界面一种示意图;
25.图6为本技术实施例提供的关键短语的获取方法中客户设备的显示界面一种示意图;
26.图7为本技术实施例提供的关键短语的获取装置的一种结构示意图;
27.图8为本技术实施例提供的执行设备的又一种结构示意图;
28.图9为本技术实施例提供的芯片的一种结构示意图。
具体实施方式
29.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本技术的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
30.下面结合附图,对本技术的实施例进行描述。本领域普通技术人员可知,随着技术的发展和新场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
31.首先对人工智能系统总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“it价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过
程。“it价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
32.(1)基础设施
33.基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片提供,该智能芯片具体可以采用中央处理器(central processing unit,cpu)、嵌入式神经网络处理器(neural-network processing unit,npu)、图形处理器(graphics processing unit,gpu)、专用集成电路(application specific integrated circuit,asic)或现场可编程门阵列(field programmable gate array,fpga)等硬件加速芯片;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
34.(2)数据
35.基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
36.(3)数据处理
37.数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
38.其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
39.推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
40.决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
41.(4)通用能力
42.对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
43.(5)智能产品及行业应用
44.智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶、平安城市等。
45.本技术实施例可以应用于人工智能的各个应用领域中,具体的,可以应用于利用人工智能技术对各个应用领域的文档执行关键短语的抽取操作,“关键短语的抽取操作”也可以称为“语义标签的抽取操作”,其中,关键短语指的是从文档中抽取的具有代表性的短语,期望能够通过关键短语来表达文档的关键内容。
46.可选地,与待处理文档对应的关键短语用于确定待处理文档在与待处理文档对应的知识组织系统(knowledge organization system,kos)中的位置。其中,知识组织(knowledge organization)是根据一定的规则与方法,对分散的多个文档进行组织,使分
散的多个文档变得有序且方便定位,以方便知识的提供、利用和传播,而描述这些规则与方法的术语就叫知识组织系统。知识组织系统具体可以表现为知识图谱、分类表、同义词环、受控词表、叙词表或其他形式等,具体采用什么样的数据形式来表现。
47.结合上述说明,先对本技术实施例提供的关键短语的获取系统进行描述,请参阅图2,图2为本技术实施例提供的关键短语的获取系统的一种系统架构图,关键短语的获取系统200包括训练设备210、数据库220、执行设备230、数据存储系统240和客户设备250,执行设备230中包括计算模块231。
48.其中,数据库220中存储有训练数据集合,训练数据集合包括多个第一文档和每个第一文档所对应的期望结果,每个第一文档所对应的期望结果包括每个第一文档与l个主题之间的适配度。训练设备210生成第一模型/规则201,并利用数据库中的训练数据集合对第一模型/规则201进行迭代训练,得到训练后的第一模型/规则201。
49.训练设备210得到的训练后的第一模型/规则201可以部署于执行设备230中。执行设备230可以调用数据存储系统240中的数据、代码等,也可以将数据、指令等存入数据存储系统240中。数据存储系统240可以置于执行设备230中,也可以为数据存储系统240相对执行设备230是外部存储器。
50.执行设备230可以表现为与客户设备250上部署的应用程序对应的服务器。用户可以通过客户设备250向执行设备230发送待处理文档,执行设备230的计算模块231可以通过第一模型/规则201获取待处理文档的关键短语。客户设备250可以表现为各种形态的终端设备,例如手机、平板、笔记本电脑或其他形态等等。
51.本技术的一些实施例中,请参阅图2,训练设备210和执行设备230可以为分别独立的设备,训练设备210和执行设备230之间通信连接。值得注意的,图2仅是本发明实施例提供的两种关键短语的获取系统的一种架构示意图,图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如,在本技术的另一些实施例中,训练设备210和执行设备230也可以集成于同一设备中,此处不做限定。
52.结合上述描述,下面开始对本技术实施例提供的关键短语的获取方法的具体实现流程进行详细描述。本技术实施例中,请参阅图3,图3为本技术实施例提供的关键短语的获取方法的一种流程示意图,本技术实施例提供的关键短语的获取方法可以包括:
53.301、训练设备获取与目标领域对应的第一文档集合,并获取与第一文档集合对应的s个关键词。
54.本技术实施例中,训练设备在获取到目标领域对应的第一文档集合之后,可以对第一文档集合中的每个第一文档进行处理,以从第一文档集合中获取到s个关键词,也即获取到与整个第一文档集合对应的s个关键词。
55.其中,每个关键短语均包括在文档中连续的n个语词,前述处理操作可以包括:执行分词操作、词性识别操作、过滤停用词操作或其他操作等。
56.客户设备可以采用压缩包的形式上传第一文档集合,对应的,训练设备可以接收并存储客户设备上传的第一文档集合。
57.302、训练设备获取与s个关键词对应的目标指示信息,目标指示信息用于指示s个关键词中每个关键短语与l个主题之间的匹配度。
58.本技术实施例中,训练设备在获取到s个关键词后,可以获取与s个关键词对应的
目标指示信息。其中,目标指示信息用于指示s个关键词中每个关键短语与l个主题中每个主题之间的匹配度。
59.进一步地,目标指示信息可以包括s乘l个第一概率值,每个第一概率值代表一个关键短语和一个主题之间的匹配度,作为示例,例如每个第一概率值的取值范围可以为0至1之间。更进一步地,目标指示信息可以表现为矩阵的形式。
60.303、训练设备利用训练数据集合对第一模型进行迭代训练直至满足收敛条件,得到训练后的第一模型,其中,训练数据集合包括第一文档集合和每个第一文档对应的期望结果,每个第一文档对应的期望结果包括每个第一文档与l个主题之间的正确匹配度。
61.本技术实施例中,训练设备上还可以存储有训练数据集合,训练数据集合包括多个训练数据,每个训练数据至少包括一个第一文档。训练设备可以利用训练数据集合,可以采用无监督的方式或有监督的方式对第一模型进行迭代训练直至满足收敛条件,得到训练后的第一模型,具体采用什么方式对第一模型进行训练,可以结合实际应用场景灵活设定,此处不做限定。
62.具体的,若训练设备采用的为有监督的方式对第一模型进行迭代训练,则每个训练数据还可以包括每个第一文档所对应的期望结果,每个第一文档所对应的期望结果包括第一文档与l个主题之间的正确匹配度。在利用训练数据对第一模型的一次训练中,训练设备可以将第一文档输入第一模型,得到第一模型输出的与第一文档对应的预测结果,与第一文档对应的预测结果包括第一文档与l个主题之间的预测匹配度。训练设备可以根据与第一文档对应的正确结果和预测结果,生成目标损失函数的函数值,并根据目标损失函数的函数值反向更新第一模型的权重参数,从而完成对第一模型的一次训练。训练设备重复执行前述训练操作,直至满足目标收敛条件,得到训练后的第一模型。
63.其中,第一模型可以具体表现为神经网络或非神经网络类的数学模型;作为示例,例如第一模型可以为循环神经网络;进一步地,例如第一模型可以采用隐含狄利克雷分布(latent dirichlet allocation,lda)模型或其他类型的模型等,此处不做穷举。
64.目标收敛条件可以为满足损失函数的收敛条件、第一模型的训练次数达到预设次数或其他条件等,此处不做穷举。
65.目标损失函数用于指示与第一文档对应的正确结果和预测结果之间的相似度,作为示例,例如目标损失函数可以为l1损失函数、交叉熵损失函数或其他损失函数等,此处不做穷举。
66.可选地,用户可以通过客户设备输入目标指令,客户设备响应于用户的输入操作,向训练设备发送该目标指令,该目标执行用于指示训练设备开始对第一模型执行训练操作。
67.进一步可选地,客户设备还可以向用户展示第一模型的训练状态,第一模型的训练状态可以包括正在训练和训练结束。
68.304、训练设备向执行设备发送训练后的第一模型和目标指示信息。
69.本技术的一些实施例中,训练设备可以向执行设备发送训练后的第一模型和目标指示信息,对应的,执行设备接收并存储训练后的第一模型和目标指示信息。
70.305、执行设备获取待处理文档,并从待处理文档中获取m个候选短语。
71.本技术实施例中,执行设备可以预先定义每个候选短语的长度,作为示例,例如每
个候选短语的最大长度为n,n为大于或等于1的整数,具体n的取值可以结合实际情况灵活设定,此处不做限定。
72.执行设备在获取到新的待处理文档后,可以对待处理文档进行处理,以从待处理文档中获取到m个候选短语。其中,每个候选短语的长度均为n,前述处理操作可以包括:执行分词操作、词性识别操作、过滤停用词操作或其他操作等。
73.进一步地,用户可以通过客户设备向执行设备发送待处理文档,对应的,执行设备接收客户设备发送的待处理文档。可选地,用户还可以通过客户设备向执行设备发送候选短语的最大长度、关键短语的筛选条件或其他信息等,具体可以结合实际情况灵活设定,此处不做穷举。
74.306、执行设备将m个候选短语分为至少两个短语集合,每个短语集合中包括至少一个候选短语。
75.本技术的一些实施例中,执行设备在获取到m个候选短语后,可以对m个候选短语执行聚类操作,以将m个候选短语分为至少两个短语集合,每个短语集合中包括至少一个候选短语。
76.307、执行设备获取与至少两个短语集合对应的目标多部图,目标多部图的顶点代表候选短语,目标多部图的边的两个端点分别代表来自两个不同的短语集合中的候选短语。
77.本技术的一些实施例中,执行设备还可以获取与至少两个短语集合对应的有向的目标多部图(multipartite graphs),前述多部图也可以称为k部图,作为示例,例如当k=2时,k部图被称为二部图,当k=3时,k部图被称为三部图等,具体k的取值可以根据实际应用场景确定,此处不做穷举。
78.其中,在数学的分支图论中,k部图指的是顶点被或可以被划分为k个不同的独立集合的图;也即k部图是一个可以用k种颜色着色的图,k部图的每条边的两个端点都不具有相同的颜色,也即k部图的每条边的两个端点来自k个集合中的不同的集合。
[0079]“与至少两个短语集合对应的有向的目标多部图”中的每个顶点代表一个候选短语,“与至少两个短语集合对应的有向的目标多部图”中的每条边的两个端点(也即目标多部图中的顶点)分别代表来自两个不同的短语集合中的候选短语,也即只有两个候选短语来自不同的短语集合时,两个候选短语所指向的顶点之间才是连通的,同一短语集合中不同的候选短语之间不连通。
[0080]
308、在目标短语集合包括的至少一个候选短语中存在第一候选短语和第二候选短语的情况下,执行设备获取第一候选短语和第二候选短语之间的目标相似度,其中,第一候选短语为目标短语集合中任意一个候选短语,第二候选短语在待处理文档中出现的位置早于第一候选短语在待处理文档中出现的位置。
[0081]
本技术的一些实施例中,执行设备获取到至少两个短语集合之后,针对至少两个短语集合中的任意一个短语集合(为方便描述,后续称为“目标短语集合”),执行设备可以判断目标短语集合中是否包括至少两个候选短语,也即判断目标短语集合包括的至少一个候选短语中是否存在第一候选短语和第二候选短语。
[0082]
若判断结果为是,也即在执行设备确定目标短语集合包括第一候选短语和第二候选短语的情况下,可以获取第一候选短语和每个第二候选短语之间的目标相似度。若判断
结果为否,则执行设备可以处理下一个短语集合。
[0083]
其中,第一候选短语为目标短语集合中任意一个候选短语,第二候选短语在待处理文档中出现的位置早于第一候选短语在待处理文档中出现的位置。
[0084]
第一候选短语和第二候选短语之间的目标相似度可以采用:第一候选短语和第二候选短语之间的雅卡尔相似度、余弦相似度、l1相似度;或者,第一候选短语和第二候选短语之间的目标相似度也可以基于:第一候选短语和第二候选短语之间的欧式距离、马氏距离得到,或者,第一候选短语和第二候选短语之间的目标相似度还可以采用其他方式得到,此处不做穷举。
[0085]
309、执行设备获取与待处理文档对应的第一指示信息,第一指示信息指示待处理文档与l个主题中每个主题之间的匹配度。
[0086]
本技术实施例中,执行设备可以将待处理文档输入第一模型中,得到第一模型输出的与待处理文档对应的预测结果,也即与待处理文档对应的第一指示信息,第一指示信息指示待处理文档与l个主题中每个主题之间的匹配度。
[0087]
进一步地,第一指示信息可以包括l个第二概率值,每个第二概率值指示待处理文档与l个主题中的一个主题之间的匹配度;第一指示信息可以采用向量或其他数据格式等。
[0088]
310、执行设备获取与每个候选短语对应的第二指示信息,第二指示信息包括每个候选短语与l个主题之间的匹配度。
[0089]
本技术实施例中,执行设备上存储由训练设备发送的目标指示信息,则在得到m个候选短语后,可以从目标指示信息中查找每个候选短语所对应的第二指示信息,也即得到每个候选短语与l个主题中每个主题之间的匹配度。
[0090]
需要说明的是,本技术实施例不限定步骤309和310的执行顺序,可以先执行步骤309,再执行步骤310;也可以先执行步骤310,再执行步骤309。
[0091]
此外,步骤306至308为可选步骤,若不执行步骤306至308,则可以在执行完步骤305后,直接执行步骤309;若执行步骤306至308,则本技术实施例中不限定步骤306至308和步骤309至310之间的执行顺序,步骤309可以在步骤306至308中任一步骤之前或之后执行,步骤310也可以在步骤306至308中任一步骤之前或之后执行。
[0092]
311、执行设备根据第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语。
[0093]
本技术实施例中,执行设备可以根据第一指示信息和第二指示信息,计算每个候选短语的目标评分值,并根据每个候选短语的目标评分值从所述多个候选短语中获取所述待处理文档所对应的关键短语。其中,所述候选短语的所述目标评分值越高,所述候选短语被确定为关键短语的概率越高。
[0094]
针对“计算目标候选短语的目标评分值”的过程,目标候选短语为m个候选短语中的任意一个候选短语。步骤306至308均为可选步骤,若步骤306至308均不执行,则在一种实现方式中,执行设备可以直接根据第一指示信息和第二指示信息,计算每个候选短语的目标评分值。
[0095]
为了更直观地理解本方案,以下公开了计算m个候选短语中目标候选短语(也即m个候选短语中任意一个候选短语)的目标评分值的公式的一个示例:
[0096][0097]
ω∈participle(ci);(2)
[0098][0099]ci
∈c;(4)
[0100]
其中,ci代表正在处理的一个目标候选短语,ω∈participle(ci)代表对前述目标候选短语进行分词后得到的关键词集合,代表关键短语ci与l个主题中每个主题之间的匹配度,代表待处理文档与l个主题中每个主题之间的匹配度,||
·
||表示向量的二范数,avg表示求平均值,c代表m个候选短语构成的集合,代表对rz(ci)进行归一化处理后得到r(ci),r(ci)可以代表目标候选短语的目标评分值,应理解,上述式(1)至式(4)仅为方便理解本方案的一种示例,不用于限定本方案。
[0101]
在另一种实现方式中,执行设备可以根据第一指示信息和第二指示信息,计算目标候选短语的第一评分值,目标候选短语的第一评分值的具体计算方式,可以参阅上一实现方式中计算目标候选短语的目标评分值的描述,此处不做赘述。执行设备根据目标候选短语在待处理文档的出现频率和目标候选短语在整个第一文档集合中的稀有度,计算目标候选短语的第二评分值,对目标候选短语的第一评分值和第二评分值进行加权求和,得到目标候选短语的目标评分值。
[0102]
若执行步骤306和308,则步骤311可以包括:执行设备根据目标短语集合所对应的目标相似度、第一指示信息和所述第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语。
[0103]
进一步地,若执行步骤306和308,且执行步骤307,则步骤311可以包括:执行设备基于图排序(textrank)算法的原理,根据每个目标短语集合所对应的目标相似度,对目标短语集合中的第一候选短语的目标评分值进行更新,并根据第一指示信息和第二指示信息,对每个候选短语的目标评分值进行更新。
[0104]
具体的,执行设备在得到与至少两个短语集合对应的目标多部图之后,可以基于图排序(textrank)算法的原理,初始化目标多部图中边的权重值,并根据每个目标短语集合所对应的目标相似度,对目标短语集合中的第一候选短语的入边的权重进行更新。训练设备根据第一指示信息和第二指示信息,基于图排序(textrank)算法对每个顶点的目标评分值进行迭代更新,直至满足收敛条件,得到目标多部图中每个顶点的最终的目标评分值,也即得到了每个候选短语的目标评分值。
[0105]
更具体的,针对执行设备初始化并更新目标多部图的边的权重值的过程,为了更直接的理解本方案,以下结合公式进行描述,先公开执行设备初始化目标多部图中边的权重值的公式的一个示例:
[0106][0107]
其中,w
ij
代表候选短语ci到候选短语cj的边的权重,pi代表短语候选短语ci中的第一个字在待处理文档中的偏移位置,也即指示候选短语ci中的第一个字为待处理文档中的
第几个字,由于同一个待处理文档中可以存在一个或多个候选短语ci,p(ci)代表待处理文档中所有的候选短语ci构成的集合,pj代表短语候选短语cj中的第一个字在待处理文档中的偏移位置,由于同一个待处理文档中可以存在一个或多个候选短语cj,p(cj)代表待处理文档中所有的候选短语cj构成的集合,应理解,式(5)中的示例仅为方便理解本方案的一种示例,不用于限定本方案。
[0108]
以下公开对每个短语集合中的第三候选短语的每个入边的权重进行更新的公式的一个示例,也即对每个短语集合中的第三候选短语的每个入边的权重进行增大的公式的一个示例。其中,第三候选短语为每个短语集合中最早在待处理文档中出现的一个候选短语,此处以第三候选短语为cj为例,调整的是由候选短语ci指向候选短语cj的一条边的权重,也即更新w
ij
,需要说明的是第三候选短语cj的每条入边均可以采用如下公式的方式进行更新。
[0109][0110]
其中,代表候选短语ci指向候选短语cj的一条边的更新后的权重,候选短语ci指向候选短语cj的一条边指的是第三候选短语cj的入边,w
ij
代表选短语ci指向候选短语cj的一条边的更新前的权重,t(cj)代表与候选短语cj归属于同一短语集合中的其它候选短语,ck代表t(cj)中的任意一个候选短语,pi代表短语候选短语ci中的第一个字在待处理文档中的偏移位置,α是调整权重的一个超参数,w
ki
指的是候选短语ck指向候选短语ci的一条边的权重,应理解,式(6)中的举例仅为方便理解本方案,不用于限定本方案。
[0111]
需要说明的是,若一个短语集合中只包括两个候选短语,则第三候选短语和第二候选短语的含义一致;若一个短语集合中包括两个以上的候选短语,则该短语集合包括的多个第二候选短语中包括一个第三候选短语。
[0112]
以下公开每个所述目标短语集合所对应的目标相似度,对每个目标短语集合中的第一候选短语的入边的权重进行更新的公式的一个示例,第一候选短语和第二候选短语的概念可以参阅上述步骤中的描述,第一候选短语每条入边的权重均可以采用如下公式的方式进行更新。
[0113][0114]
其中,代表第二候选短语cm指向第一候选短语cn的一条边的更新后的权重,第二候选短语cm指向第一候选短语cn的一条边被称为第一候选短语cn的一条入边,cn代表第一候选短语,f(cn)代表目标短语集合中早于cn出现的至少一个第二候选短语构成的集合,cm代表f(cn)中的一个第二候选短语,jaccard(cm,cn)代表计算第一候选短语和第二候选短语之间的雅卡尔相似度(也即第一候选短语和第二候选短语之间的目标相似度),w
mn
代表第二候选短语cm指向第一候选短语cn的一条边的更新前的权重,应理解,式(7)中的示例仅为方便理解本方案,不用于限定本方案。
[0115]
针对执行设备根据图排序(textrank)算法更新每个候选短语的目标评分值的过程,具体的,执行设备在得到目标多部图的边的权重值后,可以利用每个候选短语的所有入边的权重值和出边的权重值,更新每个候选短语的目标评分值,因此,更新候选短语的入边的权重值和出边的权重值,就相当于更新候选短语的目标评分值。执行设备重复执行前述
操作直至满足收敛条件,前述收敛条件可以为每个候选短语的目标评分值的波动幅度小于预设阈值。
[0116]
进一步地,以下结合公式来描述“执行设备基于图排序(textrank)算法的原理,根据第一指示信息和第二指示信息,对候选短语的目标评分值进行更新”的过程,在基于图排序(textrank)算法的每次迭代过程中,可以通过如下公式计算:
[0117][0118]
其中,s(ci)代表候选短语ci的目标评分值,s(cj)代表候选短语cj的目标评分值,l(ci)代表候选短语ci的所有前继节点构成的集合,o(cj)代表候选短语ci的所有后继节点构成的集合,cz代表l(ci)中的任意一个候选短语,c
t
代表o(cj)中的任意一个候选短语,w
zi
代表候选短语cz指向候选短语ci的一条边的权重,w
it
代表候选短语ci指向候选短语c
t
的一条边的权重,λ是一个超参数,r(ci)的计算方式可以参阅上述式(1)至式(4)中的描述,需要说明的是,式(8)中示出的边的权重均为边的更新后的权重,此处示例仅为方便理解本方案,不用于限定本方案。
[0119]
本技术实施例中,根据候选短语的目标评分值,从多个候选短语中获取待处理文档所对应的关键短语,且会根据每个目标短语集合所对应的目标相似度,对目标短语集合中的第一候选短语的目标评分值进行更新,也即能够降低目标短语集合中的第一候选短语的目标评分值,有利于提高关键短语的获取过程的严谨度,有利于获取到更为准确的关键短语。
[0120]
若执行步骤306和308,且不执行步骤307,则在一种实现方式中,步骤311可以包括:执行设备可以根据第一指示信息和第二指示信息,计算每个候选短语的初始目标评分值,具体实现方式可以参阅上述描述,此处不做赘述。并根据目标短语集合所对应的目标相似度,对目标短语集合中的每个第一候选短语的目标评分值进行更新,也即减少目标短语集合中每个第一候选短语的目标评分值,以得到每个候选短语的更新后的目标评分值。
[0121]
本技术实施例中,还会获取同一目标短语集合中第一候选短语和第二候选短语之间的相似度,第一候选短语为目标短语集合中任意一个候选短语,第二候选短语在待处理文档中出现的位置早于第一候选短语在待处理文档中出现的位置,由于同一短语集合中的候选短语的语义相似度可能会比较高,则在从所有的候选短语中选取关键短语的过程中,会考虑同一目标短语集合中第一候选短语和第二候选短语之间的相似度,有利于提高抽取到的关键短语的多样性,也即抽取到的关键短语能够覆盖待处理文档所涉及的不同的主题。
[0122]
针对“根据每个候选短语的目标评分值从多个候选短语中获取待处理文档所对应的关键短语”的过程,执行设备可以根据每个候选短语的目标评分值,按照目标评分值从大到小的顺序,对m个候选短语进行排序,排名越靠前的候选短语,越有可能被确定为待处理文档的关键短语。
[0123]
执行设备在得到待处理文档所对应的关键短语之后,可以向客户设备发送获取到的关键短语,则客户设备会向用户展示获取到的关键短语。
[0124]
可选地,用户可以通过客户设备的显示界面对获取到的关键短语执行修改操作,前述修改操作包括但不限于:删除操作、手工补入新的关键短语或其他操作等。
[0125]
进而用户可以将待处理文档和待处理文档的关键短语保存至客户设备上,或者,也可以将待处理文档的更新后的关键短语发送给执行设备,由执行设备进行保存。
[0126]
为了更直观地理解本方案,请参阅图4,图4为本技术实施例提供的关键短语的获取方法中客户设备的显示界面一种示意图,如图4所示,图4中的1这一模块展示的是客户端与训练设备交互的图标,用户可以点击101所指向的图标,以触发向训练设备上传第一文档集合;用户可以点击102所指向的图标,以触发客户设备向训练设备发送目标指令;客户设备可以通过103向用户展示第一模型的训练状态。
[0127]
图4中2这一模块展示的是用户输入关键短语相关的参数的图标,用户可以通过201输入待处理文档的关键短语的最大数量,图4中以取值为5为例。用户还可以通过202输入从m个候选短语中选取关键短语的条件,也即每个关键短语的目标评分值的最小阈值,图4中以最小阈值的取值为0.1为例。
[0128]
用户可以通过点击3所指向的按钮,以选择待上传的待处理文档,也可以通过4所指向的文本框直接输入待处理文档。客户设备可以在5中展示待处理文档所对应的关键短语,用户可以通过点击501所指向的图标以输入对关键短语的删除操作,也可以通过点击502,以触发人工录入新的关键短语,应理解,图4中的示例仅为方便理解本方案,不用于限定本方案。
[0129]
本技术实施例中,从待处理文档中获取多个候选短语之后,根据待处理文档与l个主题之间的匹配度,和,每个候选短语与l个主题之间的匹配度,从多个候选短语中获取待处理文档所对应的关键短语;也即在获取待处理文档的关键短语的过程中,考虑了待处理文档和每个候选短语的语义信息,有利于提高获取到的候选短语的准确率。
[0130]
312、执行设备从目标领域所对应的知识组织系统kos中,获取与待处理文档的关键短语对应的kos叙词,以确定待处理文档在该kos中的位置。
[0131]
本技术的一些实施例中,执行设备在从待处理文档中获取到关键短语之后,还可以从目标领域所对应的知识组织系统kos中,获取与待处理文档的关键短语对应的kos叙词,以确定待处理文档在该kos中的位置。
[0132]
具体的,执行设备可以根据待处理文档的任意一个关键短语(为方便描述,后续称为“目标关键短语”),获取与目标关键短语对应的至少一个目标kos叙词,计算目标关键短语与每个目标kos叙词之间的相似度,若目标关键短语和目标kos叙词之间的相似度大于或等于相似度阈值,则执行设备可以将目标关键短语与目标kos叙词组成映射对,也即确定了待处理文档在kos中的一个位置,进而可以将待处理文档链接至该目标kos叙词下。若目标关键短语和目标kos叙词之间的相似度小于相似度阈值,则执行设备计算目标关键短语和下一个目标kos叙词之间的相似度。
[0133]
执行设备可以重复执行上述操作,直至遍历待处理文档的每个关键短语,从而可以得到一个或多个映射对,该映射对由关键短语和kos叙词组成。
[0134]
为了更直观地理解本方案,请参阅图5和图6,图5和图6为本技术实施例提供的关键短语的获取方法中客户设备的显示界面的两种示意图,图5中示出的“存量验证”是指对目标领域中已经抽取过关键短语的文档,进行关键短语和kos叙词之间的映射关系进行验证的交互界面。图5中以目标领域的kos采用的是知识图谱的形式为例,图5中的101可以供用户输入检索词,以获取目标领域中的文档;图5中的102和103所指向的复选框供用户自定
义文档的检索范围,若103所指向的复选框被勾选上后检索,则用户能够检索到已将验证过的文档,且已经验证过的文档会打上1044所指示的标识。
[0135]
104所指向的是根据用户输入的检索词得到的文档,在图5中1041指向的复选框被勾选上之后,用户可以通过点击1048所指向的图标对文档进行保存,保存后文档自动修改为已验证状态;也可以通过点击105中的“开始”按钮以重新对该文档的关键短语和kos叙词之间的映射关系进行识别。图5中1042和1043代表的该文档的关键短语和kos叙词之间的映射关系,用户可以对关键短语和kos叙词执行删除操作、人工补录操作或其他修改操作。
[0136]
图5中1043指向的kos叙词带下划线,表示kos叙词可点击,点击kos叙词后会在106中呈现该kos叙词的一跳关系图谱,可以通过该图谱辅助验证关键短语和kos叙词之间的映射关系。1045表示省略的文档,用户通过1046和1047所指向的图标可以上下翻页检索结果(也即检索到的其它文档)。
[0137]
图5中106中可以有限地呈现kos叙词与文档之间构成的知识图谱,可以通过点击1043所指向的kos叙词的方式触发展示,也可以通过在1061所指向的文本框中输入搜索词的方式对kos叙词或知识文档进行查询。
[0138]
当用户点击图5中2指向的图标时,可以触发进行图6,图6可以结合上述图4进行理解,在用户通过图6示出的界面上传待处理文档后,可以获取到待处理文档所对应的关键短语,进而可以实时获取待处理文档的关键短语和kos叙词之间的映射关系,图6中可以自定义3个参数,该3个参数包括:待处理文档的关键短语的最大数量、关键短语的目标评分值的最小值以及关键短语与kos叙词的最小相似度;在用户点击“开始”这一按钮后,可以对待处理文档的关键短语和kos叙词之间的映射关系进行在线识别,应理解,图5和图6中的示例仅为方便理解本方案,不用于限定本方案。
[0139]
本技术实施例中,提供了与待处理文档对应的关键短语的一种应用场景,提高了本方案和具体应用场景的结合度。
[0140]
为了更直观地理解本方案带来的有益效果,以下结合实验数据进行说明,例如从同一篇文档中获取关键短语,以下分别为采用传统方案和本技术实施例中的方法得到的分值最高的4个关键短语的得分,数据通过如下表1进行展示。
[0141][0142]
表1
[0143]
如上述表1所示,通过本技术实施例获取到的关键短语,和,通过传统方案获取到的关键短语不同,通过本技术实施例中的方法得到的关键短语更为准确。
[0144]
在图1至图6所对应的实施例的基础上,为了更好的实施本技术实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体参阅图7,图7为本技术实施例提供的关键短语的获取装置的一种结构示意图,关键短语的获取装置700包括:获取模块701,用于从待处理文档中获取多个候选短语;获取模块701,还用于获取与待处理文档对应的第一指示
信息,第一指示信息包括待处理文档与l个主题之间的匹配度;获取模块701,还用于获取与每个候选短语对应的第二指示信息,第二指示信息包括每个候选短语与l个主题之间的匹配度;处理模块702,用于根据第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语。
[0145]
在一种可能的设计中,关键短语的获取装置700还包括:聚类模块,用于对多个候选短语执行聚类操作,得到与多个候选短语对应的至少两个短语集合,每个短语集合包括至少一个候选短语;获取模块701,还用于在目标短语集合包括的至少一个候选短语中存在第一候选短语和第二候选短语的情况下,获取第一候选短语和第二候选短语之间的目标相似度,其中,目标短语集合为至少两个短语集合中的任意一个,第一候选短语为目标短语集合中任意一个候选短语,第二候选短语在待处理文档中出现的位置早于第一候选短语在待处理文档中出现的位置;处理模块702,具体用于根据目标短语集合所对应的目标相似度、第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语。
[0146]
在一种可能的设计中,处理模块702,具体用于:根据每个目标短语集合所对应的目标相似度,对目标短语集合中的第一候选短语的目标评分值进行更新,并根据第一指示信息和第二指示信息,对每个候选短语的目标评分值进行更新;根据候选短语的目标评分值,从多个候选短语中获取待处理文档所对应的关键短语,其中,候选短语的目标评分值越高,候选短语被确定为关键短语的概率越高。
[0147]
在一种可能的设计中,与待处理文档对应的关键短语用于确定待处理文档在与待处理文档对应的知识组织系统kos中的位置。
[0148]
需要说明的是,关键短语的获取装置700各模块/单元之间的信息交互、执行过程等内容,与本技术中图3至图7对应的各个方法实施例基于同一构思,具体内容可参见本技术前述所示的方法实施例中的叙述,此处不再赘述。
[0149]
接下来介绍本技术实施例提供的一种执行设备,请参阅图8,图8是本技术实施例提供的执行设备一种结构示意图,具体的,执行设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对执行设备中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在执行设备800上执行存储介质830中的一系列指令操作。
[0150]
执行设备800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
[0151]
本技术实施例中,中央处理器822,用于执行图3至图7对应实施例中的执行设备执行的关键短语的获取方法。需要说明的是,中央处理器822执行各个步骤的具体方式,与本技术中图3至图7对应的各个方法实施例基于同一构思,其带来的技术效果与本技术中图3至图7对应的各个方法实施例相同,具体内容可参见本技术前述所示的方法实施例中的叙述,此处不再赘述。
[0152]
本技术实施例中还提供一种计算机程序产品,计算机程序产品包括程序,当该程
序在计算机上运行时,使得计算机执行如前述图3至图7所示实施例描述的方法中执行设备所执行的步骤。
[0153]
本技术实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述图3至图7所示实施例描述的方法中执行设备所执行的步骤。
[0154]
本技术实施例提供的执行设备或关键短语的获取装置具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使执行设备内的芯片执行上述图3至图7所示实施例描述的关键短语的获取方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)等。
[0155]
具体的,请参阅图9,图9为本技术实施例提供的芯片的一种结构示意图,所述芯片可以表现为神经网络处理器npu 90,npu 90作为协处理器挂载到主cpu(host cpu)上,由host cpu分配任务。npu的核心部分为运算电路903,通过控制器904控制运算电路903提取存储器中的矩阵数据并进行乘法运算。
[0156]
在一些实现中,运算电路903内部包括多个处理单元(process engine,pe)。在一些实现中,运算电路903是二维脉动阵列。运算电路903还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路903是通用的矩阵处理器。
[0157]
举例来说,假设有输入矩阵a,权重矩阵b,输出矩阵c。运算电路从权重存储器902中取矩阵b相应的数据,并缓存在运算电路中每一个pe上。运算电路从输入存储器901中取矩阵a数据与矩阵b进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)908中。
[0158]
统一存储器906用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller,dmac)905,dmac被搬运到权重存储器902中。输入数据也通过dmac被搬运到统一存储器906中。
[0159]
biu为bus interface unit即,总线接口单元910,用于axi总线与dmac和取指存储器(instruction fetch buffer,ifb)909的交互。
[0160]
总线接口单元910(bus interface unit,简称biu),用于取指存储器909从外部存储器获取指令,还用于存储单元访问控制器905从外部存储器获取输入矩阵a或者权重矩阵b的原数据。
[0161]
dmac主要用于将外部存储器ddr中的输入数据搬运到统一存储器906或将权重数据搬运到权重存储器902中或将输入数据数据搬运到输入存储器901中。
[0162]
向量计算单元907包括多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积/全连接层网络计算,如batch normalization(批归一化),像素级求和,对特征平面进行上采样等。
[0163]
在一些实现中,向量计算单元907能将经处理的输出的向量存储到统一存储器906。例如,向量计算单元907可以将线性函数和/或非线性函数应用到运算电路903的输出,例如对卷积层提取的特征平面进行线性插值,再例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元907生成归一化的值、像素级求和的值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路903的激活输入,例如用于在神经网络中的后续层中的使用。
[0164]
控制器904连接的取指存储器(instruction fetch buffer)909,用于存储控制器904使用的指令;
[0165]
统一存储器906,输入存储器901,权重存储器902以及取指存储器909均为on-chip存储器。外部存储器私有于该npu硬件架构。
[0166]
其中,上述各个方法实施例中提及的第一模型中各层的运算可以由运算电路903或向量计算单元907执行。
[0167]
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,asic,或一个或多个用于控制上述第一方面方法的程序执行的集成电路。
[0168]
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本技术提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
[0169]
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本技术而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、u盘、移动硬盘、rom、ram、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本技术各个实施例所述的方法。
[0170]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
[0171]
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能
够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
技术特征:
1.一种关键短语的获取方法,其特征在于,所述方法包括:从待处理文档中获取多个候选短语;获取与所述待处理文档对应的第一指示信息,所述第一指示信息包括所述待处理文档与l个主题之间的匹配度;获取与每个所述候选短语对应的第二指示信息,所述第二指示信息包括所述每个所述候选短语与l个主题之间的匹配度;根据所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述多个候选短语执行聚类操作,得到与所述多个候选短语对应的至少两个短语集合,每个短语集合包括至少一个候选短语;在目标短语集合包括的至少一个候选短语中存在第一候选短语和第二候选短语的情况下,获取所述第一候选短语和所述第二候选短语之间的目标相似度,其中,所述目标短语集合为所述至少两个短语集合中的任意一个,所述第一候选短语为所述目标短语集合中任意一个候选短语,所述第二候选短语在所述待处理文档中出现的位置早于所述第一候选短语在所述待处理文档中出现的位置;所述根据所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语,包括:根据所述目标短语集合所对应的所述目标相似度、所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语。3.根据权利要求2所述的方法,其特征在于,所述根据所述短语集合所对应的所述目标相似度、所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语,包括:根据每个所述目标短语集合所对应的所述目标相似度,对所述目标短语集合中的所述第一候选短语的目标评分值进行更新,并根据所述第一指示信息和所述第二指示信息,对每个所述候选短语的所述目标评分值进行更新;根据所述候选短语的所述目标评分值,从所述多个候选短语中获取所述待处理文档所对应的关键短语,其中,所述候选短语的所述目标评分值越高,所述候选短语被确定为关键短语的概率越高。4.根据权利要求1至3任一项所述的方法,其特征在于,与所述待处理文档对应的关键短语用于确定所述待处理文档在与所述待处理文档对应的知识组织系统kos中的位置。5.一种关键短语的获取装置,其特征在于,所述装置包括:获取模块,用于从待处理文档中获取多个候选短语;所述获取模块,还用于获取与所述待处理文档对应的第一指示信息,所述第一指示信息包括所述待处理文档与l个主题之间的匹配度;所述获取模块,还用于获取与每个所述候选短语对应的第二指示信息,所述第二指示信息包括所述每个所述候选短语与l个主题之间的匹配度;处理模块,用于根据所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:聚类模块,用于对所述多个候选短语执行聚类操作,得到与所述多个候选短语对应的至少两个短语集合,每个短语集合包括至少一个候选短语;所述获取模块,还用于在目标短语集合包括的至少一个候选短语中存在第一候选短语和第二候选短语的情况下,获取所述第一候选短语和所述第二候选短语之间的目标相似度,其中,所述目标短语集合为所述至少两个短语集合中的任意一个,所述第一候选短语为所述目标短语集合中任意一个候选短语,所述第二候选短语在所述待处理文档中出现的位置早于所述第一候选短语在所述待处理文档中出现的位置;所述处理模块,具体用于根据所述目标短语集合所对应的所述目标相似度、所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语。7.根据权利要求6所述的装置,其特征在于,所述处理模块,具体用于:根据每个所述目标短语集合所对应的所述目标相似度,对所述目标短语集合中的所述第一候选短语的目标评分值进行更新,并根据所述第一指示信息和所述第二指示信息,对每个所述候选短语的所述目标评分值进行更新;根据所述候选短语的所述目标评分值,从所述多个候选短语中获取所述待处理文档所对应的关键短语,其中,所述候选短语的所述目标评分值越高,所述候选短语被确定为关键短语的概率越高。8.根据权利要求5至7任一项所述的装置,其特征在于,与所述待处理文档对应的关键短语用于确定所述待处理文档在与所述待处理文档对应的知识组织系统kos中的位置。9.一种计算机程序产品,其特征在于,所述计算机程序产品包括程序,当所述程序在计算机上运行时,使得计算机执行如权利要求1至4中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,当所述程序在计算机上运行时,使得计算机执行如权利要求1至4中任一项所述的方法。11.一种执行设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器耦合,所述存储器,用于存储程序;所述处理器,用于执行所述存储器中的程序,使得所述执行设备执行如权利要求1至4中任一项所述的方法。
技术总结
本申请实施例公开一种关键短语的获取方法以及相关设备,该方法可用于人工智能领域的文本处理领域中,方法包括:从待处理文档中获取多个候选短语;获取与待处理文档对应的第一指示信息,第一指示信息包括待处理文档与L个主题之间的匹配度;获取与每个候选短语对应的第二指示信息,第二指示信息包括每个候选短语与L个主题之间的匹配度;根据第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语。在获取待处理文档的关键短语的过程中,考虑了待处理文档和每个候选短语的语义信息,有利于提高获取到的候选短语的准确率。准确率。准确率。
技术研发人员:周大军
受保护的技术使用者:华为技术有限公司
技术研发日:2022.03.15
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种晾衣机及晾衣机的控制方法与流程 下一篇:一种人粪便好氧发酵罐的制作方法