问题召回方法、装置、设备及存储介质与流程
未命名
08-01
阅读:163
评论:0

1.本发明涉及搜索引擎技术领域,尤其涉及一种问题召回方法、装置、设备及存储介质。
背景技术:
2.搜索任务中,从用户query(查询语句)中准确计算出用户的搜索意图以及准确表征文档的语义是非常困难的。现有搜索算法主要通过关键词匹配结合倒排索引的方法进行检索,泛化性能有限,很难将语义相近但字面不匹配的结果准确召回,影响了最终效果。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现要素:
4.本发明的主要目的在于提供一种问题召回方法、装置、设备及存储介质,旨在解决现有技术搜索任务中无法准确计算出用户的搜索意图的技术问题。
5.为实现上述目的,本发明提供了一种问题召回方法,所述方法包括以下步骤:
6.确定目标查询问题对应的语义向量特征;
7.根据所述语义向量特征得到对应的待召回语义向量集;
8.根据所述待召回语义向量集确定召回问题,以完成问题召回。
9.可选的,所述根据所述语义向量特征得到对应的待召回语义向量集,包括:
10.根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
11.可选的,所述根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集之前,还包括:
12.获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;
13.根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;
14.根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;
15.根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
16.可选的,所述获取第一训练数据之前,还包括:
17.根据预设问答数据集确定普通样本;
18.获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;
19.根据所述采样网络地址信息确定多个关联查询信息;
20.根据各所述关联查询信息得到困难样本;
21.根据所述普通样本和困难样本生成第一训练数据。
22.可选的,所述根据各所述关联查询信息得到困难样本,包括:
23.根据所述关联查询信息确定查询信息对;
24.确定所述查询信息对的点击信息;
25.根据所述点击信息对查询信息对进行筛选得到有效查询信息对;
26.根据所述查询信息对生成困难样本。
27.可选的,所述根据各所述关联查询信息得到困难样本,包括:
28.根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;
29.确定各所述查询结果的点击率;
30.根据所述点击率确定有效查询结果;
31.根据所述目标查询文本和有效查询结果生成困难样本。
32.可选的,所述根据所述点击率确定有效查询结果,包括:
33.获取当前查询文本应的查询结果数量;
34.根据所述查询结果数量和查询结果的点击率确定有效查询结果。
35.可选的,所述根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型,包括:
36.将所述第一训练数据带入初始语义召回模型,得到语义召回表征;
37.根据所述语义向量表征计算损失值;
38.根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
39.可选的,所述根据所述待召回语义向量集确定召回问题,以完成问题召回,包括:
40.根据所述目标查询问题进行关键词分析,得到关键词信息;
41.根据所述关键词信息得到备选召回问题;
42.根据所述语义向量集和所述备选召回问题确定召回问题,以完成问题召回。
43.可选的,所述根据所述待召回语义向量集确定召回问题,以完成问题召回,包括:
44.根据所述语义向量特征和待召回语义向量特征集匹配预设向量特征库,得到语义向量特征对应的第一待召回问题和待召回语义向量特征集对应的第二待召回问题;
45.根据所述第一待召回问题和第二待召回问题确定召回问题,以完成问题召回。
46.此外,为实现上述目的,本发明还提出一种问题召回装置,所述问题召回装置包括:
47.确定模块,用于确定目标查询问题对应的语义向量特征;
48.处理模块,用于根据所述语义向量特征得到对应的待召回语义向量集;
49.所述处理模块,还用于根据所述待召回语义向量集确定召回问题,以完成问题召回。
50.可选的,所述处理模块,还用于根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
51.可选的,所述处理模块,还用于获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;
52.根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;
53.根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据
的比值大于或等于第一正样本数据与第一负样本数据的比值;
54.根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
55.可选的,所述处理模块,还用于根据预设问答数据集确定普通样本;
56.获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;
57.根据所述采样网络地址信息确定多个关联查询信息;
58.根据各所述关联查询信息得到困难样本;
59.根据所述普通样本和困难样本生成第一训练数据。
60.可选的,所述处理模块,还用于根据所述关联查询信息确定查询信息对;
61.确定所述查询信息对的点击信息;
62.根据所述点击信息对查询信息对进行筛选得到有效查询信息对;
63.根据所述查询信息对生成困难样本。
64.可选的,所述处理模块,还用于根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;
65.确定各所述查询结果的点击率;
66.根据所述点击率确定有效查询结果;
67.根据所述目标查询文本和有效查询结果生成困难样本。
68.可选的,所述处理模块,还用于获取当前查询文本应的查询结果数量;
69.根据所述查询结果数量和查询结果的点击率确定有效查询结果。
70.可选的,所述处理模块,还用于将所述第一训练数据带入初始语义召回模型,得到语义召回表征;
71.根据所述语义向量表征计算损失值;
72.根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
73.此外,为实现上述目的,本发明还提出一种问题召回设备,所述问题召回设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问题召回程序,所述问题召回程序配置为实现如上文所述的问题召回方法的步骤。
74.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有问题召回程序,所述问题召回程序被处理器执行时实现如上文所述的问题召回方法的步骤。
75.本发明确定目标查询问题对应的语义向量特征;根据所述语义向量特征得到对应的待召回语义向量集;根据所述待召回语义向量集确定召回问题,以完成问题召回。通过上述方式,实现了对查询问题准确召回。本发明通过计算查询问题的语义向量特征,匹配语义相同的问题进行召回,准确的捕捉用户的搜索意图,将语义相近但字面不匹配的结果也可以进行准确召回,提高了召回的准确性的同时,提升了召回率。
附图说明
76.图1是本发明实施例方案涉及的硬件运行环境的问题召回设备的结构示意图;
77.图2为本发明问题召回方法第一实施例的流程示意图;
78.图3为本发明问题召回方法第二实施例的流程示意图;
79.图4为本发明问题召回装置第一实施例的结构框图。
80.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
81.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
82.参照图1,图1为本发明实施例方案涉及的硬件运行环境的问题召回设备结构示意图。
83.如图1所示,该问题召回设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram)存储器,也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
84.本领域技术人员可以理解,图1中示出的结构并不构成对问题召回设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
85.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及问题召回程序。
86.在图1所示的问题召回设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明问题召回设备中的处理器1001、存储器1005可以设置在问题召回设备中,所述问题召回设备通过处理器1001调用存储器1005中存储的问题召回程序,并执行本发明实施例提供的问题召回方法。
87.本发明实施例提供了一种问题召回方法,参照图2,图2为本发明一种问题召回方法第一实施例的流程示意图。
88.本实施例中,所述问题召回方法包括以下步骤:
89.步骤s10:确定目标查询问题对应的语义向量特征。
90.需要说明的是,本实施例的执行主体为语义召回系统,所述语义召回系统可以设置于服务器,也可以设置于与服务器功能相同或者相似的其他终端设备,本实施例对此不加以限定。
91.可以理解的是,本实施例应用于智能问答、答案推荐以及搜索过程中,本实施例对此不加以限定,在搜索任务中,从用户query中准确计算出用户的搜索意图以及准确表征文档的语义是非常困难的。现有搜索算法主要通过关键词匹配结合倒排索引的方法进行检索,泛化性能有限,特别是针对一些长尾的query,很难将语义相近但字面不匹配的结果准确召回,影响了最终效果。因此,为了解决目前系统纯靠term(词条)来召回的问题,我们通过语义召回进行改进。根据所述语义向量特征得到对应的待召回语义向量集,再根据所述待召回语义向量集确定召回问题,避免了文本上相似度不高但语义相似度较高的问题无法被召回,提升了召回率和召回的准确性。
92.应当说明的是,目标查询问题即为用户在进行搜索时输入的文本或者输入的语音通过转化得到的文本信息,其文本一般为一个用于查询对应答案的问题。
93.需要理解的是,语义向量特征可以根据语义特征向量模型获得,即将文本输入语义特征向量模型中获取对应的特征向量。
94.步骤s20:根据所述语义向量特征得到对应的待召回语义向量集。
95.可以理解的是,所述根据所述语义向量特征得到对应的待召回语义向量集的过程,可以是根据语义向量特征查找语义向量集,得到与之相匹配的待召回语义向量集。
96.所述语义向量集即为客户在训练过程中沉淀的语义向量数据集或者第三方的语义向量数据集。
97.具体的,可以将语义向量特征分解成不同的向量标签,再以向量标签为索引在语义向量集中找到相关联的语义向量特征,进而计算语义向量特征与相关联的语义向量特征之间的相似度,组成待召回语义向量集。其中,相似度的计算过程可以计算两个语义向量特征的余弦值,再根据余弦值相似性度,在相似度高于设定好的相似度阈值时,将高于设定好的相似度阈值对应的相关联的语义向量特征加入待召回语义向量集。
98.步骤s30:根据所述待召回语义向量集确定召回问题,以完成问题召回。
99.需要说明的是,根据所述语义向量集可以找到语义向量集中各语义向量对应的问题信息,例如:问题编号,这里的问题信息即可找到对应的召回问题进行召回。
100.具体的,问题信息均是通过将问题库的问题提前完成语义向量的抓化后,将问题信息与语义向量关联在一起形成的。
101.在本实施例中,根据所述目标查询问题进行关键词分析,得到关键词信息;根据所述关键词信息得到备选召回问题;根据所述语义向量集和所述备选召回问题确定召回问题,以完成问题召回。
102.需要说明的是,在语义召回这一条路径之外,还可以增加一路关键词召回,这是因为基于语义召回是以文本的语义为基础进行召回的,其关联程度是以语义为主,而关键词召回可以得到文本相似度更加高的相似问题,因此两者相结合能让语义召回系统拥有更高的召回率。
103.具体的,根据所述目标查询问题进行关键词分析,解析出目标查询问题中的关键词信息,将不同的关键词信息按权重比例查找相关的问题进行召回,例如:当目标查询问题为“太阳的温度为多少”时,可以解析出关键词信息“太阳”、“温度”、“多少”等,那么此时“太阳”和“温度”的权重比例肯定是高于“多少”的,因此进行召回的问题包含“太阳”、“温度”以及两者同义词的问题与目标查询问题的相似度要比包含“太阳”以及“多少”的问题与目标查询问题的相似度要高,最后再根据相似度大小筛选出需要召回的问题。
104.在本实施例中,根据所述语义向量特征和待召回语义向量特征集匹配预设向量特征库,得到语义向量特征对应的第一待召回问题和待召回语义向量特征集对应的第二待召回问题;根据所述第一待召回问题和第二待召回问题确定召回问题,以完成问题召回。
105.需要说明的是,虽然待召回语义向量特征集中的元素与语义向量特征相似度很高,但最为准确的大概率还是用户本身输入的目标查询语句对应的语义向量特征,因此,如果仅仅根据待召回语义向量特征集进行问题的召回可能会遗漏最准确的那一部分答案。需要将目标查询语句对应的语义特征向量与待召回语义向量特征集相融合,得到语义特征向量对应的第一待召回问题和待召回语义向量特征集对应的第二待召回问题,再将第一待召回问题和第二待召问题相融合得到最后的召回问题。
106.本实施例确定目标查询问题对应的语义向量特征;根据所述语义向量特征得到对应的待召回语义向量集;根据所述待召回语义向量集确定召回问题,以完成问题召回。通过
上述方式,实现了对查询问题准确召回。本发明通过计算查询问题的语义向量特征,匹配语义相同的问题进行召回,准确的捕捉用户的搜索意图,将语义相近但字面不匹配的结果也可以进行准确召回,提高了召回的准确性的同时,提升了召回率。
107.参考图3,图3为本发明一种问题召回方法第二实施例的流程示意图。
108.基于上述第一实施例,本实施例问题召回方法在所述步骤s20,还包括:
109.步骤s21:在本实施例中,根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
110.需要说明的是,召回问题的过程中还可以根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集,所述预设目标语义召回模型可以输入语义向量特征数据并匹配出相似度较高的若干待召回语义向量,本实施例对预设目标语义召回模型的表现方式不加以限定。
111.在本实施例中,提出一种优选的预设目标语义召回模型训练过程,训练步骤如下:步骤s211:获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;步骤s212:根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;步骤s213:根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;步骤s214:根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
112.需要说明的是,预设目标语义召回模型使用时通过计算向量之间的相似度对结果进行召回,从而实现基于语义向量特征的语义检索。在句向量表示任务中,一般模型存在输出向量质量较低的问题,难以反应两个句子之间的相似度。主要是因为原生的向量表达倾向于将所有向量编码到一个较小的空间中,这使得大部分句子对都具有较高的语义相似度分数。因此我们要对预设目标语义召回模型进行有针对性的训练,特别是针对训练方法上进行优化,使其能实现在搜索几百亿数据上的高质量索引。
113.应当说明的是,本实施例用了第一训练数据和第二训练数据进行两个流程的训练是基于对比学习的方法,对比学习是一种常用的自监督学习方法。核心思想是,把正样本的距离拉近,把负样本的距离拉远。常用方法是,通过一个正样本,以及k个负样本进行对比学习,研究表明k越大,效果越好。然而,第一个流程采用了“query(查询数据)+一个正样本+四个负样本”的方法,每个query只能看到3个负样本,但只通过这种方式训练限制了模型进一步学习句子表征。因此,我们通过对比学习的思想,在模型第二次训练的过程中将同一batch(批次)内的所有其他样本的样本数据均作为当前的query的负例。每条样本变为“query+一个正样本+一个负样本”形式,但n变为训练时的batch size*2。此外,batch size(批次数据大小)受限于显存及显卡个数,为了尽可能让模型接触到更多的负例,我们通过memory bank方法,将一部分待预测的数据存入内存中,将batch size从512提升至4096,进一步提升了模型表现。
114.其中,步骤s211:获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据。
115.需要说明的是,第一训练数据即为用于对模型进行训练的数据,其中包括了第一采样查询数据(query)、第一正样本数据以及第一负样本数据,其中第一正样本数据为与第
一采样查询数据实际相似性高的问题,第一负样本数据为与第一采样查询数据相似度交底或者毫无联系的问题。
116.在本实施例中,根据预设问答数据集确定普通样本;获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;根据所述采样网络地址信息确定多个关联查询信息;根据各所述关联查询信息得到困难样本;根据所述普通样本和困难样本生成第一训练数据。
117.其中,采样网络地址即为具有查询功能的网络地址,例如:“手机靓号大全”的url作为采样网络地址,根据这个url去挖掘关联查询信息,所述关联查询信息即为有关联的query或者与query相关联的title,以及各个query和title的点击率、点击次数等相关数据。根据上述数据可以得到不同query和title之间的关联程度,选择有关联的数据但实际语义相似度低的数据作为困难样本。
118.需要说明的是,一般训练中会使用随机样本作为负例。该方法虽然保证了训练时状态和线上应用场景相近,但是随机抽样的负例往往和正例title语义相关性很低,导致区分任务过于简单,模型在开始训练几轮之后便收敛,无法进一步提升对相似样本区分能力。因此我们通过本实施例的方法对部分样本进行挖掘,挖掘了一批title(主题)作为困难样本(hard negative sample),这部分样本在字面上和query上具有一定的重合,但语义上相关性较差。将这部分数据混合进训练数据,可以提升区分任务难度,增加模型的判别能力。其中,困难样本数据可以通过人工挖掘的方式获取,也可以自动挖掘结合人工审核,本实施例对此不加以限定。
119.在本实施例中,根据所述关联查询信息确定查询信息对;确定所述查询信息对的点击信息;根据所述点击信息对查询信息对进行筛选得到有效查询信息对;根据所述查询信息对生成困难样本。
120.在具体实现中,本实施例提出一种困难样本挖掘的优选方案,如下,根据所述关联查询信息确定查询信息对,其中,查询信息对即为互相可以查询到的query,例如:query1为“手机号码有什么用”,query2为“哪种号码比较吉利”,在查询query1时会推荐query2对应的信息,在查询query2时会推荐query1对应的信息,那么query1和query2互为信息对,那么此时挖掘在同一url下有共同展现,但没有共同点击的query对即可挖掘为困难样本,例如:在推荐查询语句“手机号码有什么用”的关联信息时,并没有人点击“哪种号码比较吉利”这一个推荐问题,反过来也相同。那么视为两者没有共同点击,说明该网站的推荐系统默认两者关联但实际上用户却不这么认为,因此将这个作为困难样本十分理想。其中,只需要将query1作为第一训练数据中的采样查询数据,将query2作为负样本,整样本的获取方式不加以限定。
121.在本实施例中,根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;确定各所述查询结果的点击率;根据所述点击率确定有效查询结果;根据所述目标查询文本和有效查询结果生成困难样本。
122.需要说明的是,根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果的过程中,查询结果指的是根据当前查询文本所推荐的相关问题,例如:当前问题query3为“哪种手机号码比较吉利”时,推荐了若干个相关的问题,如title1“手机号什么数字好手机号什么数字最吉利”、title2“什么手机号码吉利挑个吉号鸿运升”、title3“属马的人什么样的手机号吉利又旺财”,此时的当前查询文本为query3,对应的查询结果为title1、title2和title3,再分别确定其推荐的查询结果对应的点击率,点击率高说明用户认为两者语义相似程度高,点击率说明两者相似度低用户可能是偶尔觉得感兴趣才进行点击,例如:title1、title2和title3的点击率分别为0.4、0.15和0,那么可以选择点击率为0的title3为负样本,点击率最高的title1为正样本,query3为采样查询数据生成第一训练数据。
123.在本实施例中,获取当前查询文本应的查询结果数量;根据所述查询结果数量和查询结果的点击率确定有效查询结果。
124.可以理解的是,查询结果数量即为当前页面推荐系统中推荐的问题数量,如果想得到更加准确的答案,可以根据查询结果数量结合查询结果的点击率进行确定,这是因为数量越多越靠后的title越难以被看到,因此其相关性可能有但是由于位置关系鲜有人进行点击,因此位置越靠前点击率与相似程度的相关性越高,因此数量较多时需要结合查询结果的位置和点击率共同选择,选择小于点击率阈值且最靠前的若干查询结果为负样本进行第一训练数据的构造。
125.步骤s212:根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型。
126.需要说明的是,初始语义召回模型即为还未经过训练的初始模型,例如:bert模型,本实施例对初始模型的类型不加以限定。模型的训练过程即为把正样本的距离拉近,把负样本的距离拉远,直到模型收敛。
127.在本实施例中,将所述第一训练数据带入初始语义召回模型,得到语义召回表征;根据所述语义向量表征计算损失值;根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
128.需要说明的是,损失值的计算可以通过损失函数进行计算,本实施例提出一种优选方案,通过交叉熵进行损失值的计算,计算公式如下:
[0129][0130]
其中,n为样本数量(正样本+负样本)例如:每条训练数据为“query+1正样本+4负样本”的格式时,n=5,p(xi)为样本xi的label:正样本为1,负样本为0。q(xi)为样本xi被预测为正例的概率,h(p,q)为损失值,根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
[0131]
步骤s213:根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值。
[0132]
需要说明的是,在第二正样本数据与第二负样本数据的比值等于第一正样本数据与第一负样本数据的比值时,第一训练数据和第二训练数据为同一个数据,那么此时第一训练数据与第二训练数据的训练过程完全相同,此处的改进点在于,一般情况下,会采用“query+一个正样本+四个负样本”的方法,每个query只能看到3个负样本,限制了模型进一步学习句子表征。因此,我们通过对比学习的思想,将同一batch内的所有其他样本的title
均作为当前的query的负例。每条样本变为“query+一个正样本+一个负样本”形式。
[0133]
进一步的,在第二正样本数据与第二负样本数据的比值大于第一正样本数据与第一负样本数据的比值时,即可先让第一训练数据进行训练,例如:以正样本:负样本=1:4的比例进行训练得到一个过渡模型,再通过第二训练数据,以正样本:负样本=1:1的比例进行训练对模型优化,以提高模型的区分能力。
[0134]
步骤s214:根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
[0135]
可以理解的是,根据所述第二训练数据对待优化语义模型进行训练可以得到目标语义召回模型,训练过程与第一训练数据对应的训练过程一致。
[0136]
本实施例获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。通过上述方式,实现了预设目标语义召回模型的训练,基于困难样本提高了模型的区分能力,提高了模型的准确性。
[0137]
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有问题召回程序,所述问题召回程序被处理器执行时实现如上文所述的问题召回方法的步骤。
[0138]
参照图4,图4为本发明问题召回装置第一实施例的结构框图。
[0139]
如图4所示,本发明实施例提出的问题召回装置包括:
[0140]
确定模块10,用于确定目标查询问题对应的语义向量特征;
[0141]
处理模块20,用于根据所述语义向量特征得到对应的待召回语义向量集;
[0142]
所述处理模块20,还用于根据所述待召回语义向量集确定召回问题,以完成问题召回。
[0143]
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
[0144]
本实施例确定模块10确定目标查询问题对应的语义向量特征;处理模块20根据所述语义向量特征得到对应的待召回语义向量集;处理模块20根据所述待召回语义向量集确定召回问题,以完成问题召回。通过上述方式,实现了对查询问题准确召回。本发明通过计算查询问题的语义向量特征,匹配语义相同的问题进行召回,准确的捕捉用户的搜索意图,将语义相近但字面不匹配的结果也可以进行准确召回,提高了召回的准确性的同时,提升了召回率。
[0145]
在一实施例中,所述处理模块20,还用于根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
[0146]
在一实施例中,所述处理模块20,还用于获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;
[0147]
根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;
[0148]
根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据
的比值大于或等于第一正样本数据与第一负样本数据的比值;
[0149]
根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
[0150]
在一实施例中,所述处理模块20,还用于根据预设问答数据集确定普通样本;
[0151]
获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;
[0152]
根据所述采样网络地址信息确定多个关联查询信息;
[0153]
根据各所述关联查询信息得到困难样本;
[0154]
根据所述普通样本和困难样本生成第一训练数据。
[0155]
在一实施例中,所述处理模块20,还用于根据所述关联查询信息确定查询信息对;
[0156]
确定所述查询信息对的点击信息;
[0157]
根据所述点击信息对查询信息对进行筛选得到有效查询信息对;
[0158]
根据所述查询信息对生成困难样本。
[0159]
在一实施例中,所述处理模块20,还用于根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;
[0160]
确定各所述查询结果的点击率;
[0161]
根据所述点击率确定有效查询结果;
[0162]
根据所述目标查询文本和有效查询结果生成困难样本。
[0163]
在一实施例中,所述处理模块20,还用于获取当前查询文本应的查询结果数量;
[0164]
根据所述查询结果数量和查询结果的点击率确定有效查询结果。
[0165]
在一实施例中,所述处理模块20,还用于将所述第一训练数据带入初始语义召回模型,得到语义召回表征;
[0166]
根据所述语义向量表征计算损失值;
[0167]
根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
[0168]
在一实施例中,所述处理模块20,还用于根据所述目标查询问题进行关键词分析,得到关键词信息;
[0169]
根据所述关键词信息得到备选召回问题;
[0170]
根据所述语义向量集和所述备选召回问题确定召回问题,以完成问题召回。
[0171]
在一实施例中,所述处理模块20,还用于根据所述语义向量特征和待召回语义向量特征集匹配预设向量特征库,得到语义向量特征对应的第一待召回问题和待召回语义向量特征集对应的第二待召回问题;
[0172]
根据所述第一待召回问题和第二待召回问题确定召回问题,以完成问题召回。
[0173]
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
[0174]
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的问题召回方法,此处不再赘述。
[0175]
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在
包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0176]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0177]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read only memory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0178]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
[0179]
本技术还公开了a1,一种问题召回方法,所述问题召回方法包括:
[0180]
确定目标查询问题对应的语义向量特征;
[0181]
根据所述语义向量特征得到对应的待召回语义向量集;
[0182]
根据所述待召回语义向量集确定召回问题,以完成问题召回。
[0183]
a2、如a1所述的方法,所述根据所述语义向量特征得到对应的待召回语义向量集,包括:
[0184]
根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
[0185]
a3、如a2所述的方法,所述根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集之前,还包括:
[0186]
获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;
[0187]
根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;
[0188]
根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;
[0189]
根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
[0190]
a4、如a3所述的方法,所述获取第一训练数据之前,还包括:
[0191]
根据预设问答数据集确定普通样本;
[0192]
获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;
[0193]
根据所述采样网络地址信息确定多个关联查询信息;
[0194]
根据各所述关联查询信息得到困难样本;
[0195]
根据所述普通样本和困难样本生成第一训练数据。
[0196]
a5、如a4所述的方法,所述根据各所述关联查询信息得到困难样本,包括:
[0197]
根据所述关联查询信息确定查询信息对;
[0198]
确定所述查询信息对的点击信息;
[0199]
根据所述点击信息对查询信息对进行筛选得到有效查询信息对;
[0200]
根据所述查询信息对生成困难样本。
[0201]
a6、如a4所述的方法,所述根据各所述关联查询信息得到困难样本,包括:
[0202]
根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;
[0203]
确定各所述查询结果的点击率;
[0204]
根据所述点击率确定有效查询结果;
[0205]
根据所述目标查询文本和有效查询结果生成困难样本。
[0206]
a7、如a6所述的方法,所述根据所述点击率确定有效查询结果,包括:
[0207]
获取当前查询文本应的查询结果数量;
[0208]
根据所述查询结果数量和查询结果的点击率确定有效查询结果。
[0209]
a8、如a3所述的方法,所述根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型,包括:
[0210]
将所述第一训练数据带入初始语义召回模型,得到语义召回表征;
[0211]
根据所述语义向量表征计算损失值;
[0212]
根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
[0213]
a9、如a1所述的方法,所述根据所述待召回语义向量集确定召回问题,以完成问题召回,包括:
[0214]
根据所述目标查询问题进行关键词分析,得到关键词信息;
[0215]
根据所述关键词信息得到备选召回问题;
[0216]
根据所述语义向量集和所述备选召回问题确定召回问题,以完成问题召回。
[0217]
a10、如a1~a9中任一项所述的方法,所述根据所述待召回语义向量集确定召回问题,以完成问题召回,包括:
[0218]
根据所述语义向量特征和待召回语义向量特征集匹配预设向量特征库,得到语义向量特征对应的第一待召回问题和待召回语义向量特征集对应的第二待召回问题;
[0219]
根据所述第一待召回问题和第二待召回问题确定召回问题,以完成问题召回。
[0220]
本技术还公开了b11,一种问题召回装置,所述问题召回装置包括:
[0221]
确定模块,用于确定目标查询问题对应的语义向量特征;
[0222]
处理模块,用于根据所述语义向量特征得到对应的待召回语义向量集;
[0223]
所述处理模块,还用于根据所述待召回语义向量集确定召回问题,以完成问题召回。
[0224]
b12、如b11所述的装置,所述处理模块,还用于根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
[0225]
b13、如b12所述的装置,所述处理模块,还用于获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;
[0226]
根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;
[0227]
根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;
[0228]
根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
[0229]
b14、如b13所述的装置,所述处理模块,还用于根据预设问答数据集确定普通样
本;
[0230]
获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;
[0231]
根据所述采样网络地址信息确定多个关联查询信息;
[0232]
根据各所述关联查询信息得到困难样本;
[0233]
根据所述普通样本和困难样本生成第一训练数据。
[0234]
b15、如b14所述的装置,所述处理模块,还用于根据所述关联查询信息确定查询信息对;
[0235]
确定所述查询信息对的点击信息;
[0236]
根据所述点击信息对查询信息对进行筛选得到有效查询信息对;
[0237]
根据所述查询信息对生成困难样本。
[0238]
b16、如b14所述的装置,所述处理模块,还用于根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;
[0239]
确定各所述查询结果的点击率;
[0240]
根据所述点击率确定有效查询结果;
[0241]
根据所述目标查询文本和有效查询结果生成困难样本。
[0242]
b17、如b16所述的装置,所述处理模块,还用于获取当前查询文本应的查询结果数量;
[0243]
根据所述查询结果数量和查询结果的点击率确定有效查询结果。
[0244]
b18、如b13所述的装置,所述处理模块,还用于将所述第一训练数据带入初始语义召回模型,得到语义召回表征;
[0245]
根据所述语义向量表征计算损失值;
[0246]
根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
技术特征:
1.一种问题召回方法,其特征在于,所述问题召回方法包括:确定目标查询问题对应的语义向量特征;根据所述语义向量特征得到对应的待召回语义向量集;根据所述待召回语义向量集确定召回问题,以完成问题召回。2.如权利要求1所述的方法,其特征在于,所述根据所述语义向量特征得到对应的待召回语义向量集,包括:根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。3.如权利要求2所述的方法,其特征在于,所述根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集之前,还包括:获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。4.如权利要求3所述的方法,其特征在于,所述获取第一训练数据之前,还包括:根据预设问答数据集确定普通样本;获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;根据所述采样网络地址信息确定多个关联查询信息;根据各所述关联查询信息得到困难样本;根据所述普通样本和困难样本生成第一训练数据。5.如权利要求4所述的方法,其特征在于,所述根据各所述关联查询信息得到困难样本,包括:根据所述关联查询信息确定查询信息对;确定所述查询信息对的点击信息;根据所述点击信息对查询信息对进行筛选得到有效查询信息对;根据所述查询信息对生成困难样本。6.如权利要求4所述的方法,其特征在于,所述根据各所述关联查询信息得到困难样本,包括:根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;确定各所述查询结果的点击率;根据所述点击率确定有效查询结果;根据所述目标查询文本和有效查询结果生成困难样本。7.如权利要求6所述的方法,其特征在于,所述根据所述点击率确定有效查询结果,包括:获取当前查询文本应的查询结果数量;根据所述查询结果数量和查询结果的点击率确定有效查询结果。8.一种问题召回装置,其特征在于,所述问题召回装置包括:
确定模块,用于确定目标查询问题对应的语义向量特征;处理模块,用于根据所述语义向量特征得到对应的待召回语义向量集;所述处理模块,还用于根据所述待召回语义向量集确定召回问题,以完成问题召回。9.一种问题召回设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问题召回程序,所述问题召回程序配置为实现如权利要求1至7中任一项所述的问题召回方法的步骤。10.一种存储介质,其特征在于,所述存储介质上存储有问题召回程序,所述问题召回程序被处理器执行时实现如权利要求1至7任一项所述的问题召回方法的步骤。
技术总结
本发明属于搜索引擎技术领域,公开了一种问题召回方法、装置、设备及存储介质。该方法包括:确定目标查询问题对应的语义向量特征;根据所述语义向量特征得到对应的待召回语义向量集;根据所述待召回语义向量集确定召回问题,以完成问题召回。通过上述方式,实现了对查询问题准确召回。本发明通过计算查询问题的语义向量特征,匹配语义相同的问题进行召回,准确的捕捉用户的搜索意图,将语义相近但字面不匹配的结果也可以进行准确召回,提高了召回的准确性的同时,提升了召回率。提升了召回率。提升了召回率。
技术研发人员:纪兴光
受保护的技术使用者:北京奇虎科技有限公司
技术研发日:2022.01.18
技术公布日:2023/7/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/