场景模型训练方法、装置、介质及设备与流程
未命名
08-29
阅读:104
评论:0

1.本说明书涉及机器学习技术领域,尤其涉及一种场景模型训练方法、装置、存储介质及设备。
背景技术:
2.目前,机器学习技术应用的场景越来越广泛,例如,广告、预测、推荐系统、图像识别以及欺诈检测等场景。
3.在相关技术方案中,基于多个场景的全量数据构建一个整体模型,但该整体模型到了具体的特定场景时往往效果不及人意。
4.因此,如何充分利用多个场景的数据构建具有较好处理效果的模型,成为了亟待解决的技术难题。
技术实现要素:
5.本说明书提供一种场景模型训练方法、装置、存储介质及设备,能够充分利用多个场景的样本数据构建模型,并针对性地提升各个特定场景的模型处理效果。
6.第一方面,本说明书实施例提供一种场景模型训练方法,包括:
7.获取多个场景的样本数据,基于所述多个场景的样本数据构建场景通用模型;
8.获取特定场景的样本数据,基于所述特定场景的样本数据对所述场景通用模型的参数进行调整,得到场景特定重模型。
9.在一些示例实施例中,基于上述方案,所述基于所述多个场景的样本数据构建场景通用模型,包括:
10.获取预设模型,基于所述多个场景的样本数据,通过超参数优化方式确定所述预设模型的参数,生成所述场景通用模型;或者,
11.基于所述多个场景的样本数据,通过网络结构搜索的方式确定所述场景通用模型的模型结构。
12.在一些示例实施例中,基于上述方案,所述预设模型包括:画像编码模块、行为编码模块以及预测模块,所述画像编码模块用于提取用户画像信息的嵌入,所述行为编码模块用于提取用户行为序列的嵌入,所述预测模块用于基于所述用户画像信息的嵌入以及所述用户行为序列的嵌入进行预测。
13.在一些示例实施例中,基于上述方案,所述超参数优化的超参数包括:学习率、所述画像编码模块的多层感知机层的维度、所述行为编码模块的变换器的编码器数以及所述预测模块的多层感知机层的维度中的一种或多种。
14.在一些示例实施例中,基于上述方案,所述特定场景的样本数据包括支持样本集,所述基于特定场景的样本数据对所述场景通用模型的参数进行调整,得到场景特定重模型,包括:
15.复制所述场景通用模型,得到初始场景特定重模型;
16.从所述特定场景的样本数据中获取支持样本集,基于所述支持样本集以及所述初始场景特定重模型的模型参数,确定所述初始场景特定重模型的模型损失;
17.基于所述模型损失对所述初始场景特定重模型进行训练,得到所述场景特定重模型。
18.在一些示例实施例中,基于上述方案,所述特定场景的样本数据还包括查询样本集,所述方法还包括:
19.从所述特定场景的样本数据中获取查询样本集,基于所述查询样本集以及所述场景特定重模型的参数确定所述场景特定重模型的模型损失;
20.基于所述场景特定重模型的模型损失,对所述场景通用模型的模型参数进行更新。
21.在一些示例实施例中,基于上述方案,所述基于所述模型损失,对所述场景通用模型的模型参数进行更新,包括:
22.针对多个特定场景,确定与所述多个特定场景中各个所述特定场景对应的场景权重;
23.基于所述场景权重以及所述场景特定重模型的模型损失,对所述场景通用模型的模型参数进行更新。
24.在一些示例实施例中,基于上述方案,所述方法还包括:
25.基于所述场景特定重模型以及所述特定场景的样本数据,构建对应的场景特定轻模型。
26.在一些示例实施例中,基于上述方案,所述基于所述场景特定重模型以及所述特定场景的样本数据,构建对应的场景特定轻模型,包括
27.基于所述特定场景的样本数据,通过网络结构搜索的方式确定所述场景特定轻模型的模型结构;
28.基于所述特定场景的样本数据以及所述场景特定重模型,通过知识蒸馏的方式将所述场景特定重模型的知识迁移到所述场景特定轻模型。
29.在一些示例实施例中,基于上述方案,所述基于所述特定场景的样本数据,通过网络结构搜索的方式确定所述场景特定轻模型的模型结构,包括:
30.确定所述场景特定轻模型的搜索空间;
31.基于所述搜索空间,通过所述特定场景的样本数据确定所述场景特定轻模型的模型损失;
32.基于所述场景特定轻模型的模型损失,调整所述场景特定轻模型的模型结构。
33.在一些示例实施例中,基于上述方案,所述模型损失包括样本损失和计算资源损失,所述通过所述特定场景的样本数据确定所述场景特定轻模型的模型损失,包括:
34.将所述特定场景的样本数据划分为训练集和验证集;
35.基于所述训练集以及所述场景特定轻模型的第一模型参数,确定所述场景特定轻模型的第一样本损失;
36.基于所述第一样本损失,确定所述场景特定轻模型的第二模型参数;
37.基于所述验证集以及所述第二模型参数,确定所述场景特定轻模型的第二样本损失;
38.基于所述第二样本损失以及所述计算资源损失,确定场景特定轻模型的模型损失。
39.在一些示例实施例中,基于上述方案,所述基于所述第二样本损失以及所述计算资源损失,确定场景特定轻模型的模型损失,包括:
40.确定所述计算资源损失对应的折衷参数,所述折衷参数用于平衡所述第二样本损失与所述计算资源损失;
41.基于所述折衷参数对所述第二样本损失以及所述计算资源损失进行加权求和,确定场景特定轻模型的模型损失。
42.在一些示例实施例中,基于上述方案,所述场景特定重模型为教师模型,所述场景特定轻模型为学生模型,所述基于所述特定场景的样本数据以及所述场景特定重模型,通过知识蒸馏的方式将所述场景特定重模型的知识迁移到所述场景特定轻模型,包括:
43.将所述特定场景的样本数据输入所述教师模型,得到所述教师模型的输出结果,将所述输出结果作为所述特定场景的样本数据的软标签;
44.基于所述特定场景的样本数据的硬标签以及所述学生模型的硬预测结果,确定所述学生模型的硬预测损失;
45.基于所述特定场景的样本数据的软标签以及所述学生模型的软预测结果,确定所述学生模型的软预测损失;
46.基于所述硬预测损失以及所述软预测损失,对所述学生模型进行训练。
47.第二方面,本说明书实施例提供一种场景模型训练装置,包括:
48.场景通用模型构建模块,用于获取多个场景的样本数据,基于所述多个场景的样本数据构建场景通用模型;
49.场景特定重模型构建模块,用于获取特定场景的样本数据,基于所述特定场景的样本数据对所述场景通用模型的参数进行调整,得到场景特定重模型。
50.第三方面,本说明书实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法的步骤。
51.第四方面,本说明书实施例提供一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或处理器执行上述的方法的步骤。
52.第五方面,本说明书实施例提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。
53.根据本说明书实施例的技术方案,一方面,充分利用多个场景的样本数据构建场景通用模型,通过场景通用大模型吸收和提取各个场景的数据信息,为各个特定场景的模型提供了优质的初始化模型;另一方面,利用各个特定场景的样本数据以及场景通用模型构建场景特定重模型,能够通过场景特定重模型来针对性地提升各个特定场景的模型处理效果;再一方面,由于仅需要通过特定场景的少量样本数据就能够构建场景特定重模型,从而能够针对少量样本的场景构建具有较好处理效果的模型。
附图说明
54.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或
现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
55.图1为本说明书实施例提供的一种场景模型训练方法的实施环境的示意图;
56.图2为本说明书实施例提供的一种场景模型训练方法的流程示意图;
57.图3为本说明书实施例提供的一种预设模型的结构示意图;
58.图4为根据本说明书实施例提供的构建场景特定轻模型的流程示意图;
59.图5为根据本说明书实施例提供的另一种场景模型训练方法的流程示意图;
60.图6示出了根据本说明书实施例提供的另一种构建场景特定轻模型的流程示意图;
61.图7为本说明书实施例提供的一种搜索空间的结构示意图;
62.图8为本说明书实施例提供的一种场景模型训练系统的结构示意图;
63.图9为本说明书实施例提供的一种场景模型训练装置的结构示意图;
64.图10为本说明书实施例提供的一种电子设备的结构示意图。
具体实施方式
65.为使得本说明书的特征和优点能够更加的明显和易懂,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而非全部实施例。基于本说明书中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
66.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
67.automl(auto machine learning,自动机器学习):将机器学习模型开发过程中耗时的反复性任务进行自动化的过程。数据科学家、分析师和开发人员可以使用automl来生成高度可缩放、高效且高产能的ml模型,同时保证模型的质量。
68.元学习:自动机器学习的一个重要分支。其典型思想在于,基于以往的建模任务学习元知识,从而在应对新的学习任务时,能够给出更合适的参数,更快的启动,或更优的效果。
69.网络结构搜索:或者称为神经架构搜索,自动机器学习的一个重要分支。其主要目标在于以自动化学习的方式,针对目标任务,搜索并给出合适的模型网络结构,从而达到效果或效率的更优,在自然语言处理、计算机视觉等任务中广泛使用。
70.搜索空间:指的是待搜索网络结构的候选集合。搜索空间可以分为全局搜索空间和局部搜索空间,全局搜索空间代表搜索整个网络结构,局部搜索空间只搜索一些小的结构,通过堆叠、拼接的方法组合成完整的大网络。
71.知识蒸馏:指的是利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是小模型的参数数量大幅降低,从而实现模型压缩与加速。
72.长尾场景:指的是既包含初始存在的场景,也包含随后出现的场景的情况。例如,针对银行的风险控制平台,涉及多个已有的银行以及随后出现的用户的其他开户银行。
73.在一种技术方案中,基于多个场景的全量数据构建一个整体模型,但该整体模型
到了具体的特定场景时往往效果不及人意;在另一种技术方案中,基于各个特定场景的数据构建场景特定模型,然而,由于在很多场景中数据匮乏,场景特定模型的模型效果很难保证。例如,针对长尾场景,新出现的场景的样本数据较少,需要针对新出现的场景构建新的模型。
74.基于上述内容,本说明书实施例提供了一种场景模型训练方法、装置、介质及设备。一方面,充分利用多个场景的样本数据构建场景通用模型,通过场景通用大模型吸收和提取各个场景的数据信息,为各个特定场景的模型提供了优质的初始化模型;另一方面,利用各个特定场景的样本数据以及场景通用模型构建场景特定重模型,能够通过场景特定重模型来针对性地提升各个特定场景的模型处理效果;再一方面,由于仅需要通过特定场景的少量样本数据就能够构建场景特定重模型,从而能够针对少量样本的场景构建具有较好处理效果的模型。
75.下面,将结合附图对本说明书实施例的技术方案进行详细的说明。
76.图1为本说明书实施例提供的一种场景模型训练方法的实施环境的示意图。
77.参见图1,该实施环境中可以包括终端110和服务器140。
78.终端110通过无线网络或有线网络与服务器140相连。可选的,终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表等,但并不局限于此。终端110安装和运行有支持场景模型例如场景特定轻模型的应用程序。
79.服务器140是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(content delivery network,cdn),以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140为终端110上运行的应用程序提供后台服务。
80.本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本说明书实施例对终端的数量和设备类型不加以限定。
81.在介绍完本说明书实施例的实施环境之后,下面将结合上述实施环境对本说明书实施例的应用场景进行介绍,在下述说明过程中,终端也即是上述实施环境中的终端110,服务器也即是上述实施环境中的服务器140。本说明书实施例提供的技术方案能够应用在多个场景中,例如风控、广告推荐、预测、图像识别以及欺诈检测等场景。
82.以本说明书实施例提供的技术方案应用在银行风控场景中为例,多个场景为多个银行风控场景,获取多个银行风控场景的样本数据,基于多个银行风控场景的样本数据构建银行风控场景通用模型;获取特定银行风控场景的样本数据,基于特定银行风控场景的样本数据对场景通用模型的参数进行调整,得到特定银行风控场景对应的场景特定重模型。
83.需要说明的是,上述是以本说明书实施例提供的技术方案应用在发债企业场景模型训练的场景中为例进行说明的,在本说明书实施例提供的技术方案还可以应用在其他企业的场景模型训练的场景下,实现过程与上述描述属于同一发明构思,在此不再赘述。
84.需要说明的是,本说明书的示例实施例中的场景模型训练方法中的步骤可以部分由客户端执行,部分由服务器执行,也可以全部由服务器或者全部由客户端执行,本说明书
对此不进行特殊限定。
85.基于图1所示的实施环境,下面将结合图2-图8,对本说明书实施例提供的场景模型训练方法进行详细介绍。需要注意的是,上述实施环境仅是为了便于理解本说明书的精神和原理而示出,本说明书的实施例在此方面不受任何限制。相反,本说明书的实施例可以应用于适用的任何场景。
86.图2为本说明书实施例提供的一种场景模型训练方法的流程示意图。该场景模型训练方法可以通过具有计算能力的设备执行,例如终端或服务器。如图2所示,本说明书实施例的场景模型训练方法可以包括以下步骤s210至步骤s220。
87.参照图2所示,在步骤s210中,获取多个场景的样本数据,基于多个场景的样本数据构建场景通用模型。
88.在示例实施例中,多个场景可以为针对目标任务的多个不同场景任务,目标任务可以为分类任务、风控任务、广告推荐任务等。例如,若目标任务为分类任务,则多个场景可以为多个不同对象例如动物、植物等的分类场景;若目标任务为银行风控任务为例,则多个场景可以为多个不同银行的风控场景;若目标任务为广告推荐任务,则多个场景可以为多个不同广告商对应的广告推荐场景。
89.需要说明的是,虽然以上述场景为例进行了说明,但是本领域技术人员应该理解的是,多个场景还可以为其他适当的多个场景,例如预测任务或图像识别任务等场景,这同样在本说明书实施例的范围内。
90.进一步地,在一些示例实施例中,样本数据包括用户画像信息和用户行为信息,获取多个场景的样本数据,基于多个场景的样本数据构建场景通用模型。
91.在一些示例实施例中,获取预设模型,基于多个场景的样本数据,通过超参数优化方式确定预设模型的参数,生成场景通用模型,预设模型为基于专家经验的模型。举例而言,参照图3所示,预设模型包括:画像编码模块310、行为编码模块320、嵌入拼接模块330以及预测模块340,其中,画像编码模块310用于提取用户画像信息的嵌入,行为编码模块320用于提取用户行为序列的嵌入,嵌入拼接模块330用于用户画像信息的嵌入以及用户行为序列的嵌入进行拼接处理,预测模块340用于基于用户画像信息的嵌入以及用户行为序列的嵌入进行预测。超参数优化的超参数包括:学习率、画像编码模块310的多层感知机层的维度、行为编码模块320的变换器的编码器数以及预测模块340的多层感知机层的维度中的一种或多种。
92.需要说明的是,超参数优化方法可以为进化算法或贝叶斯优化等,也可以为其他适当的超参数优化方法例如基于分类的策略方法等,这同样在本说明书实施例的范围内。
93.在另一些示例实施例中,基于多个场景的样本数据,通过网络结构搜索的方式确定场景通用模型的模型结构。举例而言,确定场景通用模型的搜索空间,搜索空间指的是场景通用模型的待搜索网络结构的候选集合,通过网络结构搜索的方式从搜索空间中确定场景通用模型的模型结构,例如,从搜索空间中确定场景通用模型的网络的层数、每层的类型以及对应的超参数。
94.在步骤s220中,获取特定场景的样本数据,基于特定场景的样本数据对场景通用模型的参数进行调整,得到场景特定重模型。
95.在示例实施例中,获取场景通用模型,得到初始场景特定重模型;获取特定场景的
样本数据,基于特定场景的样本数据以及初始场景特定重模型的模型参数,确定初始场景特定重模型的模型损失;基于模型损失对初始场景特定重模型的参数进行调整,得到场景特定重模型。
96.举例而言,设场景通用模型为针对分类任务的多个场景的场景通用模型,例如,多个场景包括针对动物、植物、商品等进行分类的场景,设特定场景为针对植物进行分类的植物分类场景,复制上述训练后的场景通用模型,得到植物分类场景的初始场景特定重模型;获取植物分类场景的样本数据,基于植物分类场景的样本数据以及该初始场景特定重模型的模型参数,确定初始场景特定重模型的模型损失;基于模型损失通过梯度下降的方式对初始场景特定重模型的参数进行调整,得到针对植物分类场景的场景特定重模型。
97.根据图2的示例实施例中的技术方案,一方面,充分利用多个场景的样本数据构建场景通用模型,通过场景通用大模型吸收和提取各个场景的数据信息,为各个特定场景的模型提供了优质的初始化模型;另一方面,利用各个特定场景的样本数据以及场景通用模型构建场景特定重模型,能够通过场景特定重模型来针对性地提升各个特定场景的模型处理效果;再一方面,由于仅需要通过特定场景的少量样本数据就能够构建场景特定重模型,从而能够针对少量样本的场景构建具有较好处理效果的模型。
98.图4为本说明书实施例提供的确定场景特定重模型的流程示意图。
99.参照图4所示,在步骤s410中,复制场景通用模型。
100.在示例实施例中,复制场景通用模型,得到初始场景特定重模型。
101.在步骤s420中,基于支持样本集对场景特定重模型的参数进行调整。
102.在示例实施例中,将特定场景的样本数据划分为支持样本集support set和查询样本集query set,得到初始场景特定重模型之后,从特定场景的样本数据中获取支持样本集,基于支持样本集以及初始场景特定重模型的模型参数,对初始场景特定重模型的参数进行调整。
103.举例而言,基于支持样本集以及初始场景特定重模型的模型参数,确定初始场景特定重模型的模型损失;基于模型损失通过梯度下降的方式对初始场景特定重模型进行训练,得到场景特定重模型。设支持样本集为初始场景特定重模型的模型参数θ0,场景特定重模型的参数为θu,基于初始场景特定重模型的模型参数θ0和支持样本集计算初始场景特定重模型的模型损失,基于模型损失通过梯度下降的方式对初始场景特定重模型的模型进行更新,得到场景特定重模型,如下式(1)所示:
[0104][0105]
其中,表示根据初始场景特定重模型的模型参数θ0和支持样本集计算的模型损失,γ为学习率,参数θ0为场景通用模型的参数,参数θu为场景特定重模型的参数。
[0106]
根据上述示例实施例中的技术方案,基于特定场景的支持样本集对初始场景特定重模型的参数进行调整,能够结合特定场景的样本数据对场景通用模型进行优化,从而能够获得该特定场景下具有较好模型效果的场景特定模型。
[0107]
进一步地,参照图4所示,在步骤s430中,基于查询样本集确定场景特定重模型的模型损失。
[0108]
在示例实施例中,将特定场景的样本数据划分为支持样本集和查询样本集,从特定场景的样本数据中获取查询样本集,基于查询样本集以及场景特定重模型的参数确定场景特定重模型的模型损失。
[0109]
在步骤s440中,基于模型损失,对场景通用模型的模型参数进行更新。
[0110]
在示例实施例中,基于计算的场景特定重模型的模型损失,采样梯度下降的方式对场景通用模型的模型参数进行更新。
[0111]
例如,设为查询样本集,参数θ0为场景通用模型的参数,参数θu为场景特定重模型的参数,为场景特定重模型的模型损失,基于模型损失采用梯度下降的方式对场景通用模型的模型参数θ0进行更新,如下式(2)所示:
[0112][0113]
其中,为查询样本集,参数θ0为场景通用模型的参数,η为更新场景通用模型时的场景权重,场景权重用于衡量场景的重要程度。
[0114]
根据上述示例实施例中的技术方案,基于针对特定场景的样本数据的场景特定模型的模型损失,对场景通用模型的参数进行更新,能够针对特定场景来更新场景通用模型,提高针对特定场景的模型训练效率,使得场景通用模型在特定场景下的效果更好。
[0115]
进一步地,在模型的实际应用中,会遇到同时出现多个场景的情况,因此,在示例实施例中,针对多个特定场景,确定与多个特定场景中各个特定场景对应的场景权重;基于场景权重以及场景特定模型的模型损失,对场景通用模型的模型参数进行更新。设为查询样本集,参数θu为场景特定重模型的参数,参数θ0为场景通用模型的参数,为场景特定重模型的模型损失,参照下式(3)所示:
[0116][0117]
其中,u为同时出现的特定场景的数量,η为更新场景通用模型时的场景权重,场景权重用于衡量场景的重要程度。
[0118]
根据上述示例实施例中的技术方案,通过针对多个特定场景,结合各个特定场景的场景权重,对场景通用模型的参数进行更新,能够避免模型与某个特定场景的过拟合,使得更新后的场景通用模型在多个特定场景下均具有较好的模型效果。
[0119]
图5为本说明书实施例提供的另一种场景模型训练方法的流程示意图。
[0120]
参照图5所示,在步骤s510中,获取多个场景的样本数据,基于多个场景的样本数据构建场景通用模型。
[0121]
在示例实施例中,步骤s510的实施过程以及实施效果与步骤s210的实施过程以及实施效果类似,在此不再进行赘述。
[0122]
在步骤s520中,获取特定场景的样本数据,基于特定场景的样本数据对场景通用模型的参数进行调整,得到场景特定重模型。
[0123]
在示例实施例中,步骤s520的实施过程以及实施效果与步骤s220的实施过程以及实施效果类似,在此不再进行赘述。
[0124]
在步骤s530中,基于场景特定重模型以及特定场景的样本数据,构建对应的场景
特定轻模型。
[0125]
在示例实施例中,在真实线上使用时,时间和计算资源经常是受限的,而场景特定重模型会占用较多的资源,为了达到线上使用需求,需要构建轻量且有效的模型。因此,在示例实施例中,该场景模型训练方法还包括:基于场景特定重模型以及特定场景的样本数据,构建对应的场景特定轻模型。
[0126]
举例而言,在示例实施例中,场景特定重模型为6层神经网络模型,场景特定轻模型为3层神经网络模型,基于特定场景的样本数据,通过知识蒸馏的方式将场景特定重模型的知识迁移到场景特定轻模型。知识蒸馏指的是利用大模型学习到的知识去指导小模型训练,使得小模型具有与大模型相当的性能,但是小模型的参数数量大幅降低,从而实现模型压缩与加速。模型的知识可以包括超参数、初始化的模型参数、嵌入、模型架构、损失函数中的一种或多种。
[0127]
例如,将场景特定重模型作为教师模型,将场景特定轻模型作为学生模型,学生模型结构较为简单,用教师模型来辅助学生模型的训练,教师模型的学习能力强,将教师模型学到的知识迁移给学习能力相对弱的学生模型,以此来增强学生模型的泛化能力。复杂笨重的教师模型不上线,真正部署上线的是灵活轻巧的学生模型。
[0128]
根据图5的示例实施例中的技术方案,针对特定场景,通过知识蒸馏的方式将场景特定重模型的知识迁移到场景特定轻模型,能够得到针对该特定场景的轻量级的模型,从而能够更好地满足线上使用需求。
[0129]
图6为根据本说明书实施例提供的构建场景特定轻模型的流程示意图。
[0130]
参照图6所示,在步骤s610中,基于特定场景的样本数据,通过网络结构搜索的方式确定场景特定轻模型的模型结构。
[0131]
在示例实施例中,针对该特定场景,确定场景特定轻模型的搜索空间。举例而言,参照图7所示,设场景特定轻模型的搜索空间包括n层,针对每一层,存在以下三个可搜索的部分即该层的输入、针对该层的输入进行的操作以及该层的残差输入。
[0132]
(1)针对层l的输入。针对每一层,可以通过输入选择模块从之前各层的输出选择输入,例如,层3可以从原始输入、层1的输出以及层2的输出选择作为层3的输入。通过针对每一层从之前各层的输出选择输入的方式,搜索空间的各层能够以级联和并行的方式进行集成。例如,如果层2和层1均选择原始输入作为各自的输入,则层1和层2是并行的。如果层1选择原始输入作为层1的输入,层2选择层1的输入作为层2的输入,则层1和层2是级联的。
[0133]
(2)针对层l的输入进行的操作。针对每一层,通过操作选择模块从候选操作中选择操作以从序列输入中提取潜在特征,例如,通过操作候选集中的模型例如lstm(long short-term memory,长短期记忆)模型以及多头自注意模型从序列输入中提取潜在特征。
[0134]
(3)针对层l的残差输入。由于在深度神经网络中残差被证明是有用的,通过残差输入选择模块确定每一层是否有多个残差输入,例如,层2可以有原始输入和层1的输出的两个残差输入。
[0135]
进一步地,在确定了搜索空间之后,基于该搜索空间,通过特定场景的样本数据确定场景特定轻模型的模型损失;基于场景特定轻模型的模型损失,调整场景特定轻模型的模型结构。
[0136]
在步骤s620中,基于特定场景的样本数据以及场景特定重模型,通过知识蒸馏的
方式将场景特定重模型的知识迁移到场景特定轻模型。
[0137]
在示例实施例中,场景特定重模型为教师模型,场景特定轻模型为学生模型,场景特定重模型的知识可以包括超参数、初始化的模型参数、嵌入、模型架构、损失函数中的一种或多种。
[0138]
进一步地,将特定场景的样本数据输入教师模型,得到教师模型的输出结果,将输出结果作为特定场景的样本数据的软标签;基于特定场景的样本数据的硬标签以及学生模型的硬预测结果,确定学生模型的硬预测损失;基于特定场景的样本数据的软标签以及学生模型的软预测结果,确定学生模型的软预测损失;基于硬预测损失以及软预测损失,对学生模型进行训练。如下式(4)所示:
[0139]
l(α,ω
α
,d)=l
ce
(y
′
hard
,y
hard
)+δl
ce
(y
′
soft
,y
soft
)(4)
[0140]
其中,硬标签y
hard
为样本数据的硬标签,软标签y
soft
为场景特定重模型即教师模型的输出,y
′
hard
为学生模型的硬预测以及y
′
soft
为学生模型的软预测,δ为平衡l
ce
(y
′
hard
,y
hard
)与l
ce
(y
′
soft
,y
soft
)的参数,l
ce
(y
′
hard
,y
hard
)为学习模型的硬预测损失,l
ce
(y
′
soft
,y
soft
)为学生模型的软预测损失,l(α,ω
α
,d)为结合了教师模型和学生模型。
[0141]
根据图6的示例实施例中的技术方案,一方面,通过网络结构搜索的方式确定场景特定轻模型的模型结构,能够针对特定场景的样本数据灵活高效地选择适合该特定场景的模型结构;另一方面,结合教师模型输出的样本数据的软标签以及样本数据的硬标签对学生模型进行训练,能够将教师模型学到的知识迁移给学习能力相对弱的学生模型,使得学生小模型具有与教师大模型相当的性能,但是学生小模型的参数数量大幅降低,从而实现模型压缩与加速。
[0142]
进一步地,模型损失包括样本损失和计算资源损失,计算资源损失可以为模型的浮点操作数,在示例实施例中,将特定场景的样本数据划分为训练集和验证集;基于训练集以及场景特定轻模型的第一模型参数,确定场景特定轻模型的第一样本损失;基于第一样本损失,确定场景特定轻模型的第二模型参数;基于验证集以及第二模型参数,确定场景特定轻模型的第二样本损失;基于第二样本损失以及计算资源损失,确定场景特定轻模型的模型损失。
[0143]
举例而言,确定计算资源损失对应的折衷参数,折衷参数用于平衡第二样本损失与计算资源损失;基于折衷参数对第二样本损失以及计算资源损失进行加权求和,确定场景特定轻模型的模型损失,如下式(5)所示:
[0144][0145][0146]
其中,d
train
训练集以及d
val
为验证集,l(α,ω
α
,d
train
)表示针对训练集的模型损失即第一样本损失,表示针对验证集的模型损失即第二模型损失,l
flops
(α)是模型的浮点操作的归一化数,λ为计算资源损失对应的折衷参数,折衷参数用于平衡第二样本损失与计算资源损失。
[0147]
根据上述示例实施例中的技术方案,通过采用资源受限的方式确定模型损失,基于模型损失对场景特定轻模型进行训练,能够获得满足业务需求的轻量级和效果优的小模型。
[0148]
图8为本说明书实施例提供的一种场景模型系统的结构示意图。
[0149]
参照图8所示,该场景模型系统包括特征工厂810、场景通用模块820、场景特定模块830以及模型服务模块840。其中,特征工厂810包括静态特征和动态特征,静态特征以天为周期进行更新,动态特征以小时为周期进行更新。场景通用模块820包括数据准备模块822以及模型搜索模块824。场景特定模块830包括数据准备模块832以及模型构建模块834。模型服务模块840包括数据准备模块842以及模型服务器844。
[0150]
其中,特征工厂810用于存储和维护在模型中使用的特征。特征工厂810与数据准备模块822、833一起进行样本数据准备和处理。
[0151]
场景通用模块820用于基于多个场景的数据来初始化和维护场景特定重模型826。数据准备模块822包括特征连接单元、特征处理单元、样本重排单元以及样本划分单元,特征连接单元用于连接特征工厂的静态特征例如用户画像特征以及动态特征例如用户行为序列特征;特征处理单元用于多种特征处理例如归一化、离散化等;样本重排单元用于在需要时对样本进行重新排序,样本划分单元用于将样本划分为不同的样本集。
[0152]
模型搜索模块824包括预设模型调整模块8242以及网络结构搜索模块8244。其中,预设模型调整模块8242用于基于多个场景的样本数据例如训练集和验证集,采用超参数优化的方式对预设模型的参数进行调整,生成场景通用模型826。网络结构搜索模块8244用于基于多个场景的样本数据,采用网络结构搜索的方式确定场景通用模型826的网络结构。
[0153]
需要说明的是,超参数优化方法可以为进化算法或贝叶斯优化等,也可以为其他适当的超参数优化方法例如基于分类的策略方法等,这同样在本说明书实施例的范围内。
[0154]
模型构建模块834包括场景特定重模型调整模块8342、损失计算模块8344以及资源受限结构搜索模块8346。其中,场景特定重模型调整模块8342用于复制场景通用模型,得到初始场景特定重模型,基于支持集对初始场景特定重模型的参数进行调整。损失计算模块8344用于基于查询集计算场景特定重模型的模型损失,基于该模型损失更新场景通用模型826。资源受限结构搜索模块8346用于通过网络结构搜索的方式确定场景特定轻模型836的网络结构,基于知识蒸馏的方式将场景特定重模型的知识迁移到场景特定轻模型836。模型的知识可以包括超参数、初始化的模型参数、嵌入、模型架构、损失函数中的一种或多种。
[0155]
进一步,模型服务器844用于部署场景特定轻模块834,在新样本到来时,通过数据准备模块842通过特征连接单元对样本数据中的静态特征和动态特征进行连接处理,通过特征处理单元对连接处理后的样本特征进行归一化等预处理,将处理后的样本特征输入到模型服务器844,模型服务器844用于通过部署的场景特定轻模型834对新样本进行预测,得到返回的预测结果。
[0156]
根据图8的示例实施例中的技术方案,一方面,充分利用自动机器学习的相关思想和技术,充分利用全量场景的数据生成场景通用大模型,通过场景通用大模型吸收和提取各个场景的数据信息,为各个特定场景的模型提供了优质的初始化模型;另一方面,通过特定场景的样本数据对场景通用模型的参数进行调整,生成场景特定重模型,从而能够通过场景特定重模型来对各个特定场景的模型进行足够的优化;再一方面,通过网络结构搜索以及知识蒸馏得到场景特定轻模型,从而得到满足业务需求的轻量级和效果优的小模型。
[0157]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来
执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0158]
下面,将结合图9以及图8所示系统架构,对本说明书实施例提供的场景模型训练装置进行详细介绍。需要说明的是,图9中的场景模型训练装置,用于执行本说明书图2-图6所示实施例的方法,为了便于说明,仅示出了与本说明书实施例相关的部分,具体技术细节未揭示的,请参照本说明书图2-图6所示的实施例。
[0159]
请参见图9,图9为本说明书实施例提供的一种场景模型训练装置的结构示意图。如图9所示,本说明书实施例的场景模型训练装置900可以包括:场景通用模型构建模块910以及场景特定重模型构建模块920。其中,
[0160]
场景通用模型构建模块910,用于获取多个场景的样本数据,基于所述多个场景的样本数据构建场景通用模型;
[0161]
场景特定重模型构建模块920,用于获取特定场景的样本数据,基于所述特定场景的样本数据对所述场景通用模型的参数进行调整,得到场景特定重模型。
[0162]
在一些示例实施例中,基于上述方案,所述场景通用模型构建模块910还用于:
[0163]
获取预设模型,基于所述多个场景的样本数据,通过超参数优化方式确定所述预设模型的参数,生成所述场景通用模型;或者,
[0164]
基于所述多个场景的样本数据,通过网络结构搜索的方式确定所述场景通用模型的模型结构,生成所述场景通用模型。
[0165]
在一些示例实施例中,基于上述方案,所述预设模型包括:画像编码模块、行为编码模块以及预测模块,所述画像编码模块用于提取用户画像信息的嵌入,所述行为编码模块用于提取用户行为序列的嵌入,所述预测模块用于基于所述用户画像信息的嵌入以及所述用户行为序列的嵌入进行预测。
[0166]
在一些示例实施例中,基于上述方案,所述超参数优化的超参数包括:学习率、所述画像编码模块的多层感知机层的维度、所述行为编码模块的变换器的编码器数以及所述预测模块的多层感知机层的维度。
[0167]
在一些示例实施例中,基于上述方案,所述特定场景的样本数据包括支持样本集,所述场景特定重模型构建模块920,包括:
[0168]
模型复制单元,用于复制所述场景通用模型,得到初始场景特定重模型;
[0169]
损失确定单元,用于从所述特定场景的样本数据中获取支持样本集,基于所述支持样本集以及所述初始场景特定重模型的模型参数,确定所述初始场景特定重模型的模型损失;
[0170]
训练单元,用于基于所述模型损失对所述初始场景特定重模型进行训练,得到所述场景特定重模型。
[0171]
在一些示例实施例中,基于上述方案,所述特定场景的样本数据还包括查询样本集,所述场景模型训练装置包括:
[0172]
查询样本损失单元,用于从所述特定场景的样本数据中获取查询样本集,基于所述查询样本集以及所述场景特定重模型的参数确定所述场景特定重模型的模型损失;
[0173]
模型更新单元,用于基于所述模型损失,对所述场景通用模型的模型参数进行更
新。
[0174]
在一些示例实施例中,基于上述方案,所述模型更新单元还用于:
[0175]
针对多个特定场景,确定与所述多个特定场景中各个所述特定场景对应的场景权重;
[0176]
基于所述场景权重以及所述模型损失,对所述场景通用模型的模型参数进行更新。
[0177]
在一些示例实施例中,基于上述方案,所述场景模型训练装置900还包括:
[0178]
场景特定轻模型构建模块,用于基于所述场景特定重模型以及所述特定场景的样本数据,构建对应的场景特定轻模型。
[0179]
在一些示例实施例中,基于上述方案,所述场景特定轻模型构建模块,包括:
[0180]
结构搜索单元,用于基于所述特定场景的样本数据,通过网络结构搜索的方式确定所述场景特定轻模型的模型结构;
[0181]
知识蒸馏单元,用于基于所述特定场景的样本数据以及所述场景特定重模型,通过知识蒸馏的方式将所述场景特定重模型的知识迁移到所述场景特定轻模型。
[0182]
在一些示例实施例中,基于上述方案,所述结构搜索单元包括:
[0183]
搜索空间确定单元,确定所述场景特定轻模型的搜索空间;
[0184]
轻模型损失确定单元,用于基于所述搜索空间,通过所述特定场景的样本数据确定所述场景特定轻模型的模型损失;
[0185]
结构调整单元,用于基于所述模型损失,调整所述场景特定轻模型的模型结构。
[0186]
在一些示例实施例中,基于上述方案,所述模型损失包括样本损失和计算资源损失,所述轻模型损失确定单元包括:
[0187]
样本划分单元,用于将所述特定场景的样本数据划分为训练集和验证集;
[0188]
第一样本损失确定单元,用于基于所述训练集以及所述场景特定轻模型的第一模型参数,确定所述场景特定轻模型的第一样本损失;
[0189]
第二模型参数确定单元,用于基于所述第一样本损失,确定所述场景特定轻模型的第二模型参数;
[0190]
第二样本损失确定单元,用于基于所述验证集以及所述第二模型参数,确定所述场景特定轻模型的第二样本损失;
[0191]
损失求和单元,用于基于所述第二样本损失以及所述计算资源损失,确定场景特定轻模型的模型损失。
[0192]
在一些示例实施例中,基于上述方案,所述损失求和单元还用于:
[0193]
确定所述计算资源损失对应的折衷参数,所述折衷参数用于平衡所述第二样本损失与所述计算资源损失;
[0194]
基于所述折衷参数对所述第二样本损失以及所述计算资源损失进行加权求和,确定场景特定轻模型的模型损失。
[0195]
在一些示例实施例中,基于上述方案,所述场景特定重模型为教师模型,所述场景特定轻模型为学生模型,所述知识蒸馏单元还用于:
[0196]
将所述特定场景的样本数据输入所述教师模型,得到所述教师模型的输出结果,将所述输出结果作为所述特定场景的样本数据的软标签;
[0197]
基于所述特定场景的样本数据的硬标签以及所述学生模型的硬预测结果,确定所述学生模型的硬预测损失;
[0198]
基于所述特定场景的样本数据的软标签以及所述学生模型的软预测结果,确定所述学生模型的软预测损失;
[0199]
基于所述硬预测损失以及所述软预测损失,对所述学生模型进行训练。
[0200]
根据本说明书图9的实施例的技术方案,一方面,充分利用多个场景的样本数据构建场景通用模型,通过场景通用大模型吸收和提取各个场景的数据信息,为各个特定场景的模型提供了优质的初始化模型;另一方面,利用各个特定场景的样本数据以及场景通用模型构建场景特定重模型,能够通过场景特定重模型来针对性地提升各个特定场景的模型处理效果;再一方面,由于仅需要通过特定场景的少量样本数据就能够构建场景特定重模型,从而能够针对少量样本的场景构建具有较好处理效果的模型。
[0201]
上述为本说明书实施例的一种场景模型训练装置的示意性方案。需要说明的是,该场景模型训练装置的技术方案与上述的场景模型训练方法的技术方案属于同一构思,场景模型训练装置的技术方案未详细描述的细节内容,均可以参见上述场景模型训练方法的技术方案的描述。
[0202]
本说明书实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条程序指令,所述程序指令适于由处理器加载并执行如上述图2~图6所示实施例的方法步骤,具体执行过程可以参见图2~图6所示实施例的具体说明,在此不进行赘述。
[0203]
本说明书实施例还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行如上述图2~图6所示实施例的所述场景模型训练方法,具体执行过程可以参见图2~图6所示实施例的具体说明,在此不进行赘述。
[0204]
请参考图9,其示出了本说明书一个示例性实施例提供的电子设备的结构示意图。本说明书中的电子设备可以包括一个或多个如下部件:处理器910、存储器920、输入装置930、输出装置940和总线950。处理器910、存储器920、输入装置930和输出装置940之间可以通过总线950连接。
[0205]
处理器910可以包括一个或者多个处理核心。处理器910利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器920内的指令、程序、代码集或指令集,以及调用存储在存储器920内的数据,执行电子设备900的各种功能和处理数据。可选地,处理器910可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器910可集成中心处理器(central processing unit,cpu)、场景模型训练器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器910中,单独通过一块通信芯片进行实现。
[0206]
存储器920可以包括随机存储器(random access memory,ram),也可以包括只读存储器(read-only memory,rom)。可选地,该存储器920包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区,其中,存储程序区
可存储用于实现操作系统的指令、用于实现至少一个功能的指令(例如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(android)系统,包括基于android系统深度开发的系统、ios系统,包括基于ios系统深度开发的系统或其它系统。
[0207]
为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。
[0208]
其中,输入装置930用于接收输入的指令或数据,输入装置930包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置940用于输出指令或数据,输出装置940包括但不限于显示设备和扬声器等。在一个示例中,输入装置930和输出装置940可以合设,输入装置930和输出装置940为触摸显示屏。
[0209]
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity,wifi)模块、电源、蓝牙模块等部件,在此不再赘述。
[0210]
在图9所示的电子设备中,处理器910可以用于调用存储器920中存储的场景模型训练应用程序,并具体执行以下操作:
[0211]
获取多个场景的样本数据,基于所述多个场景的样本数据构建场景通用模型;
[0212]
获取特定场景的样本数据,基于所述特定场景的样本数据对所述场景通用模型的参数进行调整,得到场景特定重模型。
[0213]
在一些示例实施例中,处理器910在执行所述基于所述多个场景的样本数据构建场景通用模型时,具体执行以下操作:
[0214]
获取预设模型,基于所述多个场景的样本数据,通过超参数优化方式确定所述预设模型的参数,生成所述场景通用模型;或者,
[0215]
基于所述多个场景的样本数据,通过网络结构搜索的方式确定所述场景通用模型的模型结构,生成所述场景通用模型。
[0216]
在一些示例实施例中,所述预设模型包括:画像编码模块、行为编码模块以及预测模块,所述画像编码模块用于提取用户画像信息的嵌入,所述行为编码模块用于提取用户行为序列的嵌入,所述预测模块用于基于所述用户画像信息的嵌入以及所述用户行为序列的嵌入进行预测。
[0217]
在一些示例实施例中,所述超参数优化的超参数包括:学习率、所述画像编码模块的多层感知机层的维度、所述行为编码模块的变换器的编码器数以及所述预测模块的多层感知机层的维度。
[0218]
在一些示例实施例中,处理器910在执行所述特定场景的样本数据包括支持样本集,所述基于特定场景的样本数据对所述场景通用模型的参数进行调整,得到场景特定重模型时,具体执行以下操作:
[0219]
复制所述场景通用模型,得到初始场景特定重模型;
[0220]
从所述特定场景的样本数据中获取支持样本集,基于所述支持样本集以及所述初始场景特定重模型的模型参数,确定所述初始场景特定重模型的模型损失;
[0221]
基于所述模型损失对所述初始场景特定重模型进行训练,得到所述场景特定重模型。
[0222]
在一些示例实施例中,所述特定场景的样本数据还包括查询样本集,处理器910还执行以下操作:
[0223]
从所述特定场景的样本数据中获取查询样本集,基于所述查询样本集以及所述场景特定重模型的参数确定所述场景特定重模型的模型损失;
[0224]
基于所述模型损失,对所述场景通用模型的模型参数进行更新。
[0225]
在一些示例实施例中,处理器910在执行所述基于所述模型损失,对所述场景通用模型的模型参数进行更新时,具体执行以下操作:
[0226]
针对多个特定场景,确定与所述多个特定场景中各个所述特定场景对应的场景权重;
[0227]
基于所述场景权重以及所述模型损失,对所述场景通用模型的模型参数进行更新。
[0228]
在一些示例实施例中,处理器910还执行以下操作:
[0229]
基于所述场景特定重模型以及所述特定场景的样本数据,构建对应的场景特定轻模型。
[0230]
在一些示例实施例中,处理器910在执行所述基于所述场景特定重模型以及所述特定场景的样本数据,构建对应的场景特定轻模型时,具体执行以下操作:
[0231]
基于所述特定场景的样本数据,通过网络结构搜索的方式确定所述场景特定轻模型的模型结构;
[0232]
基于所述特定场景的样本数据以及所述场景特定重模型,通过知识蒸馏的方式将所述场景特定重模型的知识迁移到所述场景特定轻模型。
[0233]
在一些示例实施例中,处理器910在执行,所述基于所述特定场景的样本数据,通过网络结构搜索的方式确定所述场景特定轻模型的模型结构时,具体执行以下操作:
[0234]
确定所述场景特定轻模型的搜索空间;
[0235]
基于所述搜索空间,通过所述特定场景的样本数据确定所述场景特定轻模型的模型损失;
[0236]
基于所述模型损失,调整所述场景特定轻模型的模型结构。
[0237]
在一些示例实施例中,所述模型损失包括样本损失和计算资源损失,处理器910在执行所述通过所述特定场景的样本数据确定所述场景特定轻模型的模型损失时,具体执行以下操作:
[0238]
将所述特定场景的样本数据划分为训练集和验证集;
[0239]
基于所述训练集以及所述场景特定轻模型的第一模型参数,确定所述场景特定轻模型的第一样本损失;
[0240]
基于所述第一样本损失,确定所述场景特定轻模型的第二模型参数;
[0241]
基于所述验证集以及所述第二模型参数,确定所述场景特定轻模型的第二样本损失;
[0242]
基于所述第二样本损失以及所述计算资源损失,确定场景特定轻模型的模型损失。
[0243]
在一些示例实施例中,处理器910在执行所述基于所述第二样本损失以及所述计算资源损失,确定场景特定轻模型的模型损失时,具体执行以下操作:
[0244]
确定所述计算资源损失对应的折衷参数,所述折衷参数用于平衡所述第二样本损失与所述计算资源损失;
[0245]
基于所述折衷参数对所述第二样本损失以及所述计算资源损失进行加权求和,确定场景特定轻模型的模型损失。
[0246]
在一些示例实施例中,所述场景特定重模型为教师模型,所述场景特定轻模型为学生模型,处理器910在执行所述基于所述特定场景的样本数据以及所述场景特定重模型,通过知识蒸馏的方式将所述场景特定重模型的知识迁移到所述场景特定轻模型时,具体执行以下操作:
[0247]
将所述特定场景的样本数据输入所述教师模型,得到所述教师模型的输出结果,将所述输出结果作为所述特定场景的样本数据的软标签;
[0248]
基于所述特定场景的样本数据的硬标签以及所述学生模型的硬预测结果,确定所述学生模型的硬预测损失;
[0249]
基于所述特定场景的样本数据的软标签以及所述学生模型的软预测结果,确定所述学生模型的软预测损失;
[0250]
基于所述硬预测损失以及所述软预测损失,对所述学生模型进行训练。
[0251]
根据本说明书图9的实施例的技术方案,一方面,充分利用多个场景的样本数据构建场景通用模型,通过场景通用大模型吸收和提取各个场景的数据信息,为各个特定场景的模型提供了优质的初始化模型;另一方面,利用各个特定场景的样本数据以及场景通用模型构建场景特定重模型,能够通过场景特定重模型来针对性地提升各个特定场景的模型处理效果;再一方面,由于仅需要通过特定场景的少量样本数据就能够构建场景特定重模型,从而能够针对少量样本的场景构建具有较好处理效果的模型。
[0252]
上述为本说明书实施例的一种电子设备的示意性方案。需要说明的是,该电子设备的技术方案与上述的场景模型训练方法的技术方案属于同一构思,电子设备的技术方案未详细描述的细节内容,均可以参见上述场景模型训练方法的技术方案的描述。
[0253]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,计算机程序的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
[0254]
以上所揭露的仅为本说明书较佳实施例而已,当然不能以此来限定本说明书之权利范围,因此依本说明书权利要求所作的等同变化,仍属本说明书所涵盖的范围。
[0255]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
技术特征:
1.一种场景模型训练方法,包括:获取多个场景的样本数据,基于所述多个场景的样本数据构建场景通用模型;获取特定场景的样本数据,基于所述特定场景的样本数据对所述场景通用模型的参数进行调整,得到场景特定重模型。2.根据权利要求1所述的方法,其中,所述基于所述多个场景的样本数据构建场景通用模型,包括:获取预设模型,基于所述多个场景的样本数据,通过超参数优化方式确定所述预设模型的参数,生成所述场景通用模型;或者,基于所述多个场景的样本数据,通过网络结构搜索的方式确定所述场景通用模型的模型结构。3.根据权利要求2所述的方法,其中,所述预设模型包括:画像编码模块、行为编码模块以及预测模块,所述画像编码模块用于提取用户画像信息的嵌入,所述行为编码模块用于提取用户行为序列的嵌入,所述预测模块用于基于所述用户画像信息的嵌入以及所述用户行为序列的嵌入进行预测。4.根据权利要求3所述的方法,其中,所述超参数优化的超参数包括:学习率、所述画像编码模块的多层感知机层的维度、所述行为编码模块的变换器的编码器数以及所述预测模块的多层感知机层的维度中的一种或多种。5.根据权利要求1所述的方法,其中,所述特定场景的样本数据包括支持样本集,所述基于特定场景的样本数据对所述场景通用模型的参数进行调整,得到场景特定重模型,包括:复制所述场景通用模型,得到初始场景特定重模型;从所述特定场景的样本数据中获取所述支持样本集,基于所述支持样本集以及所述初始场景特定重模型的模型参数,确定所述初始场景特定重模型的模型损失;基于所述模型损失对所述初始场景特定重模型进行训练,得到所述场景特定重模型。6.根据权利要求5所述的方法,其中,所述特定场景的样本数据还包括查询样本集,所述方法还包括:从所述特定场景的样本数据中获取所述查询样本集,基于所述查询样本集以及所述场景特定重模型的参数确定所述场景特定重模型的模型损失;基于所述场景特定重模型的模型损失,对所述场景通用模型的模型参数进行更新。7.根据权利要求6所述的方法,其中,所述基于所述模型损失,对所述场景通用模型的模型参数进行更新,包括:针对多个特定场景,确定与所述多个特定场景中各个所述特定场景对应的场景权重;基于所述场景权重以及所述场景特定重模型的模型损失,对所述场景通用模型的模型参数进行更新。8.根据权利要求1至7中任一项所述的方法,其中,所述方法还包括:基于所述场景特定重模型以及所述特定场景的样本数据,构建对应的场景特定轻模型。9.根据权利要求8所述的方法,其中,所述基于所述场景特定重模型以及所述特定场景的样本数据,构建对应的场景特定轻模型,包括
基于所述特定场景的样本数据,通过网络结构搜索的方式确定所述场景特定轻模型的模型结构;基于所述特定场景的样本数据以及所述场景特定重模型,通过知识蒸馏的方式将所述场景特定重模型的知识迁移到所述场景特定轻模型。10.根据权利要求9所述的方法,其中,所述基于所述特定场景的样本数据,通过网络结构搜索的方式确定所述场景特定轻模型的模型结构,包括:确定所述场景特定轻模型的搜索空间;基于所述搜索空间,通过所述特定场景的样本数据确定所述场景特定轻模型的模型损失;基于所述场景特定轻模型的模型损失,调整所述场景特定轻模型的模型结构。11.根据权利要求10所述的方法,其中,所述模型损失包括样本损失和计算资源损失,所述通过所述特定场景的样本数据确定所述场景特定轻模型的模型损失,包括:将所述特定场景的样本数据划分为训练集和验证集;基于所述训练集以及所述场景特定轻模型的第一模型参数,确定所述场景特定轻模型的第一样本损失;基于所述第一样本损失,确定所述场景特定轻模型的第二模型参数;基于所述验证集以及所述第二模型参数,确定所述场景特定轻模型的第二样本损失;基于所述第二样本损失以及所述计算资源损失,确定场景特定轻模型的模型损失。12.根据权利要求11所述的方法,其中,所述基于所述第二样本损失以及所述计算资源损失,确定场景特定轻模型的模型损失,包括:确定所述计算资源损失对应的折衷参数,所述折衷参数用于平衡所述第二样本损失与所述计算资源损失;基于所述折衷参数对所述第二样本损失以及所述计算资源损失进行加权求和,确定场景特定轻模型的模型损失。13.根据权利要求9所述的方法,其中,所述场景特定重模型为教师模型,所述场景特定轻模型为学生模型,所述基于所述特定场景的样本数据以及所述场景特定重模型,通过知识蒸馏的方式将所述场景特定重模型的知识迁移到所述场景特定轻模型,包括:将所述特定场景的样本数据输入所述教师模型,得到所述教师模型的输出结果,将所述输出结果作为所述特定场景的样本数据的软标签;基于所述特定场景的样本数据的硬标签以及所述学生模型的硬预测结果,确定所述学生模型的硬预测损失;基于所述特定场景的样本数据的软标签以及所述学生模型的软预测结果,确定所述学生模型的软预测损失;基于所述硬预测损失以及所述软预测损失,对所述学生模型进行训练。14.一种场景模型训练装置,包括:场景通用模型构建模块,用于获取多个场景的样本数据,基于所述多个场景的样本数据构建场景通用模型;场景特定重模型构建模块,用于获取特定场景的样本数据,基于所述特定场景的样本数据对所述场景通用模型的参数进行调整,得到场景特定重模型。
15.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~13中任一项所述方法的步骤。16.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~13中任一项所述方法的步骤。17.一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或处理器执行如权利要求1-13任一项所述的方法的步骤。
技术总结
本说明书实施例公开了一种场景模型训练方法、装置、存储介质及设备。该方法包括:获取多个场景的样本数据,基于多个场景的样本数据构建场景通用模型;获取特定场景的样本数据,基于特定场景的样本数据对场景通用模型的参数进行调整,得到场景特定重模型。得到场景特定重模型。得到场景特定重模型。
技术研发人员:张雅淋 李龙飞 周俊
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.03.31
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/