基于隐私保护机器遗忘算法的推荐模型生成方法及装置与流程

未命名 08-03 阅读:80 评论:0


1.本技术涉及计算机技术领域,特别涉及基于隐私保护机器遗忘算法的推荐模型生成方法。本技术同时涉及项目推荐方法,基于隐私保护机器遗忘算法的推荐模型生成装置,一种计算设备,以及一种计算机可读存储介质。


背景技术:

2.推荐模型被广泛应用于不同的场景,如在线购物、音乐推荐、电影推荐等。为了能够准确高效地为用户进行推荐,推荐模型需要使用用户真实的数据作为训练集,以提高模型的可用性,但这种方式用户真实数据会一直保存在服务器端,增加了用户隐私数据泄露的风险。
3.为了能够删除用户真实数据,或者是过滤掉具有噪音且应用于模型训练效果差的数据,模型需要执行遗忘的操作,但目前推荐模型的结构不支持部分数据的机器遗忘,只能通过完全重新训练模型来实现,这将带来较大的计算量,同时也会导致推荐模型性能低。


技术实现要素:

4.有鉴于此,本技术实施例提供了基于隐私保护机器遗忘算法的推荐模型生成方法。本技术同时涉及项目推荐方法,基于隐私保护机器遗忘算法的推荐模型生成装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的重新训练模型计算量大、模型性能低的问题。
5.根据本技术实施例的第一方面,提供了一种基于隐私保护机器遗忘算法的推荐模型生成方法,包括:获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;基于聚合后的模型参数生成目标推荐模型。
6.根据本技术实施例的第二方面,提供了一种项目推荐方法,包括:获取目标用户的用户信息;将所述用户信息输入目标推荐模型,得到针对所述目标用户的项目推荐信息,其中,所述目标推荐模型为利用上述的基于隐私保护机器遗忘算法的推荐模型生成方法得到。
7.根据本技术实施例的第三方面,提供了一种基于隐私保护机器遗忘算法的推荐模型生成装置,包括:
模型获取模块,被配置为获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;样本集更新模块,被配置为基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;模型训练模块,被配置为基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;参数聚合模块,被配置为聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;模型生成模块,被配置为基于聚合后的模型参数生成目标推荐模型。
8.根据本技术实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述基于隐私保护机器遗忘算法的推荐模型生成方法的步骤。
9.根据本技术实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述基于隐私保护机器遗忘算法的推荐模型生成方法的步骤。
10.本技术提供的基于隐私保护机器遗忘算法的推荐模型生成方法,获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;基于聚合后的模型参数生成目标推荐模型。
11.本技术一实施例,通过获取多个样本集对初始推荐模型分别训练多个模型,并在接收到待遗忘数据的数据信息之后,可在该待遗忘数据所在的样本集中,删除掉待遗忘数据,获得第一样本集,进而,仅对删除待遗忘数据的第一样本集对应的模型进行重新训练,避免了由于更新了待训练样本,还需要重新训练初始推荐模型,将带来较大的算力浪费;另外,通过聚合重新训练后的推荐模型的模型参数和原未重新训练模型的模型参数,可以构建经过机器遗忘处理后的新的目标推荐模型,不仅节省了模型的算力资源,还能提高推荐模型的生成效率以及模型使用性能。
附图说明
12.图1是本技术一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成方法的架构示意图;图2是本技术一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成方法的流程图;图3是本技术一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成方法的模型生成示意图;图4是本技术一实施例提供的一种项目推荐方法的流程图;图5是本技术一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成装
置的结构示意图;图6是本技术一实施例提供的一种计算设备的结构框图。
具体实施方式
13.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
14.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
15.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
16.首先,对本技术一个或多个实施例涉及的名词术语进行解释。
17.机器遗忘:机器学习中删除用户数据、删除噪声或损坏的训练数据。
18.隐私保护:是指使个人或集体等实体不愿意被外人知道的信息得到应有的保护。隐私包含的范围很广,对于个人来说,一类重要的隐私是个人的身份信息,即利用该信息可以直接或间接地通过连接查询追溯到某个人;对于集体来说,隐私一般是指代表一个团体各种行为的敏感信息。
19.随着大数据系统的流行,数据驱动的推荐系统带来了巨大的商业价值,同时人们也日益注重隐私保护问题。为了保护用户的“被遗忘权”,系统需要从推荐模型中删除对应用户的数据。然而,随着模型参数量的提升,直接删除模型中的训练数据,并重新训练整个模型将带来巨大的算力浪费。
20.为了解决这一问题,本说明书实施例提出一种基于深度聚类与注意力机制的推荐学习机器遗忘算法,在推荐系统机器遗忘中,为了从推荐模型删除用户数据,本实施例中选择从数据集删除部分用户数据并重新训练的路线,以减少重新训练的成本。
21.具体实施时,由于推荐系统中用户间的协同信息是关键信息,本实施例中采用深度聚类的方式对用户进行分类以保留其协同性,对不同的用户将其划分为若干类别,在每一类中分别训练得到若干对应的子模型。当某用户提出删除数据请求时,系统通过缓存信息快速定位到该用户所属的类别,只需要在该类别中删除用户信息,并使用剩余的用户数据重新训练,得到删除后的子模型。当系统用于推荐预测时,通过注意力机制训练神经网络将各个子模型的预测结果聚合,即可得到最终结果。
22.在本技术中,提供了基于隐私保护机器遗忘算法的推荐模型生成方法,本技术同时涉及项目推荐方法,基于隐私保护机器遗忘算法的推荐模型生成装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
23.图1示出了根据本技术一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成方法的架构示意图。
24.需要说明的是,本实施例提供的推荐模型可应用于各种应用场景,包括但不限定于电商平台的物品推荐场景、电影、书籍等推荐场景;而为了保护用户隐私,需要对已经训练好的推荐模型执行机器遗忘操作,一方面可以提升推荐模型本身的应用性能,另一方面还可保护用户隐私数据。
25.实际应用中,根据待训练样本集可训练初始推荐模型,但由于待训练样本集中的训练数据量的增大,训练初始推荐模型的成本也逐渐提升,因此,为了使得初始推荐模型中遗忘某些用户的隐私数据,同时也要减少对初始推荐模型整体重新训练的成本,本实施例提供了对待训练样本集按照用户进行划分,划分为多个样本集,如图1中所示,包括样本集1、样本集2......样本集n,利用多个样本集分别训练初始推荐模型,获得多个模型,如图1中所示,包括模型1、模型2......模型n;进一步地,在接收到待遗忘数据的数据信息之后,可确定待遗忘数据所在的样本集,比如样本集1,那么在样本集1中删除掉待遗忘数据,获得待更新样本集,并利用待更新样本集重新训练初始推荐模型,获得第一推荐模型;最后,再通过获取第一推荐模型中的模型参数和未参与重新训练的模型2-模型n的各个模型参数,完成模型参数的聚合处理,以重新获得目标推荐模型,进而,在该目标推荐模型中,该模型已经遗忘掉了待遗忘数据,同时,重新训练的成本仅在于对样本集1对应的模型训练中,并未涉及所有训练样本对应的训练模型,这样使得模型训练成本较大程度上降低,也可提升推荐模型的使用性能。
26.综上,本说明书实施例提供的基于隐私保护机器遗忘算法的推荐模型生成方法,通过定位待遗忘数据所属的样本集,并对该样本集进行更新,基于更新后的样本集重新训练模型,以获得重新训练模型的模型参数,这种仅对部分训练数据对应的模型重新训练的方式,能够大大降低模型训练的成本,同样也能保护了用户隐私,又能保证目标推荐模型的推荐性能。
27.图2示出了根据本技术一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成方法的流程图,具体包括以下步骤:需要说明的是,本实施例提供的基于隐私保护机器遗忘算法的推荐模型生成方法,可应用于端侧设备和云侧设备,本实施例对执行主体不做限定;具体的应用场景可应用于推荐物品、服务、电影、书籍等推荐系统。
28.步骤202:获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得。
29.其中,多个模型可以理解为根据多个样本集分别训练初始推荐模型生成的模型,该模型可用于各种应用场景的推荐任务,本实施例对此不作限定。
30.实际应用中,执行主体可将待训练样本集进行划分,获得多个样本集,并基于多个样本集对初始推荐模型进行训练,获得多个模型,其中,多个模型可以理解为根据小规模训练数据训练的推荐模型。
31.进一步地,由于推荐模型中用户间的协同信息是关键信息,本实施例中所训练的多个模型,可根据待训练样本集中的用户信息划分的多个样本集训练获得;具体的,所述获取多个模型之前,还包括:
获取待训练样本集;基于所述待训练样本集中的用户信息,划分所述待训练样本集,获得多个样本集;基于所述多个样本集分别对初始推荐模型进行训练,获得多个模型。
32.其中,待训练样本集可以理解为训练推荐模型的样本集,该样本集中可表征用户信息、项目信息、为用户推荐项目的信息(即用户与项目之间的关联信息)。
33.实际应用中,执行主体可获取到待训练样本集,并确定待训练样本集中的用户信息,通过对用户信息进行分类,以实现划分待训练样本集,获得多个样本集,进而再利用多个样本集分别对初始推荐模型进行训练,获得多个模型;需要说明的是,由于待训练样本集中用户信息在各个项目信息中具有协同性,且该推荐模型也是为用户推荐相应的项目,因此,可以用户信息为划分标准,将待训练样本集进行划分,获得多个样本集。
34.另外,在一些可选的实施例中,也可以推荐的项目信息为划分标准,对待训练样本集进行划分,目的是将待训练样本集这种大规模的数据集,划分为多个小规模的数据集,同时各个小规模的数据集中的数据具有相应的共性,以便于能够应用于各种应场景,本实施例对此不作限定。
35.更进一步地,本实施例中可采用深度聚类的方式对用户进行分类,划分多个样本集;具体的,所述基于所述待训练样本集中的用户信息,划分所述待训练样本,获得多个样本集,包括:对所述待训练样本集中的数据内容进行格式转换,确定交互矩阵向量;基于所述待训练样本集中的用户信息,对所述交互矩阵向量进行聚类处理,获得多个样本集;其中,所述样本集中包括用户信息向量、项目信息向量、所述用户信息向量与所述项目信息向量之间的关联信息向量。
36.其中,交互矩阵向量可以理解为具有交互矩阵的形式,矩阵中的横向向量表征可为用户信息、纵向向量表征可为项目信息。
37.实际应用中,执行主体可对待训练样本集中的数据内容进行格式转换,处理成交互矩阵形式,即交互矩阵向量,进而,再根据待训练样本集中的用户信息,对交互矩阵向量按用户进行深度聚类处理,获得若干个样本集,其中,样本集中可包括用户信息向量、项目信息向量、所述用户信息向量与所述项目信息向量之间的关联信息向量。
38.需要说明的是,由于待训练样本集的数据规模较大,相应的交互矩阵向量中表征的信息较为密集,而对待训练样本集进行划分后的样本集中表征的信息相对稀疏些。
39.本实施例中,将待训练样本集进行划分后,实现了将大规模训练数据划分为多个小规模的训练数据,便于后续利用小规模的训练数据重新训练模型的效率。
40.步骤204:基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集。
41.其中,待遗忘数据可以理解为模型网络中需要实现机器遗忘的数据内容,该数据内容为模型输入的数据,比如用户的个人信息、用户所感兴趣的项目信息等。
42.实际应用中,执行主体可获取到待遗忘数据对应的数据信息,其中,该数据信息可表征该待遗忘数据的数据类型、数据标识、或者是数据输入至模型的时间等,本实施例对此不作限定,即可理解为根据数据信息可定位该待遗忘数据所属的样本集;进一步地,根据数
据信息,在多个样本集中定位该待遗忘数据所属的样本集,以将其确定为待更新样本集;进而,在该待更新样本集中删除掉待遗忘数据,以确定第一样本集,其中,第一样本集可理解为删除掉待遗忘数据的样本集。
43.需要说明的是,待遗忘数据所属的样本集的数量本实施例中不作限定,相应地,在各个样本集中删除掉待遗忘数据之后,也可获得多个待更新样本集,以及获得多个第一样本集,与待遗忘数据的数据规模和内容相关联,本实施例对此不作限定。
44.进一步地,执行主体在获取待遗忘数据时,可根据用户的遗忘请求获得,也可根据模型中自动确定噪音数据而请求遗忘,本实施例对此不作限定;具体的,所述基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,包括:响应于数据遗忘指令,获取待遗忘数据的数据信息;基于所述数据信息在所述多个样本集中,确定所述待遗忘数据所在的样本集为待更新样本集。
45.实际应用中,执行主体可响应于数据遗忘指令,其中,数据遗忘指令可以理解为针对待遗忘数据的请求遗忘指令,需要说明的是,该数据遗忘指令可基于用户的遗忘请求而触发,也可基于模型中对噪音数据的过滤需求而触发,本实施例对此不作限定;进一步地,获取数据遗忘指令中待遗忘数据的数据信息,并根据数据信息在多个样本集中,确定该待遗忘数据所在的样本集,并将该样本集确定为待更新样本集。
46.最后,在待更新样本集中删除掉待遗忘数据,以获得第一样本集,其为已经完成数据过滤后的样本集,便于后续模型根据第一样本集学习遗忘后的训练内容。
47.步骤206:基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型。
48.实际应用中,执行主体在确定了第一样本集之后,即可根据第一样本集重新训练初始推荐模型,获得第一推荐模型;需要说明的是,由于在待遗忘数据删除之前,根据待更新样本集已经训练过推荐模型,该推荐模型中已经学习了需要遗忘的数据内容,所以为了使得模型实现机器遗忘,即可根据删除待遗忘数据的第一样本集,再重新训练初始推荐模型,以获得第一推荐模型,这时,第一推荐模型已经实现了机器遗忘的过程。
49.步骤208:聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型。
50.需要说明的是,第二推荐模型可理解为除了待更新样本集以外的其他样本集所训练的模型,即不存在待遗忘数据的样本集所训练的模型;同时,该第二推荐模型的训练过程在模型实现机器遗忘之前已经完成了模型的训练过程,便于后续直接从第二推荐模型中提取模型参数。
51.具体实施时,本实施例中还提供了聚合模型参数的方法,可利用注意力机制学习聚合权重;具体的,所述聚合所述第一模型参数和所述第二推荐模型中的第二模型参数,包括:提取所述第二推荐模型中的模型参数,获得第二模型参数;基于注意力机制,聚合所述第一模型参数和所述第二模型参数。
52.实际应用中,执行主体可提取出第二推荐模型中的模型参数,确定第二模型参数,再通过注意力机制训练神经网络,将第一模型参数和第二模型参数进行聚合,以便于获得能够实现推荐效果较好的推荐模型。
53.更进一步地,本实施例中对于模型参数的聚合部分,可分别聚合用户信息向量、项目信息向量之后,再聚合用户信息和项目信息之间的向量权重;具体的,所述基于注意力机制,聚合所述第一模型参数和所述第二模型参数,包括:提取所述第一模型参数中的第一用户嵌入向量、第一项目嵌入向量,以及提取所述第二模型参数中的第二用户嵌入向量、第二项目嵌入向量;聚合所述第一用户嵌入向量和所述第二用户嵌入向量,确定用户嵌入权重;聚合所述第一项目嵌入向量和所述第二项目嵌入向量,确定项目嵌入权重;基于注意力机制,聚合所述用户嵌入权重和所述项目嵌入权重。
54.需要说明的是,第一推荐模型中的第一模型参数可包括第一用户嵌入向量,第一项目嵌入向量,相应地,第二推荐模型中的第二模型参数可包括第二用户嵌入向量、第二项目嵌入向量。
55.实际应用中,分别提取各个模型参数中的用户嵌入向量和项目嵌入向量,再对各个用户嵌入向量做加权平均处理,获得用户嵌入权重,再对各个项目嵌入向量做加权平均处理,获得项目嵌入权重;最后,再通过注意力机制,聚合用户嵌入权重和项目嵌入权重。
56.本实施例中通过注意力机制对用户嵌入权重和项目嵌入权重进行聚合后,可获得执行遗忘请求后推荐模型的模型参数,以便于获得新的推荐模型。
57.步骤210:基于聚合后的模型参数生成目标推荐模型。
58.进一步地,执行主体在获得了聚合后的模型参数之后,即可根据聚合后的模型参数生成目标推荐模型,需要说明的是,目标推荐模型可以被构建为学习网络,在一些实施例中,该学习网络可以包括多个网络,其中每个网络可以是一个多层神经网络,其可以由大量的神经元组成,聚合后的模型参数可理解为这些网络中的神经元的参数,可被统称为推荐模型的参数。
59.综上,本说明书实施例提供的基于隐私保护机器遗忘算法的推荐模型生成方法,针对推荐模型的设计特点,有效保留推荐模型中用户的协同性,以用户信息为基准,对待训练样本集进行划分为多个样本集,以便于对待遗忘数据所在的样本集进行数据集更新,并重新训练推荐模型,后续再重新聚合新训练的推荐模型的模型参数和未重新训练的模型的模型参数,构建经过机器遗忘处理后的新的目标推荐模型,不仅节省了模型的算力资源,还能提高推荐模型的生成效率以及模型使用性能。
60.下述结合附图3,图3示出了本技术一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成方法的模型生成示意图。
61.图3中的模型生成过程可包括两个阶段,分别为训练阶段和遗忘阶段,其中,训练阶段可理解为根据待训练样本集分类训练多个推荐模型的过程,遗忘阶段可理解为根据遗忘请求重新训练部分推荐模型的过程;需要说明的是,为了便于理解,本实施例中以推荐模型为用户推荐物品为例进行说明。
62.实际应用中,在训练阶段中,执行主体可将待训练样本集转换为交互矩阵的形式,并通过深度学习的聚类算法,比如deep autoencoder算法,将交互矩阵按用户进行深度聚合,得到若干个子数据集,如图3中示意的三个子数据集,每个子数据集包括用户信息和分片的物品信息(如图3中示意的分片1、分片2、分片3);进一步地,各个子数据集均参与对初始推荐模型的训练过程,分别可获得多个子模型,每个子模型中包含用户嵌入和物品嵌入,
再通过注意力机制训练用户嵌入的权重、物品嵌入的权重,得到聚合用户嵌入和聚合物品嵌入,以获得预测评分的模型参数(如图3中下方左侧预测评分的示意)。
63.进一步地,在遗忘阶段中,用户提出遗忘请求,可根据遗忘请求中待遗忘数据的数据信息定位到对应的子数据集,比如图3中定位至第一个子数据集,即需要重新训练子数据集分片1对应的物品嵌入向量,而子数据集分片2和子数据集分片3不需要重新训练,可直接获取原训练的用户嵌入和物品嵌入,进而,需要根据权重重新聚合用户嵌入权重和物品嵌入权重,以获得新的预测评分的模型参数(如图3中下方右侧预测评分的示意)。
64.综上,本实施例中提出的基于隐私保护机器遗忘算法的推荐模型生成方法中,通过将训练阶段和遗忘阶段的训练过程分开,以保证在遗忘阶段的训练过程,涉及一小部分的训练数据重新进行训练,避免了训练阶段的所有训练数据重新训练模型所带来的算力浪费,还能够快速地实现机器遗忘后推荐模型的生成。
65.图4示出了根据本技术一实施例提供的一种项目推荐方法的流程图,具体包括以下步骤:需要说明的是,本实施例提供的项目推荐方法可应用于物品推荐场景、书籍推荐场景等,本实施例对此不作限定。
66.步骤402:获取目标用户的用户信息。
67.其中,用户信息可以理解为标识目标用户的信息,比如用户在平台中的id信息等。
68.实际应用中,执行主体可获取到目标用户的用户信息,以便于获得与该目标用户相关联的信息,为该目标用户进行合理高效地项目推荐。
69.步骤404:将所述用户信息输入目标推荐模型,得到针对所述目标用户的项目推荐信息,其中,所述目标推荐模型为上述的基于隐私保护机器遗忘算法的推荐模型生成方法得到。
70.实际应用中,执行主体还可将用户信息输入至目标推荐模型中,以获得目标推荐模型输出的为该目标用户所推荐的项目推荐信息,并将该项目推荐信息展示为目标用户。
71.需要说明的是,目标推荐模型可以理解为保护用户隐私的推荐模型,同时该模型具有机器遗忘的能力,具体的模型生成过程可参考上述实施例中对目标推荐模型生成过程的描述;另外,在该目标用户发送了针对目标用户的用户信息的遗忘请求之后,可确定该用户信息所属目标推荐模型的训练样本集的位置,进而对该模型的小部分子模型进行重新训练,以再次获得对该用户信息遗忘的目标推荐模型,具体的,本实施例中则不做过多赘述。
72.综上,在上述目标推荐模型生成的基础上,将用户信息输入至该目标推荐模型中,不仅使该目标推荐模型的生成过程节省大量算力资源,还能够保证获得合理性较高的项目推荐结果。
73.与上述方法实施例相对应,本技术还提供了基于隐私保护机器遗忘算法的推荐模型生成装置实施例,图5示出了本技术一实施例提供的一种基于隐私保护机器遗忘算法的推荐模型生成装置的结构示意图。如图5所示,该装置包括:模型获取模块502,被配置为获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;样本集更新模块504,被配置为基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;
模型训练模块506,被配置为基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;参数聚合模块508,被配置为聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;模型生成模块510,被配置为基于聚合后的模型参数生成目标推荐模型。
74.可选地,所述样本集更新模块504,进一步被配置为:响应于数据遗忘指令,获取待遗忘数据的数据信息;基于所述数据信息在所述多个样本集中,确定所述待遗忘数据所在的样本集为待更新样本集。
75.可选地,所述装置,还包括:初始模型训练模块,被配置为获取待训练样本集;基于所述待训练样本集中的用户信息,划分所述待训练样本集,获得多个样本集;基于所述多个样本集分别对初始推荐模型进行训练,获得多个模型。
76.可选地,所述样本集更新模块504,进一步被配置为:对所述待训练样本集中的数据内容进行格式转换,确定交互矩阵向量;基于所述待训练样本集中的用户信息,对所述交互矩阵向量进行聚类处理,获得多个样本集;其中,所述样本集中包括用户信息向量、项目信息向量、所述用户信息向量与所述项目信息向量之间的关联信息向量。
77.可选地,所述参数聚合模块508,进一步被配置为:提取所述第二推荐模型中的模型参数,获得第二模型参数;基于注意力机制,聚合所述第一模型参数和所述第二模型参数。
78.可选地,所述参数聚合模块508,进一步被配置为:提取所述第一模型参数中的第一用户嵌入向量、第一项目嵌入向量,以及提取所述第二模型参数中的第二用户嵌入向量、第二项目嵌入向量;聚合所述第一用户嵌入向量和所述第二用户嵌入向量,确定用户嵌入权重;聚合所述第一项目嵌入向量和所述第二项目嵌入向量,确定项目嵌入权重;基于注意力机制,聚合所述用户嵌入权重和所述项目嵌入权重。
79.本说明书实施例提供的基于隐私保护机器遗忘算法的推荐模型生成装置,通过获取多个样本集对初始推荐模型分别训练多个模型,并在接收到待遗忘数据的数据信息之后,可在该待遗忘数据所在的样本集中,删除掉待遗忘数据,获得第一样本集,进而,仅对删除待遗忘数据的第一样本集对应的模型进行重新训练,避免了由于更新了待训练样本,还需要重新训练初始推荐模型,将带来较大的算力浪费;另外,通过聚合重新训练后的推荐模型的模型参数和原未重新训练模型的模型参数,可以构建经过机器遗忘处理后的新的目标推荐模型,不仅节省了模型的算力资源,还能提高推荐模型的生成效率以及模型使用性能。
80.上述为本实施例的一种基于隐私保护机器遗忘算法的推荐模型生成装置的示意性方案。需要说明的是,该基于隐私保护机器遗忘算法的推荐模型生成装置的技术方案与上述的基于隐私保护机器遗忘算法的推荐模型生成方法的技术方案属于同一构思,基于隐
私保护机器遗忘算法的推荐模型生成装置的技术方案未详细描述的细节内容,均可以参见上述基于隐私保护机器遗忘算法的推荐模型生成方法的技术方案的描述。
81.图6示出了根据本技术一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
82.计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(pstn,public switched telephone network)、局域网(lan,local area network)、广域网(wan,wide area network)、个域网(pan,personal area network)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,network interface controller))中的一个或多个,诸如ieee802.11无线局域网(wlan,wireless local area network)无线接口、全球微波互联接入(wi-max,worldwide interoperability for microwave access)接口、以太网接口、通用串行总线(usb,universal serial bus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,near field communication)接口,等等。
83.在本技术的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
84.计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(pc,personal computer)的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
85.其中,处理器620执行所述计算机指令时实现所述的基于隐私保护机器遗忘算法的推荐模型生成方法的步骤。
86.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的基于隐私保护机器遗忘算法的推荐模型生成方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述基于隐私保护机器遗忘算法的推荐模型生成方法的技术方案的描述。
87.本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述基于隐私保护机器遗忘算法的推荐模型生成方法的步骤。
88.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于隐私保护机器遗忘算法的推荐模型生成方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于隐私保护机器遗忘算法的推荐模型生成方法的技术方案的描述。
89.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行
并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
90.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
91.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
92.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
93.以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

技术特征:
1.一种基于隐私保护机器遗忘算法的推荐模型生成方法,其特征在于,包括:获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;基于聚合后的模型参数生成目标推荐模型。2.根据权利要求1所述的方法,其特征在于,所述基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,包括:响应于数据遗忘指令,获取待遗忘数据的数据信息;基于所述数据信息在所述多个样本集中,确定所述待遗忘数据所在的样本集为待更新样本集。3.根据权利要求1所述的方法,其特征在于,所述获取多个模型之前,还包括:获取待训练样本集;基于所述待训练样本集中的用户信息,划分所述待训练样本集,获得多个样本集;基于所述多个样本集分别对初始推荐模型进行训练,获得多个模型。4.根据权利要求3所述的方法,其特征在于,所述基于所述待训练样本集中的用户信息,划分所述待训练样本,获得多个样本集,包括:对所述待训练样本集中的数据内容进行格式转换,确定交互矩阵向量;基于所述待训练样本集中的用户信息,对所述交互矩阵向量进行聚类处理,获得多个样本集;其中,所述样本集中包括用户信息向量、项目信息向量、所述用户信息向量与所述项目信息向量之间的关联信息向量。5.根据权利要求1所述的方法,其特征在于,所述聚合所述第一模型参数和所述第二推荐模型中的第二模型参数,包括:提取所述第二推荐模型中的模型参数,获得第二模型参数;基于注意力机制,聚合所述第一模型参数和所述第二模型参数。6.根据权利要求5所述的方法,其特征在于,所述基于注意力机制,聚合所述第一模型参数和所述第二模型参数,包括:提取所述第一模型参数中的第一用户嵌入向量、第一项目嵌入向量,以及提取所述第二模型参数中的第二用户嵌入向量、第二项目嵌入向量;聚合所述第一用户嵌入向量和所述第二用户嵌入向量,确定用户嵌入权重;聚合所述第一项目嵌入向量和所述第二项目嵌入向量,确定项目嵌入权重;基于注意力机制,聚合所述用户嵌入权重和所述项目嵌入权重。7.一种项目推荐方法,其特征在于,包括:获取目标用户的用户信息;将所述用户信息输入目标推荐模型,得到针对所述目标用户的项目推荐信息,其中,所
述目标推荐模型为利用如权利要求1-6任一项所述的基于隐私保护机器遗忘算法的推荐模型生成方法得到。8.一种基于隐私保护机器遗忘算法的推荐模型生成装置,其特征在于,包括:模型获取模块,被配置为获取多个模型,其中,所述多个模型基于多个样本集对初始推荐模型训练获得,所述多个样本集通过划分待训练样本集获得;样本集更新模块,被配置为基于待遗忘数据的数据信息,在所述多个样本集中确定待更新样本集,并删除所述待更新样本集中的待遗忘数据,确定第一样本集;模型训练模块,被配置为基于所述第一样本集,训练所述初始推荐模型,获得第一推荐模型;参数聚合模块,被配置为聚合所述第一推荐模型的模型参数和第二推荐模型的模型参数,其中,所述第二推荐模型为除所述待更新样本集以外的其他样本集训练的模型;模型生成模块,被配置为基于聚合后的模型参数生成目标推荐模型。9.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-7任意一项所述方法的步骤。10.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。

技术总结
本申请提供基于隐私保护机器遗忘算法的推荐模型生成方法及装置,其中所述基于隐私保护机器遗忘算法的推荐模型生成方法包括:获取多个模型,其中,多个模型基于多个样本集对初始推荐模型训练获得,多个样本集通过划分待训练样本集获得;基于待遗忘数据的数据信息,在多个样本集中确定待更新样本集,并删除待更新样本集中的待遗忘数据,确定第一样本集;基于第一样本集,训练初始推荐模型,获得第一推荐模型;聚合第一推荐模型的模型参数和第二推荐模型的模型参数,其中,第二推荐模型为除待更新样本集以外的其他样本集训练的模型;基于聚合后的模型参数生成目标推荐模型,不仅节省了模型的算力资源,还能提高模型使用性能。还能提高模型使用性能。还能提高模型使用性能。


技术研发人员:郑小林 陈超超 李宇渊 刘俊麟
受保护的技术使用者:杭州金智塔科技有限公司
技术研发日:2023.06.28
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐