对象分类方法、装置、计算机设备和存储介质与流程
未命名
09-24
阅读:62
评论:0
1.本技术涉及计算机技术领域,特别是涉及一种对象分类方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
2.随着计算机技术的发展,网络中涌现了越来越多的应用程序。为了维护网络环境,保护对象的身心健康,可以区别设置不同类型的对象在同一应用程序中的操作权限。
3.传统技术中,通常是通过经验规则来识别不同类型的对象,例如,针对同一应用程序,不同类型的对象的操作时间存在差异,将在特定时间操作应用程序的对象识别为该特定时间对应的特定类型的对象。然而,基于经验规则的对象分类方法存在较大的主观性,分类准确率较低。
技术实现要素:
4.基于此,有必要针对上述技术问题,提供一种能够提高分类准确性的对象分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.本技术提供了一种对象分类方法。所述方法包括:
6.获取训练对象对应的训练操作数据和训练标签;所述训练操作数据是基于所述训练对象在目标应用中的操作数据得到的,所述训练标签用于确定所述训练对象在所述目标应用中的操作权限;
7.基于所述训练操作数据和所述训练标签生成初始决策树,将所述初始决策树作为当前决策树;
8.将所述训练操作数据输入当前决策树得到本轮预测结果,基于所述训练标签、本轮预测结果和历史轮预测结果生成预测误差;
9.基于所述训练操作数据和所述预测误差生成当前决策树的后向决策树,将所述后向决策树作为当前决策树,返回将所述训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;
10.基于所述初始决策树和各个后向决策树生成对象分类模型;所述对象分类模型用于将目标对象对应的目标操作数据输入所述初始决策树和所述各个后向决策树,并融合所述初始决策树和所述各个后向决策树的预测结果得到所述目标对象对应的预测标签。
11.本技术还提供了一种对象分类装置。所述装置包括:
12.训练数据获取模块,用于获取训练对象对应的训练操作数据和训练标签;所述训练操作数据是基于所述训练对象在目标应用中的操作数据得到的,所述训练标签用于确定所述训练对象在所述目标应用中的操作权限;
13.初始决策树生成模块,用于基于所述训练操作数据和所述训练标签生成初始决策树,将所述初始决策树作为当前决策树;
14.预测误差计算模块,用于将所述训练操作数据输入当前决策树得到本轮预测结
果,基于所述训练标签、本轮预测结果和历史轮预测结果生成预测误差;
15.后向决策树生成模块,用于基于所述训练操作数据和所述预测误差生成当前决策树的后向决策树,将所述后向决策树作为当前决策树,返回将所述训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;
16.对象分类模型生成模块,用于基于所述初始决策树和各个后向决策树生成对象分类模型;所述对象分类模型用于将目标对象对应的目标操作数据输入所述初始决策树和所述各个后向决策树,并融合所述初始决策树和所述各个后向决策树的预测结果得到所述目标对象对应的预测标签。
17.本技术提供了一种对象分类方法。所述方法包括:
18.获取目标对象对应的目标操作数据;所述目标操作数据是基于所述目标对象在目标应用中的操作数据得到的;
19.将所述目标操作数据输入对象分类模型,得到所述目标对象对应的预测标签;所述预测标签用于确定所述目标对象在所述目标应用中的操作权限,所述预测标签是融合所述对象分类模型中各个决策树的预测结果得到的;
20.所述对象分类模型的训练过程包括以下步骤:
21.获取训练对象对应的训练操作数据和训练标签;
22.基于所述训练操作数据和所述训练标签生成初始决策树,将所述初始决策树作为当前决策树;
23.将所述训练操作数据输入当前决策树得到本轮预测结果,基于所述训练标签、本轮预测结果和历史轮预测结果生成预测误差;
24.基于所述训练操作数据和所述预测误差生成当前决策树的后向决策树,将所述后向决策树作为当前决策树,返回将所述训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;
25.基于所述初始决策树和各个后向决策树生成所述对象分类模型。
26.本技术还提供了一种对象分类装置。所述装置包括:
27.数据获取模块,用于获取目标对象对应的目标操作数据;所述目标操作数据是基于所述目标对象在目标应用中的操作数据得到的;
28.标签预测模块,用于将所述目标操作数据输入对象分类模型,得到所述目标对象对应的预测标签;所述预测标签用于确定所述目标对象在所述目标应用中的操作权限,所述预测标签是融合所述对象分类模型中各个决策树的预测结果得到的;
29.所述对象分类模型的训练过程包括以下步骤:
30.获取训练对象对应的训练操作数据和训练标签;基于所述训练操作数据和所述训练标签生成初始决策树,将所述初始决策树作为当前决策树;将所述训练操作数据输入当前决策树得到本轮预测结果,基于所述训练标签、本轮预测结果和历史轮预测结果生成预测误差;基于所述训练操作数据和所述预测误差生成当前决策树的后向决策树,将所述后向决策树作为当前决策树,返回将所述训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;基于所述初始决策树和各个后向决策树生成所述对象分类模型。
31.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理
器执行所述计算机程序时实现上述对象分类方法所述的步骤。
32.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述对象分类方法所述的步骤。
33.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述对象分类方法所述的步骤。
34.上述对象分类方法、装置、计算机设备、存储介质和计算机程序产品,通过获取训练对象对应的训练操作数据和训练标签,训练操作数据是基于训练对象在目标应用中的操作数据得到的,训练标签用于确定训练对象在目标应用中的操作权限,基于训练操作数据和训练标签生成初始决策树,将初始决策树作为当前决策树,将训练操作数据输入当前决策树得到本轮预测结果,基于训练标签、本轮预测结果和历史轮预测结果生成预测误差,基于训练操作数据和预测误差生成当前决策树的后向决策树,将后向决策树作为当前决策树,返回将训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树,基于初始决策树和各个后向决策树生成对象分类模型。后续,可以将目标对象对应的目标操作数据输入对象分类模型,对象分类模型通过融合初始决策树和各个后向决策树的预测结果输出目标对象对应的预测标签。这样,基于训练操作数据和训练标签可以训练得到对象分类模型,基于对象分类模型对对象进行分类,可以提高对象的分类准确性和效率。并且,对象分类模型包括多个决策树,各个后向决策树通过学习前向决策树预测结果和训练标签之间的误差得到,后向决策树可以在前向决策树的基础上提高模型的准确性,从而对象分类模型通过融合各个决策树的预测结果可以得到更准确的预测标签,进一步提高对象的分类准确性。
附图说明
35.图1为一个实施例中对象分类方法的应用环境图;
36.图2为一个实施例中对象分类方法的流程示意图;
37.图3为一个实施例中对象实名前后年龄的统计结果示意图;
38.图4为另一个实施例中对象分类方法的流程示意图;
39.图5为一个实施例中识别游戏玩家的流程示意图;
40.图6为一个实施例中训练和应用集成模型的示意图;
41.图7为一个实施例中对象分类装置的结构框图;
42.图8为另一个实施例中对象分类装置的结构框图;
43.图9为又一个实施例中对象分类装置的结构框图;
44.图10为一个实施例中计算机设备的内部结构图;
45.图11为一个实施例中计算机设备的内部结构图。
具体实施方式
46.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
47.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层
面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
48.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
49.本技术实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
50.本技术实施例提供的对象分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
51.终端102和服务器104可协同用于执行本技术实施例中提供的对象分类方法。例如,服务器从终端获取训练对象对应的训练操作数据和训练标签,其中,训练操作数据是基于训练对象在目标应用中的操作数据得到的,训练标签用于确定训练对象在目标应用中的操作权限。服务器基于训练操作数据和训练标签生成初始决策树,将初始决策树作为当前决策树,将训练操作数据输入当前决策树得到本轮预测结果,基于训练标签、本轮预测结果和历史轮预测结果生成预测误差,基于训练操作数据和预测误差生成当前决策树的后向决策树,将后向决策树作为当前决策树,返回将训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树。服务器基于初始决策树和各个后向决策树生成对象分类模型,将对象分类模型发送至终端。终端获取目标对象对应的目标操作数据,将目标操作数据输入对象分类模型中的初始决策树和各个后向决策树,对象分类模型融合初始决策树和各个后向决策树的预测结果得到目标对象对应的预测标签,对象分类模型输出预测标签。终端可以基于预测标签确定目标对象在目标应用中的操作权限,从而控制目标对象在目标应用中的操作。
52.终端102和服务器104也可单独用于执行本技术实施例中提供的对象分类方法。例如,由终端基于训练数据训练得到对象分类模型,由终端基于对象分类模型得到目标对象对应的预测标签。
53.其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。终端上安装有目标应用。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。
54.在一个实施例中,如图2所示,提供了一种对象分类方法,以该方法应用于计算机设备来举例说明,该计算机设备可以是上述图1中的终端102或服务器104。参考图2,对象分类方法包括以下步骤:
55.步骤s202,获取训练对象对应的训练操作数据和训练标签;训练操作数据是基于
训练对象在目标应用中的操作数据得到的,训练标签用于确定训练对象在目标应用中的操作权限。
56.其中,目标应用是指针对不同类型对象,需要区分操作权限的应用程序。目标应用可以是游戏应用、视频应用、电商应用等。例如,目标应用可以是游戏应用,成年人玩家和未成年人玩家在游戏应用中的操作权限是不同的,未成年人玩家在游戏应用中的操作时长是受限制的。目标应用也可以是视频应用,成年人和未成年人在视频应用中的操作权限也是不同的,可以限制未成年人在视频应用中的视频观看时长、视频观看类型等。
57.训练操作数据是基于训练对象在目标应用中的操作数据生成的。训练操作数据用于反映训练对象对目标应用的使用情况。训练标签用于确定训练对象在目标应用中的操作权限。例如,若训练标签为第一标签,表示训练对象在目标应用中的操作权限为不受限制,若训练标签为第二标签,表示训练对象在目标应用中的操作权限为受限制。
58.具体地,计算机设备可以在本地、或从其他终端、服务器获取训练对象对应的训练操作数据和训练标签,进而基于训练操作数据和训练标签进行模型训练,得到由多个决策树组成的对象分类模型。后续,计算机设备可以基于对象分类模型对任意对象进行分类,从而控制对象在目标应用中的操作,达到维护网络环境、保护对象的目的。
59.在一个实施例中,计算机设备可以从目标应用上报的应用日志中提取训练对象对应的操作数据,得到训练操作数据。
60.步骤s204,基于训练操作数据和训练标签生成初始决策树,将初始决策树作为当前决策树。
61.其中,决策树是一种树形结构,其中每个内部节点表示一个属性、特征上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。初始决策树是指训练得到的第一个决策树。
62.具体地,计算机设备基于训练操作数据和训练标签可以生成初始决策树。可以将训练操作数据作为初始决策树的输入数据,将训练标签作为初始决策树的预期输出,通过多次迭代处理,最终训练得到初始决策树。可以理解,训练操作数据包括多个训练操作特征,通过多次迭代处理,可以从多种操作特征中选取对标签影响较大的若干种特征作为初始决策树的决策树节点,通过多次迭代处理,可以确定决策树节点之间的连接关系和节点参数,最终得到一棵初始决策树。将数据输入初始决策树后,基于输入数据途经的决策树节点和节点参数,初始决策树可以输出预测结果。
63.步骤s206,将训练操作数据输入当前决策树得到本轮预测结果,基于训练标签、本轮预测结果和历史轮预测结果生成预测误差。
64.步骤s208,基于训练操作数据和预测误差生成当前决策树的后向决策树,将后向决策树作为当前决策树,返回将训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树。
65.其中,历史轮预测结果是指在本轮预测结果之前已经得到的预测结果。不同轮次的训练过程用于训练得到不同的决策树。例如,第一轮训练过程用于训练得到初始决策树a的后向决策树b,第二轮训练过程用于训练得到决策树b的后向决策树c,第三轮训练过程用于训练得到决策树c的后向决策树d,以此类推,最终可以得到多个有序排列的决策树。
66.预测误差用于表征训练标签和现有预测结果之间的差距。新生成的决策树用于减
少训练标签和现有预测结果之间的差距,从而使预测结果和真实结果越来越接近。本轮预测结果、历史轮预测结果和现有预测结果都是指训练完成的决策树输出的预测结果。
67.具体地,在第一轮后向决策树训练过程中,计算机设备可以将初始决策树作为当前决策树,将训练操作数据作为当前决策树的输入数据,当前决策树输出本轮预测结果(即第一轮预测结果),基于训练标签和本轮预测结果生成预测误差,将训练操作数据作为下一个决策树的输入数据,将预测误差作为下一个决策树的预期输出,拟合得到下一决策树(即初始决策树对应的后向决策树)。在第二轮后向决策树训练过程中,计算机设备可以将第一轮拟合得到的决策树作为新的当前决策树,将训练操作数据作为当前决策树的输入数据,当前决策树输出本轮预测结果(即第二轮预测结果),基于训练标签、本轮预测结果和历史轮预测结果(即第一轮预测结果)生成新的预测误差,将训练操作数据作为下一个决策树的输入数据,将新的预测误差作为下一个决策树的预期输出,拟合得到下一决策树(即新的后向决策树)。在第三轮后向决策树训练过程中,计算机设备可以将第二轮拟合得到的决策树作为新的当前决策树,将训练操作数据作为当前决策树的输入数据,当前决策树输出本轮预测结果(即第三轮预测结果),基于训练标签、本轮预测结果和历史轮预测结果(即第一轮预测结果和第二轮预测结果)生成新的预测误差,将训练操作数据作为下一个决策树的输入数据,将新的预测误差作为下一个决策树的预期输出,拟合得到下一决策树(即新的后向决策树)。以此类推,经过多轮训练,最终可以生成多个后向决策树。
68.其中,第一收敛条件可以是后向决策树的数量大于预设数量、预测差值小于预设差值等中的至少一种。例如,若第一收敛条件为生成100个后向决策树,那么在得到第100个后向决策树后,就停止训练。预测差值是指基于训练标签和现有预测结果得到的,用于表征训练标签和预测标签之间的差值。若第一收敛条件为预测差值小于0.001,则在训练标签和预测标签之间的差值小于0.001时停止训练,不再生成新的后向决策树。预设数量和预设差值可以根据实际需要进行设置。
69.可以理解,在初始决策树和各个后向决策树中,由于拟合目标不同,任意两个决策树都是不完全相同的,例如,可以是决策树形态不同,也可以是决策树节点的节点参数不同等。
70.步骤s210,基于初始决策树和各个后向决策树生成对象分类模型;对象分类模型用于将目标对象对应的目标操作数据输入初始决策树和各个后向决策树,并融合初始决策树和各个后向决策树的预测结果得到目标对象对应的预测标签。
71.其中,目标对象是指待分类、待确定操作权限的对象。目标操作数据是基于目标对象在目标应用中的操作数据得到的。
72.具体地,在训练得到初始决策树和各个后向决策树后,计算机设备可以将初始决策树和各个后向决策树组成对象分类模型。后续在模型应用时,计算机设备可以获取目标对象对应的目标操作数据,将目标操作数据输入对象分类模型,目标操作数据被输入至初始决策树和各个后向决策树,经过决策树的数据处理,初始决策树和各个后向决策树分别输出预测结果,对象分类模型融合各个决策树的预测结果最终输出目标对象对应的预测标签。
73.在一个实施例中,计算机设备可以直接基于预测标签控制目标对象在目标应用中的操作,例如,若预测标签为目标标签,则限制目标对象在目标应用中的操作。计算机设备
也可以基于预测标签和其他数据综合确定目标对象在目标应用中的操作权限,进而控制目标对象在目标应用中的操作。
74.上述对象分类方法,通过获取训练对象对应的训练操作数据和训练标签,训练操作数据是基于训练对象在目标应用中的操作数据得到的,训练标签用于确定训练对象在目标应用中的操作权限,基于训练操作数据和训练标签生成初始决策树,将初始决策树作为当前决策树,将训练操作数据输入当前决策树得到本轮预测结果,基于训练标签、本轮预测结果和历史轮预测结果生成预测误差,基于训练操作数据和预测误差生成当前决策树的后向决策树,将后向决策树作为当前决策树,返回将训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树,基于初始决策树和各个后向决策树生成对象分类模型。后续,可以将目标对象对应的目标操作数据输入对象分类模型,对象分类模型通过融合初始决策树和各个后向决策树的预测结果输出目标对象对应的预测标签。这样,基于训练操作数据和训练标签可以训练得到对象分类模型,基于对象分类模型对对象进行分类,可以提高对象的分类准确性和效率。并且,对象分类模型包括多个决策树,各个后向决策树通过学习前向决策树预测结果和训练标签之间的误差得到,后向决策树可以在前向决策树的基础上提高模型的准确性,从而对象分类模型通过融合各个决策树的预测结果可以得到更准确的预测标签,进一步提高对象的分类准确性。
75.在一个实施例中,训练操作数据包括训练对象的对象属性特征、操作交互特征、操作时长特征、设备登录特征、注册时间特征、运行平台特征、训练对象和目标关联对象之间的目标关联特征中的至少一种,目标关联对象是训练对象的各个关联对象中具备目标操作权限的关联对象。
76.其中,对象属性特征用于表征对象的属性信息。对象属性特征可以包括对象年龄、对象性别、目标应用运行终端的终端标识、终端型号、终端运行网络、终端运行区域、终端运行操作系统等中的至少一种属性信息。对象属性特征具体可以包括对象实名认证前的各种属性信息。终端运行区域是指终端所在的地理区域,例如,一线、二线、三线城市等地理区域。
77.操作交互特征是基于某一对象在目标应用中和其他对象的交互操作得到的,用于表征某一对象在目标应用中的操作频率和操作熟练度。例如,若目标应用为游戏应用,交互操作具体可以是对抗操作,操作交互特征具体可以包括对局胜率、对局平率、对局败率、各模式对局胜率、对局总次数、对局总天数、日均对局次数(对局总次数/有对局天数)、工作日日均有对局次数(工作日对局总数/有发生对局的工作日天数、周末和假期日均有对局次数(周末和假期对局总数/有发生对局的周末和假期天数)、周末和假期日均有对局次数占比总体日均有对局次数、周末和假期日均每个小时对局次数、周末和假期日均每个小时对局次数占比等数据。
78.操作时长特征用于表征对象在目标应用中的操作时长。操作时长特征可以包括操作时长、平均时长、时长占比等中的至少一种属性信息。例如,操作时长特征可以包括工作日日均时长、周末和假期日均时长、工作日各时段时长、周末和假期各时段时长、每天上午/中午/下午/晚上/深夜时长占比等数据。
79.设备登录特征是基于对象用于登录目标应用的终端和账号得到的,用于表征终端和账号的登录频繁程度和登录专一程度。设备登录特征可以包括历史以来登录的设备数、
账号历史以来绑定的自然人数、在目标时间段内登录的设备历史登录的账号数、在目标时间段内账号绑定的自然人历史绑定的账号数、在目标时间段内是否在可疑设备登录等数据。目标时间段可以根据实际需要进行设置,例如,目标时间段为暑假。可疑设备是指历史上有目标类型对象登录目标应用的设备,例如,历史上有未成年登录游戏的设备。
80.注册时间特征用于表征对象在目标应用中的注册时间和注册时长。注册时间特征可以包括注册时长、注册年份等数据。
81.运行平台特征用于表征对象在不同运行平台上操作目标应用的活跃度。运行平台具体可以包括客户端(例如,电脑端)和移动端(例如,手机端)。运行平台特征可以包括在预设时间段内客户端活跃天数、在预设时间段内客户端活跃时长、在预设时间段内移动端活跃天数、在预设时间段内移动端活跃时长等数据。预设时间段可以根据实际需要进行设置,例如,预设时间段为近一个月。
82.某一对象的关联对象是指某一对象在目标应用中的好友。目标关联对象是指训练对象的各个关联对象中具备目标操作权限的关联对象,也可以认为是训练对象在目标应用中目标类型好友,例如,目标关联对象可以是训练对象在目标应用中的未成年好友。训练对象和目标关联对象之间的目标关联特征用于表征目标关联对象对于训练对象的重要程度。目标关联特征可以包括目标关联对象数量、目标关联对象比例和目标关联对象亲密度总和等数据。目标关联对象亲密度是基于训练对象和目标关联对象之间的交流信息生成的,交流信息包括会话信息、物品赠送信息、邀请信息等中的至少一种。
83.在一个实施例中,操作交互特征、操作时长特征和设备登录特征可以是目标时间段对应的操作特征。例如,操作交互特征包括7-8月的对局胜率、对局平率和对局败率。
84.具体地,训练操作数据可以包括至少一个维度的训练操作特征,具体可以包括对象属性特征、操作交互特征、操作时长特征、设备登录特征、注册时间特征、运行平台特征和目标关联特征中的至少一种。可以理解,每个维度的训练操作特征还可以包括至少一个类别的操作特征,例如,目标关联特征可以包括目标关联对象数量和目标关联对象比例共两个类别的操作特征。
85.在一个实施例中,计算机设备可以获取目标应用上报的应用日志,从应用日志中提取同一训练对象的各个训练操作特征,得到训练操作数据。
86.在一个实施例中,用于模型训练的操作特征是对大量已知类别对象的历史操作数据进行大数据分析得到的。例如,针对游戏应用,参考图3可知,实名前后对象年龄区分度明显,因此可以将实名前年龄作为用于模型训练的操作特征。参考表1和表2可知,未成年人游戏玩家在节假日有过多次换绑操作,因此可以将设备登录特征作为用于模型训练的操作特征。参考表3可知,成年人更偏爱玩端游,未成年人集中玩手游,因此,可以将运行平台特征作为用于模型训练的操作特征。
87.表1
88.89.表2
90.月份游戏a人均绑定自然人数游戏b人均绑定自然人数2021050.970.982021060.970.982021070.970.982021080.960.982021091.611.64
91.表3
[0092][0093]
其中,正样本表示未成年玩家,负样本表示成年玩家。
[0094]
上述实施例中,训练操作数据包括各式各样的数据,有助于保障模型的训练效果。
[0095]
在一个实施例中,获取训练对象对应的训练操作数据和训练标签,包括:
[0096]
对训练对象在目标应用中的操作数据进行统计分析,得到初始操作数据;初始操作数据包括多个初始操作特征;从各个初始操作特征中确定多个目标操作特征;将各个目标操作特征进行特征交叉,得到交叉操作数据;基于初始操作数据和交叉操作数据得到训练操作数据。
[0097]
其中,特征交叉是指通过将单独的特征进行组合而形成的合成特征。特征交叉有助于表示非线性关系。
[0098]
具体地,在获取训练操作数据时,计算机设备可以对训练对象在目标应用中的操作数据进行统计分析得到初始操作数据,将初始操作数据作为训练操作数据。为了进一步提高模型的训练效果,计算机设备还可以从初始操作数据包含的多个初始操作特征中选取部分操作特征作为目标操作特征,对目标操作特征进行特征交叉,得到至少一个交叉操作特征,将各个交叉操作特征组成交叉操作数据,最终将初始操作数据和交叉操作数据作为训练操作数据。
[0099]
目标操作特征的选取可以根据实际需要来确定。例如,计算机设备可以从初始操作特征中随机选取多个操作特征作为目标操作特征。计算机设备也可以从初始操作特征中获取属于不同维度的操作特征作为目标操作特征,对不同维度的操作特征进行特征交叉可以提高交叉操作特征所表达的信息量。计算机设备也可以从初始操作特征中获取不同类型对象之间差异最大的多个操作特征作为目标操作特征,进而得到的交叉操作特征有助于帮助模型区分不同类型的对象。
[0100]
在一个实施例中,计算机设备可以将不同的目标操作特征进行特征值相乘得到交叉操作特征。计算机设备也可以对目标操作特征的特征值范围进行划分,得到多个特征值区间,将不同类别的目标操作特征的特征值区间进行组合,得到多个组合区间,基于各个组
合区间得到初始特征,基于不同类别的目标操作特征的特征值所属特征值区间,对初始特征进行更新,得到交叉操作特征。
[0101]
例如,操作时长可以划分为3个特征值区间,分别为a、b、c,目标关联对象比例可以划分为2个特征值区间,分别为1和2。对特征值区间进行组合得到6个合并区间,分别为a and 1、b and 1、c and 1、a and 2、b and 2、c and2。根据6个合并区间生成初始特征(0,0,0,0,0,0)。若某一对象对应的操作时长落入特征值区间a,目标关联对象比例落入特征值区间2,那么基于该操作时长和目标关联对象比例对初始特征进行更新得到的交叉操作特征为(0,0,0,1,0,0)。
[0102]
上述实施例中,训练操作数据包括原始的操作数据和经过特征交叉得到的操作数据,基于这样的数据进行模型训练有助于提高模型的准确性。
[0103]
通过实验测试采用特征交叉和不采用特征交叉进行模型训练的模型效果,实验结果如表4所示。参考表4可知,特征交叉有助于保障模型的训练效果,提高模型预测准确性。
[0104]
表4
[0105]
训练数据auc值准确率召回率f1值负样本假阳率没有特征交叉0.9480.7410740.60.6630.047有特征交叉0.9620.761590.620.6690.039模型效果的提升幅度1.48%2.77%3.33%0.90%-17.02%
[0106]
其中,auc值是指roc曲线与x轴围成的面积,取值越接近1,说明模型优化效果越好。准确率是指预测正确类别的样本数/总样本数。召回率是指所有正例样本中预测正确的比例。f1值是指精确率和召回率的调和平均数。假阳率是指预测为正例的样本占实际负例样本数量的比例,例如,在游戏应用中,假阳率可以是实际为成年人玩家,但被判断为未成年玩家的概率。
[0107]
在一个实施例中,基于训练操作数据和训练标签生成初始决策树,包括:
[0108]
基于训练操作数据和训练标签生成第一基础决策树;将训练操作数据输入第一基础决策树,得到初始预测结果;基于初始预测结果和训练标签,调整第一基础决策树的决策树参数,直至满足第二收敛条件,得到初始决策树。
[0109]
具体地,基础决策树是指初始化的决策树,待训练的决策树。在生成初始决策树时,计算机设备可以先基于训练操作数据和训练标签生成一棵初始化的决策树作为第一基础决策树,再对第一基础决策树进行迭代训练,逐步调整第一基础决策树的决策树参数,直至满足第二收敛条件,表明训练完成,得到初始决策树。
[0110]
在得到第一基础决策树后,计算机设备可以将训练操作数据输入第一基础决策树,第一基础决策树输出初始预测结果,进而计算机设备基于初始预测结果和训练标签之间的差异进行反向传播更新,调整第一基础决策树的决策树参数,得到新的第一基础决策树,将训练操作数据输入新的第一基础决策树,得到新的初始预测结果,基于新的初始预测结果和训练标签之间的差异进行反向传播更新,再次调整第一基础决策树的决策树参数,如此迭代训练,每次的调整目标是使得初始预测结果和训练标签之间的差异越来越小,直至满足第二收敛条件,得到初始决策树。
[0111]
其中,调整决策树参数可以是调整决策树形态,例如,调整决策树的分裂点,调整决策树参数也可以是调整决策树节点的节点参数。第二收敛条件可以是初始预测结果和训
练标签之间的差异小于预设差异、迭代次数小于预设次数等中的至少一种。
[0112]
在一个实施例中,计算机设备可以基于多个训练对象的训练操作数据和训练标签计算各种训练操作特征对应的特征重要度,基于特征重要度从各种训练操作特征中确定最优分裂特征和最优分裂特征对应的最优分裂点,基于最优分裂特征对应的最优分裂点将特征空间划分为两个区域,并将各个训练操作数据根据最优分裂特征的取值分配到两个区域中,对每个区域重复上述划分过程,直至满足划分停止条件,得到多个区域。将每次空间划分时采用的最优分裂点作为决策树节点,按照划分顺序连接各个决策树节点,得到第一基础决策树。特征重要度用于表征特征对预测结果的影响程度,也可以认为是特征的分类能力。
[0113]
上述实施例中,基于训练操作数据和训练标签生成的第一基础决策树具有基本、相对完整的决策树形态,在第一基础决策树上通过迭代训练可以快速训练得到初始决策树。
[0114]
在一个实施例中,训练对象包括多个,训练操作数据包括多个训练操作特征。基于训练操作数据和训练标签生成第一基础决策树,包括:
[0115]
对同一类别对应的各个训练操作特征进行分箱处理,得到各个类别分别对应的特征分箱集合;特征分箱集合包括多个特征分箱;基于各个当前特征分箱对应的训练标签计算各个当前特征分箱分别对应的第一分裂系数;基于同一类别对应的各个当前特征分箱的第一分裂系数确定第二分裂系数,得到各个类别分别对应的第二分裂系数,基于第二分裂系数从各个类别中确定目标类别,基于目标类别对应的各个当前特征分箱的第一分裂系数,从目标类别对应的各个当前特征分箱中确定目标特征分箱;基于目标特征分箱生成决策树节点;基于目标特征分箱更新剩余类别对应的特征分箱,得到各个类别对应的更新特征分箱,将更新特征分箱作为当前特征分箱,返回基于各个当前特征分箱对应的特征数量和训练标签计算各个当前特征分箱分别对应的第一分裂系数的步骤执行,直至满足第一预设条件,得到各个决策树节点;基于各个决策树节点生成第一基础决策树。
[0116]
其中,分箱处理是指对杂乱的特征进行分组,将杂乱的特征分配到若干个有序排列的箱子中。计算机设备可以采用等频分箱、等长分箱、卡方分箱、自定义分箱等方式进行分箱处理。通过等频分箱得到的各个特征分箱具有数量相同的特征。通过等长分箱得到的各个特征分箱的特征范围长度相同。卡方分箱是基于卡方检验的分箱方法。自定义分箱是指自定义分箱分割点的分箱方法。
[0117]
具体地,计算机设备可以对同一类别对应的各个训练操作特征进行分箱处理,得到各个类别分别对应的特征分箱集合。例如,训练操作数据包括操作时长和目标关联对象数量,对各个训练对象对应的操作时长进行分箱处理,得到操作时长对应的特征分箱集合,对各个训练对象对应的目标关联对象数量进行分箱处理,得到目标关联对象数量对应的特征分箱集合。一个特征分箱集合包括多个特征分箱。
[0118]
以特征分箱为单位,计算机设备可以基于当前特征分箱对应的特征数量和训练标签计算第一分裂系数,得到各个当前特征分箱分别对应的第一分裂系数。第一分裂系数用于确定某一类别特征对应的最优分裂点。计算机设备可以基于自定义公式或算法计算第一分裂系数。进而,计算机设备可以基于同一类别对应的各个当前特征分箱的第一分裂系数确定第二分裂系数,得到各个类别分别对应的第二分裂系数。第二分裂系数用于确定最优
分裂特征。例如,若第一分裂系数越小,表明对应的分裂方式对不同对象的区分度越高,那么可以将同一类别对应的各个第一分裂系数从小到大进行排序,计算机设备可以获取最小值作为第二分裂系数,也可以获取排序靠前的若干个第一分裂系数的平均值作为第二分裂系数。计算机设备可以基于第二分裂系数从各个类别中确定目标类别,例如,若第二分裂系数越小,表明对应的分裂方式对不同对象的区分度越高,对应类别的操作特征的特征重要度越高,那么可以将数值最小的第二分裂系数所对应的类别作为目标类别。目标类别可以认为是当前查找到的最优分裂特征。进一步的,计算机设备基于目标类别对应的各个第一分裂系数,从目标类别对应的各个当前特征分箱中确定目标特征分箱,例如,若第一分裂系数越小,表明对应的分裂方式对不同对象的区分度越高,那么可以将数值最小的第一分裂系数所对应的特征分箱中作为目标特征分箱。目标特征分箱可以认为是最优分裂特征对应的最优分裂点。
[0119]
在得到最优分裂特征对应的最优分裂点后,计算机设备可以基于目标特征分箱生成决策树节点,基于目标特征分箱将特征空间划分为两个区域,不同的区域对应决策树节点不同的分支。例如,目标特征分箱为操作时长在9-11小时,决策树节点可以为操作时长是否大于9小时,操作时长大于9小时为一个决策树分支,操作时长小于或等于9小时为另一个决策树分支。决策树节点可以为目标特征分箱对应的特征值范围中任意一个特征值。
[0120]
计算机设备可以基于目标特征分箱更新剩余类别对应的特征分箱,也就是,将各个训练对象对应的训练操作数据划分到特征空间的各个区域中,划分到不同的决策树分支上,根据划分结果更新剩余类别对应的特征分箱。例如,决策树节点为操作时长是否大于9小时,在更新前,注册时长对应的特征分箱a包括10个训练对象的数据,在更新后,针对第一区域或第一分支,注册时长对应的特征分箱a包括6个训练对象的数据,这6个训练对象的操作时长大于9小时,针对第二区域或第二分支,注册时长对应的特征分箱a包括4个训练对象的数据,这4个训练对象的操作时长小于或等于9小时。
[0121]
计算机设备可以选取任意一个分支、任意一个区域对应的更新后特征分箱作为更新特征分箱,得到各个类别对应的更新特征分箱。可以理解,已经生成的决策树节点所对应的类别可以不再参与后续的数据处理。计算机设备将更新特征分箱作为当前特征分箱,重复上述步骤,从剩余类别中确定新的最优分裂特征和最优分裂特征对应的最优分裂点,生成新的决策树节点,以此类推,直至满足第一预设条件,得到多个决策树节点。
[0122]
最终,将各个决策树节点按照生成顺序依次连接,从而得到第一基础决策树。可以理解,若某一决策树分支下没有基于分裂系数生成新的决策树节点,那么可以在该决策树分支下直接连接一个叶子节点。每个决策树节点对应的节点参数可以是随机初始化的,也可以是基于对应的第二分裂系数生成的。第一基础决策只是一个初始化的决策树,决策树形态和节点参数后续通过多次迭代是会调整变化的,例如,将若干个决策树节点进行合并、分裂出新的决策树节点等。
[0123]
其中,第一预设条件可以是决策树深度大于预设深度、决策树节点对应的特征分箱的分箱范围大于预设分箱范围等中的至少一种。
[0124]
上述实施例中,基于第一分裂系数和第二分裂系数,可以从训练操作特征中快速选取最优分裂特征和最优分裂点,从而快速生成决策树节点,进而得到基础决策树。
[0125]
在一个实施例中,对同一类别对应的各个训练操作特征进行分箱处理,得到各个
类别分别对应的特征分箱集合,包括:
[0126]
对当前类别对应的各个训练操作特征进行初始分箱,得到多个候选分箱,将候选分箱作为当前分箱;基于各个当前分箱对应的训练标签,计算相邻当前分箱对应的分箱合并系数;基于分箱合并系数对相邻当前分箱进行分箱合并,得到多个合并分箱;将合并分箱作为当前分箱,返回基于各个当前分箱对应的训练标签,计算相邻当前分箱对应的分箱合并系数的步骤执行,直至满足第二预设条件,得到当前类别对应的多个特征分箱;基于当前类别对应的各个特征分箱得到当前类别对应的特征分箱集合。
[0127]
具体地,在进行分箱处理时,可以先进行初始分箱,再进行分箱合并,逐步优化分箱结果,最终得到特征分箱集合。针对任意一个类别,计算机设备可以对当前类别对应的各个训练操作特征进行初始分箱,得到多个候选分箱。例如,将同一类别对应的各个训练操作特征按照特征值从小到大进行排序,随机确定若干个分箱分割点,基于分箱分割点对训练操作特征的取值范围进行切分,得到多个特征值区间,一个特征值区间对应一个候选分箱,将各个训练对象的训练操作特征根据特征值落入的特征值区间放入对应的候选分箱。
[0128]
针对任意一个类别,计算机设备将候选分箱作为当前分箱,基于各个当前分箱对应的训练标签,计算相邻当前分箱对应的分箱合并系数。分箱合并系数用于表示相邻特征分箱中数据分布的相似性,例如,可以基于一个特征分箱中各种训练标签的标签数量计算各种训练标签对应的标签占比,基于相邻特征分箱中同一种训练标签对应的标签占比的差异得到分箱合并系数。计算机设备基于分箱合并系数对相邻当前分箱进行分箱合并,将数据分布相似的至少一组相邻特征分箱进行合并,其他相邻特征分箱保持不变,从而得到多个合并分箱。例如,若分箱合并系数越小,表示相邻特征分箱的数据分布越相似,那么在一轮数据处理中,可以将分箱合并系数最小的相邻特征分箱进行合并,得到一个合并分箱,将其他特征分箱分别作为合并分箱,从而得到多个合并分箱。计算机设备可以将合并分箱作为当前分箱,重复上述步骤,计算新的分箱合并系数,进行新一轮的分箱合并,以此类推,直至满足第二预设条件,得到当前类别对应的多个特征分箱。最后,当前类别对应的各个特征分箱组成当前类别对应的特征分箱集合。
[0129]
其中,第二预设条件可以是特征分箱数量小于或等于预设分箱数量、各个分箱合并系数大于预设系数等中的至少一种。例如,若预设分箱数量为10,在某一轮数据处理后,合并分箱的数量从11减少到10,那么可以停止分箱合并。在某一轮数据处理后,基于最新的各个合并分箱对应的标签数量计算得到的各个分箱合并系数均大于预设系数,那么可以停止分箱合并。
[0130]
在一个实施例中,可以通过以下公式计算分箱合并系数:
[0131][0132][0133]
其中,a
ij
表示针对某一类别的特征,第i个分箱中第j种训练标签对应的标签数量。e
ij
表示a
ij
的期望概率。n表示针对某一类别的特征,训练标签的标签总数量,ni表示针对某一类别的特征,第i个分箱对应的标签数量,cj表示针对某一类别的特征,第j种训练标签在
所有训练标签中的占比。
[0134]
上述实施例中,分箱合并可以将分布相似的数据集合在一个特征分箱中,从而最终得到的特征分箱集合中不同特征分箱之间具备一定数据差异,这样的特征分箱集合有助于在模型训练时提高模型的收敛速度。
[0135]
在一个实施例中,将基于上述方式进行分箱处理得到的特征分箱集合应用于模型训练,对训练好的模型进行数据验证,得到的未成年认证比例为7.3%,假阳率5.9%。其中,未成年认证比例是指在实名认证对象中,未成年对象人数占比。
[0136]
在一个实施例中,时长的特征分箱结果可以如表5所示,表5的分箱结果是对大量对象的操作时长进行聚类分析得到的。将这样的分箱结果应用于模型训练,对训练好的模型进行数据验证,得到的未成年认证比例为6.4%,假阳率为5.1%。
[0137]
表5
[0138][0139]
在一个实施例中,时长的特征分箱结果可以如表6所示,表6是等长分箱,目的是让模型自己去学习用于生成决策树节点的最优分裂点。将这样的分箱结果应用于模型训练,对训练好的模型进行数据验证,得到的未成年认证比例为8.5%,假阳率4.2%。
[0140]
表6
[0141][0142]
在一个实施例中,基于各个当前特征分箱对应的训练标签计算各个当前特征分箱分别对应的第一分裂系数,包括:
[0143]
从同一类别对应的各个当前特征分箱中确定参考特征分箱,基于参考特征分箱将同一类别对应的各个当前特征分箱划分为第一类分箱和第二类分箱;基于第一类分箱和第二类分箱分别对应的标签总数,得到第一类分箱和第二类分箱分别对应的标签比例;基于当前类分箱中各种训练标签对应的标签数量和当前类分箱对应的标签总数,得到当前类分箱对应的标签分布系数;基于第一类分箱和第二类分箱对应的标签比例和标签分布系数,得到参考特征分箱对应的第一分裂系数。
[0144]
具体地,在计算第一分裂系数时,可以先将某一类别对应的某一特征分箱作为候选分裂点,基于候选分裂点将该类别对应的各个训练操作特征划分为两类数据,计算任意一类数据对应的标签比例和标签分布系数,融合各类数据对应的标签比例和标签分布系数得到候选分裂点对应的第一分裂系数。
[0145]
计算机设备可以从同一类别对应的各个当前特征分箱中将任意一个当前特征分
箱作为参考特征分箱,基于参考特征分箱将同一类别对应的各个当前特征分箱划分为第一类分箱和第二类分箱。例如,将同一类别对应的各个当前特征分箱按照特征值从小到大排序,将排列在参考特征分箱之前的当前特征分箱作为第一类分箱,将排列在参考特征分箱之后的当前特征分箱和参考特征分箱作为第二类分箱。接着,针对第一类分箱或第二类分箱,计算机设备统计落入当前类分箱的各个特征对应的训练标签的标签数量,得到第一类分箱和第二类分箱对应的标签总数,基于第一类分箱和第二类分箱分别对应的标签总数计算标签比例,得到第一类分箱和第二类分箱分别对应的标签比例。例如,第一类分箱对应的标签总数为5,第二类分箱对应的标签总数为10,那么第一类分箱对应的标签比例为5/15,第二类分箱对应的标签比例为10/15。进而,针对第一类分箱或第二类分箱,计算机设备统计当前类分箱中各种训练标签对应的标签数量,基于当前类分箱中各种训练标签对应的标签数量和当前类分箱对应的标签总数计算标签分布系数,得到第一类分箱和第二类分箱分别对应的标签分布系数。最后,基于第一类分箱和第二类分箱对应的标签比例和标签分布系数计算参考特征分箱对应的第一分裂系数。例如,将同一类分箱对应的标签比例和标签分布系数进行融合,得到第一类分箱和第二类分箱对应的初始融合结果,再融合第一类分箱和第二类分箱对应的初始融合结果,得到第一分裂系数。
[0146]
以此类推,最终可以计算得到各个当前特征分箱分别对应的第一分裂系数。
[0147]
在一个实施例中,可以通过以下公式计算第一分裂系数:
[0148][0149][0150]
其中,gini(d,a)表示特征分箱a对应的第一分裂系数。d1表示第一类分箱,d2表示第二类分箱,d表示由某一类别对应的特征分箱集合。根据特征分箱a可以将d划分为d1和d2。表示第一类分箱对应的标签比例,表示第二类分箱对应的标签比例。gini(d1)表示第一类分箱对应的标签分布系数,gini(d2)表示第二类分箱对应的标签分布系数。pk表示在di中,第k种训练标签对应的标签占比,例如,第一类分箱包括100个特征,其中40个特征对应的训练标签为第一标签,也就是,第一类分箱的标签总数为100,第一标签对应的标签数量为40,第一标签对应的标签占比为40/100=0.4。
[0151]
上述实施例中,基于第一类分箱和第二类分箱对应的标签比例和标签分布系数可以快速计算得到的第一分裂系数,该第一分裂系数可以表征对应的分裂点对于不同对象、不同标签的区分能力。
[0152]
在一个实施例中,基于同一类别对应的各个当前特征分箱的第一分裂系数确定第二分裂系数,得到各个类别分别对应的第二分裂系数,基于第二分裂系数从各个类别中确定目标类别,基于目标类别对应的各个当前特征分箱的第一分裂系数,从目标类别对应的各个当前特征分箱中确定目标特征分箱,包括:
[0153]
从同一类别对应的各个第一分裂系数中获取数值最小的第一分裂系数作为第二分裂系数,得到各个类别分别对应的第二分裂系数;获取数值最小的第二分裂系数对应的
类别作为目标类别;从目标类别对应的各个第一分裂系数中,获取数值最小的第一分裂系数对应的当前特征分箱作为目标特征分箱。
[0154]
具体地,第一分裂系数越小,表明对应的分裂方式对不同对象的区分度越高,因此,计算机设备可以从同一类别对应的各个第一分裂系数中获取数值最小的第一分裂系数作为第二分裂系数,得到各个类别分别对应的第二分裂系数。第二分裂系数越小,表明特征重要度越高,因此,计算机设备可以获取数值最小的第二分裂系数所对应的类别作为目标类别,得到最优分裂特征。进一步的,针对目标类别对应的各个当前特征分箱,计算机设备可以获取数值最小的第一分裂系数所对应的当前特征分箱作为目标特征分箱,得到最优分裂特征对应的最优分裂点。
[0155]
在一个实施例中,基于训练标签、本轮预测结果和历史轮预测结果生成预测误差,包括:
[0156]
融合本轮预测结果和历史轮预测结果得到融合预测结果,对融合预测结果进行映射处理,得到目标预测标签;基于训练标签和目标预测标签之间的差异生成预测损失;计算预测损失的损失梯度,基于损失梯度得到预测误差。
[0157]
其中,映射处理用于将融合预测结果映射到预设范围内,以便区分对应不同类型对象的最终预测结果。
[0158]
具体地,在计算预测误差时,计算机设备先融合本轮预测结果和历史轮预测结果得到融合预测结果,将融合预测结果映射到预设范围内,得到目标预测标签,再将训练标签和目标预测标签代入损失函数,并计算损失函数的梯度,得到预测损失的损失梯度,最终基于损失梯度得到预测误差。损失函数用于计算训练标签和目标预测标签之间的差异。
[0159]
在一个实施例中,基于损失梯度得到预测误差,包括:基于损失调整步长调整损失梯度,得到预测误差。具体地,在基于损失梯度生成预测误差时,可以基于损失调整步长调整损失梯度,从而得到预测误差。损失调整步长用于控制模型的学习进度,保障模型的学习效果。
[0160]
在一个实施例中,可以通过以下公式计算预测误差:
[0161][0162][0163]
其中,δl表示预测误差,也可以称为预测残差,是下一决策树的拟合目标。η表示损失调整步长,也可以称为学习率。表示损失函数,用于计算训练标签和目标预测标签之间的差异,例如,可以采用对数函数、指数函数等。y表示训练标签,表示目标预测标签。f
t
(x)表示第t个决策树的预测结果,决策树的预测结果可以认为是输入数据到决策树输出的映射。在训练第t+1个决策树(即训练后向决策树)时,第t+1个决策树应该去拟合δl,也就是,要使得第t+1个决策树的预测结果与越接近越好。sigmoid表示sigmoid激活函数,用于将变量映射到0-1之间。
[0164]
上述实施例中,先融合现有预测结果,再对融合结果进行映射,可以将预测结果约束在预设范围内,得到规范的预测标签。基于训练标签和预测标签之间的损失梯度得到预测误差,将这样的预测误差作为决策树的拟合目标得到的决策树有助于提高整个模型的预测准确性,使得模型输出的预测标签和训练标签越来越接近。
[0165]
在一个实施例中,基于训练操作数据和预测误差生成当前决策树的后向决策树,包括:
[0166]
获取第二基础决策树;将训练操作数据输入第二基础决策树,得到基础预测结果;基于基础预测结果和预测误差之间的差异生成损失信息,基于损失信息调整第二基础决策树的模型参数,直至满足第三收敛条件,得到当前决策树的后向决策树。
[0167]
具体地,与生成初始决策的过程类似,在生成后向决策树时,计算机设备可以获取第二基础决策树,将训练操作数据作为第二基础决策树的输入数据,将预测误差作为第二基础决策树的预期输出数据,对第二基础决策树进行迭代训练,直至满足第三收敛条件,表明训练完成,得到后向决策树。
[0168]
因此,计算机设备可以将训练操作数据输入第二基础决策树,得到基础预测结果,基于基础预测结果和预测误差之间的差异生成损失信息,将损失信息进行反向传播更新,调整第二基础决策树的模型参数,得到新的第二基础决策树,将训练操作数据输入新的第二基础决策树,得到新的基础预测结果,基于新的基础预测结果和预测误差之间的差异生成新的损失信息进行反向传播更新,再次调整第二基础决策树的决策树参数,如此迭代训练,每次的调整目标是使得基础预测结果和预测误差之间的差异越来越小,直至满足第三收敛条件,得到当前决策树的后向决策树。
[0169]
其中,第二基础决策树和第一基础决策树可以相同可以不同。第二基础决策树也可以是预先人为设置的。可以理解,即使第二基础决策树和第一基础决策树相同,由于训练目标不同,最终训练得到的决策树也是有差异的。第三收敛条件可以是基础预测结果和预测误差之间的差异小于预设差异、迭代次数小于预设次数等中的至少一种。可以理解,不同收敛条件对应的预设差异和迭代次数可以相同可以不同。
[0170]
上述实施例中,将训练操作数据作为后向决策树的输入数据,将预测误差作为后向决策树的预期输出,训练得到的后向决策树的预测结果可以作为前向决策树的预测结果的补充数据,从而融合各个决策树的预测结果可以得到比较准确的预测标签。
[0171]
在一个实施例中,如图4所示,提供了一种对象分类方法,以该方法应用于计算机设备来举例说明,该计算机设备可以是上述图1中的终端102或服务器104。参考图4,对象分类方法包括以下步骤:
[0172]
步骤s402,获取目标对象对应的目标操作数据;目标操作数据是基于目标对象在目标应用中的操作数据得到的。
[0173]
步骤s404,将目标操作数据输入对象分类模型,得到目标对象对应的预测标签;预测标签用于确定目标对象在目标应用中的操作权限,预测标签是融合对象分类模型中各个决策树的预测结果得到的。
[0174]
其中,对象分类模型的训练过程包括以下步骤:获取训练对象对应的训练操作数据和训练标签;基于训练操作数据和训练标签生成初始决策树,将初始决策树作为当前决策树;将训练操作数据输入当前决策树得到本轮预测结果,基于训练标签、本轮预测结果和
历史轮预测结果生成预测误差;基于训练操作数据和预测误差生成当前决策树的后向决策树,将后向决策树作为当前决策树,返回将训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;基于初始决策树和各个后向决策树生成对象分类模型。
[0175]
可以理解,对象分类模型的具体训练过程可以参照前述各个相关实施例的内容,此处不再赘述。
[0176]
具体地,计算机设备可以基于训练完成的对象分类模型对目标对象进行分类,以确定目标对象在目标应用中的操作权限。计算机设备可以获取目标对象对应的目标操作数据,将目标操作数据输入对象分类模型,目标操作数据被输入至初始决策树和各个后向决策树,经过决策树的数据处理,初始决策树和各个后向决策树分别输出预测结果,对象分类模型融合各个决策树的预测结果最终输出目标对象对应的预测标签。
[0177]
在一个实施例中,在得到初始决策树和各个后向决策树分别输出的预测结果后,可以先融合各个预测结果得到融合预测结果,再对融合预测结果进行映射处理,得到预测标签。
[0178]
上述对象分类方法,通过将目标对象对应的目标操作数据输入由多个决策树生成的对象分类模型,对象分类模型通过融合初始决策树和各个后向决策树的预测结果输出目标对象对应的预测标签。基于训练操作数据和训练标签可以训练得到对象分类模型,基于对象分类模型对对象进行分类,可以提高对象的分类准确性和效率。并且,对象分类模型包括多个决策树,各个后向决策树通过学习前向决策树预测结果和训练标签之间的误差得到,后向决策树可以在前向决策树的基础上提高模型的准确性,从而对象分类模型通过融合各个决策树的预测结果可以得到更准确的预测标签,进一步提高对象的分类准确性。
[0179]
在一个实施例中,所述方法还包括:
[0180]
当预测标签为目标标签时,生成对象认证请求,将对象认证请求发送至目标对象对应的目标终端;获取目标终端根据对象认证请求返回的认证信息,基于认证信息确定目标对象的认证结果;当认证结果为认证不通过时,限制目标对象在目标应用中的操作时长。
[0181]
其中,目标标签用于表示模型预测出某一对象属于目标类型对象。目标类型对象在目标应用中的操作权限为受限制。对象认证请求用于确定目标对象的身份,以进一步确定目标对象是否为目标类型对象。
[0182]
具体地,为了提高目标对象的分类准确性,计算机设备可以基于预测标签和认证信息综合确定目标对象在目标应用中的操作权限。若基于对象分类模型确定目标对象对应的预测标签不是目标标签,可以认为目标对象属于目标类型对象的可能性较低,此时可以直接不限制目标对象在目标应用中的操作。若基于对象分类模型确定目标对象对应的预测标签为目标标签,可以认为目标对象属于目标类型对象的可能性较高,为了进一步确定目标对象是否为目标类型对象,计算机设备可以生成对象认证请求,并发送至目标对象对应的目标终端。目标终端可以根据对象认证请求采集目标对象的个人信息作为认证信息,例如,采集目标对象的人脸信息、证件信息、通信联络信息等中的至少一种数据作为认证信息,将认证信息反馈至计算机设备。计算机设备可以基于认证信息确定目标对象的身份信息,得到目标对象的认证结果,例如,将认证信息和注册信息进行匹配得到认证结果。若认证结果表明目标对象不是目标类型对象,则确定认证结果为认证通过,若认证结果表明目
标对象是目标类型对象,则确定认证结果为认证不通过。因此,若认证结果为认证不通过,则确定目标对象为目标类型对象,需要限制目标对象在目标应用中的操作,例如,限制目标对象在目标应用中的操作时长、限制目标对象在目标应用中的虚拟资源转移份额(例如,游戏币、充值等)等。
[0183]
在一个实施例中,认证信息可以是人脸信息,基于人脸信息对目标对象进行实名认证,若人脸信息和账号注册信息中的实名身份信息匹配,则表明目标对象为成年人,确定认证结果为认证通过,若人脸信息和账号注册信息中的实名身份信息不匹配,则确定认证结果为认证不通过,可以认为目标对象为未成年人,未成年人在目标应用中使用了成年人的账号。
[0184]
在一个实施例中,预测标签可以用概率来表示。若预测标签大于预设概率,则确定预测标签为目标标签。预设概率可以根据实际需要进行设置,例如,设置为0.5。
[0185]
上述实施例中,先基于对象分类模型初步判断目标对象是否为目标类型对象,若初步判断结果表明目标对象不是目标类型对象,就无需进行后续数据处理,节约资源,若初步判断结果表明目标对象为目标类型对象,则进一步根据目标对象的认证信息判断目标对象是否为目标类型对象。若认证结果再次表明目标对象为目标类型对象,则最终确定目标对象为目标类型对象,进而限制目标对象在目标应用中的操作。通过模型预测和信息认证的双重操作,可以进一步提高对象的分类准确性。
[0186]
在一个具体的实施例中,本技术的对象分类方法可以应用于游戏应用中。根据国家颁发的未成年保护政策,未成年在游戏应用中的操作是受限制的,例如,未成年仅可在周五~周日或法定节假日每日20~21点这1个小时内玩游戏,其它时间段都不能玩游戏。参考图5,在本技术的对象分类方法中,通过集成模型(即对象分类模型)识别节假日时间段玩游戏的游戏玩家是否为可疑未成年人,若识别结果表明游戏玩家不是可疑未成年人,则不限制游戏玩家玩游戏,若识别结果表明游戏玩家是可疑未成年人,则对可疑未成年人在非游戏时段进行人脸弹窗,通过人脸弹窗采集到的信息进行实名认证。若实名认证通过,可以认为游戏玩家为成年人,则不限制游戏玩家玩游戏,若实名认证不通过,可以认为游戏玩家为未成年人,限制游戏玩家玩游戏。
[0187]
参考图6,基于正负样本和各个样本对应的玩家特征训练用于查找可疑未成年玩家的集成模型,最终训练得到的集成模型可以称为高危模型。将待识别玩家的玩家特征输入高危模型,高危模型预测待识别玩家属于可疑未成年玩家的概率,若预测概率大于或等于0.5,则确定待识别玩家为可疑未成年玩家。
[0188]
模型的训练数据:正样本表示未成年玩家,负样本表示成年玩家。玩家特征来源于游戏上报日志,具体包括基础属性数据(即玩家画像属性)、对局数据、时长数据、可疑设备数据、未成年好友数据、注册及游戏品类数据。基础属性数据包括实名前年龄、实名前性别、实名前终端、实名前型号、实名前网络、实名前区域分类(一线、二线、三线城市等)、实名前操作系统等。对局数据包括7~8月对局胜率、对局平率、对局败率、各模式对局胜率、对局总次数、对局总天数、日均对局次数(对局总次数/有对局天数)、工作日日均有对局次数(工作日对局总数/有发生对局的工作日天数、周末&假期日均有对局次数(周末&假期对局总数/有发生对局的周末&假期天数)、周末&假期日均有对局次数占比总体日均有对局次数、周末&假期日均每个小时对局次数、周末&假期日均每个小时对局次数占比。时长数据包括7~
8月工作日日均时长、周末&假期日均时长、工作日各时段时长、周末&假期各时段时长、每天上午/中午/下午/晚上/深夜时长占比等。可疑设备数据包括历史以来登录的设备数、历史以来绑定的自然人数、7~8月登录的设备历史登录的账号数、7~8月绑定的自然人历史绑定的账号数、7~8月是否在可疑设备登录(指历史上有未成年登录的设备)等。未成年好友数据包括未成年好友数量、未成年好友比例、未成年好友亲密度总和等。注册及游戏品类数据包括注册年份、最早注册年份、近一个月端游活跃天数、近一个月端游活跃时长、近一个月手游活跃天数、近一个月手游活跃时长等。
[0189]
模型的训练过程:集成模型是一个加法模型,串行地训练一组cart(classification and regression tree,分类与回归树)决策树,基于所有决策树得到一个强学习器。在训练决策树时,每一颗决策树都拟合当前损失函数的负梯度方向,学习之前决策树预测结果的残差(残差是指预测值和真实值之间的差异)。集成模型的输出数据是融合各个决策树的预测结果得到的。
[0190]
模型训练时采用的各个重要参数:随机数种子(算法进行多轮迭代时,需要指定迭代的起始点):45;决策树个数:100;纯度(表示一个随机选中的样本在模型中被分正确的可能性):基尼系数;最大树深度(表示叶子节点与根节点的距离,最大树深度是停止决策树迭代的临界点,当决策树深度达到最大树深度时,决策树会停止分裂):6;特征最大装箱数:32;验证集比例(构造模型时,会将数据集切分成训练集、验证集,训练集数据用来构造模型,验证集数据用来检验模型的准确率):20%。
[0191]
基于验证集对高危模型的验证效果如表7所示。
[0192]
表7
[0193]
auc值0.961准确率0.703召回率0.598f1值0.613假阳率4.20%模拟投放未成年比例13.84%
[0194]
其中,模拟投放未成年比例是指实名认证对象中,未成年对象人数占比。
[0195]
进一步的,高危模型投入线上使用后的效果如表8所示。
[0196]
表8
[0197][0198]
参考表8可知,高危模型在12月1日~7日投放对象人脸弹窗效果中,日均未成年认证占比11.5%,是大盘整体的9.58倍,弹窗拦截率是大盘整体的1.25倍。其中,弹窗拦截率=(弹窗中未人脸通过的对象数/弹窗对象数)*100%。
[0199]
上述实施例中,结合对象画像属性、节假日游戏内对局数据、节假日游戏时段特
点、近一段时间内的时长特征、端游活跃行为、可疑设备及自然人等特征,利用集成模型算法进行建模,优化模型训练参数,从而训练得到集成模型。通过集成模型在节假日(例如暑期、国庆假期)玩游戏的玩家中准确高效识别哪些是未成年游戏玩家,进而限制未成年玩家玩游戏,防止未成年沉迷游戏。
[0200]
可以理解,本技术的对象分类方法还可以应用于其他应用中,例如,视频应用、电商应用等。
[0201]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0202]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的对象分类方法的对象分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个对象分类装置实施例中的具体限定可以参见上文中对于对象分类方法的限定,在此不再赘述。
[0203]
在一个实施例中,如图7所示,提供了一种对象分类装置700,包括:训练数据获取模块702、初始决策树生成模块704、预测误差计算模块706、后向决策树生成模块708和对象分类模型生成模块710,其中:
[0204]
训练数据获取模块702,用于获取训练对象对应的训练操作数据和训练标签;训练操作数据是基于训练对象在目标应用中的操作数据得到的,训练标签用于确定训练对象在目标应用中的操作权限。
[0205]
初始决策树生成模块704,用于基于训练操作数据和训练标签生成初始决策树,将初始决策树作为当前决策树。
[0206]
预测误差计算模块706,用于将训练操作数据输入当前决策树得到本轮预测结果,基于训练标签、本轮预测结果和历史轮预测结果生成预测误差。
[0207]
后向决策树生成模块708,用于基于训练操作数据和预测误差生成当前决策树的后向决策树,将后向决策树作为当前决策树,返回将训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树。
[0208]
对象分类模型生成模块710,用于基于初始决策树和各个后向决策树生成对象分类模型;对象分类模型用于将目标对象对应的目标操作数据输入初始决策树和各个后向决策树,并融合初始决策树和各个后向决策树的预测结果得到目标对象对应的预测标签。
[0209]
上述对象分类装置,基于训练操作数据和训练标签可以训练得到对象分类模型,基于对象分类模型对对象进行分类,可以提高对象的分类准确性和效率。并且,对象分类模型包括多个决策树,各个后向决策树通过学习前向决策树预测结果和训练标签之间的误差得到,后向决策树可以在前向决策树的基础上提高模型的准确性,从而对象分类模型通过融合各个决策树的预测结果可以得到更准确的预测标签,进一步提高对象的分类准确性。
[0210]
在一个实施例中,训练操作数据包括训练对象的对象属性特征、操作交互特征、操
作时长特征、设备登录特征、注册时间特征、运行平台特征、训练对象和目标关联对象之间的目标关联特征中的至少一种,目标关联对象是训练对象的各个关联对象中具备目标操作权限的关联对象。
[0211]
在一个实施例中,训练数据获取模块还用于对训练对象在目标应用中的操作数据进行统计分析,得到初始操作数据;初始操作数据包括多个初始操作特征;从各个初始操作特征中确定多个目标操作特征;将各个目标操作特征进行特征交叉,得到交叉操作数据;基于初始操作数据和交叉操作数据得到训练操作数据。
[0212]
在一个实施例中,初始决策树生成模块包括:
[0213]
基础决策树生成单元,用于基于训练操作数据和训练标签生成第一基础决策树;
[0214]
数据预测单元,用于将训练操作数据输入第一基础决策树,得到初始预测结果;
[0215]
参数调整单元,用于基于初始预测结果和训练标签,调整第一基础决策树的决策树参数,直至满足第二收敛条件,得到初始决策树。
[0216]
在一个实施例中,训练对象包括多个,训练操作数据包括多个训练操作特征。基础决策树生成单元还用于对同一类别对应的各个训练操作特征进行分箱处理,得到各个类别分别对应的特征分箱集合;特征分箱集合包括多个特征分箱;基于各个当前特征分箱对应的训练标签计算各个当前特征分箱分别对应的第一分裂系数;基于同一类别对应的各个当前特征分箱的第一分裂系数确定第二分裂系数,得到各个类别分别对应的第二分裂系数,基于第二分裂系数从各个类别中确定目标类别,基于目标类别对应的各个当前特征分箱的第一分裂系数,从目标类别对应的各个当前特征分箱中确定目标特征分箱;基于目标特征分箱生成决策树节点;基于目标特征分箱更新剩余类别对应的特征分箱,得到各个类别对应的更新特征分箱,将更新特征分箱作为当前特征分箱,返回基于各个当前特征分箱对应的特征数量和训练标签计算各个当前特征分箱分别对应的第一分裂系数的步骤执行,直至满足第一预设条件,得到各个决策树节点;基于各个决策树节点生成第一基础决策树。
[0217]
在一个实施例中,基础决策树生成单元还用于对当前类别对应的各个训练操作特征进行初始分箱,得到多个候选分箱,将候选分箱作为当前分箱;基于各个当前分箱对应的训练标签,计算相邻当前分箱对应的分箱合并系数;基于分箱合并系数对相邻当前分箱进行分箱合并,得到多个合并分箱;将合并分箱作为当前分箱,返回基于各个当前分箱对应的训练标签,计算相邻当前分箱对应的分箱合并系数的步骤执行,直至满足第二预设条件,得到当前类别对应的多个特征分箱;基于当前类别对应的各个特征分箱得到当前类别对应的特征分箱集合。
[0218]
在一个实施例中,基础决策树生成单元还用于从同一类别对应的各个当前特征分箱中确定参考特征分箱,基于参考特征分箱将同一类别对应的各个当前特征分箱划分为第一类分箱和第二类分箱;基于第一类分箱和第二类分箱分别对应的标签总数,得到第一类分箱和第二类分箱分别对应的标签比例;基于当前类分箱中各种训练标签对应的标签数量和当前类分箱对应的标签总数,得到当前类分箱对应的标签分布系数;基于第一类分箱和第二类分箱对应的标签比例和标签分布系数,得到参考特征分箱对应的第一分裂系数。
[0219]
在一个实施例中,基础决策树生成单元还用于从同一类别对应的各个第一分裂系数中获取数值最小的第一分裂系数作为第二分裂系数,得到各个类别分别对应的第二分裂系数;获取数值最小的第二分裂系数对应的类别作为目标类别;从目标类别对应的各个第
一分裂系数中,获取数值最小的第一分裂系数对应的当前特征分箱作为目标特征分箱。
[0220]
在一个实施例中,预测误差计算模块还用于融合本轮预测结果和历史轮预测结果得到融合预测结果,对融合预测结果进行映射处理,得到目标预测标签;基于训练标签和目标预测标签之间的差异生成预测损失;计算预测损失的损失梯度,基于损失梯度得到预测误差。
[0221]
在一个实施例中,后向决策树生成模块还用于获取第二基础决策树;将训练操作数据输入第二基础决策树,得到基础预测结果;基于基础预测结果和预测误差之间的差异生成损失信息,基于损失信息调整第二基础决策树的模型参数,直至满足第三收敛条件,得到当前决策树的后向决策树。
[0222]
在一个实施例中,如图8所示,提供了一种对象分类装置800,包括:数据获取模块802和标签预测模块804,其中:
[0223]
数据获取模块802,用于获取目标对象对应的目标操作数据;目标操作数据是基于目标对象在目标应用中的操作数据得到的。
[0224]
标签预测模块804,用于将目标操作数据输入对象分类模型,得到目标对象对应的预测标签;预测标签用于确定目标对象在目标应用中的操作权限,预测标签是融合对象分类模型中各个决策树的预测结果得到的;
[0225]
对象分类模型的训练过程包括以下步骤:获取训练对象对应的训练操作数据和训练标签;基于训练操作数据和训练标签生成初始决策树,将初始决策树作为当前决策树;将训练操作数据输入当前决策树得到本轮预测结果,基于训练标签、本轮预测结果和历史轮预测结果生成预测误差;基于训练操作数据和预测误差生成当前决策树的后向决策树,将后向决策树作为当前决策树,返回将训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;基于初始决策树和各个后向决策树生成对象分类模型。
[0226]
上述对象分类装置,通过将目标对象对应的目标操作数据输入由多个决策树生成的对象分类模型,对象分类模型通过融合初始决策树和各个后向决策树的预测结果输出目标对象对应的预测标签。基于训练操作数据和训练标签可以训练得到对象分类模型,基于对象分类模型对对象进行分类,可以提高对象的分类准确性和效率。并且,对象分类模型包括多个决策树,各个后向决策树通过学习前向决策树预测结果和训练标签之间的误差得到,后向决策树可以在前向决策树的基础上提高模型的准确性,从而对象分类模型通过融合各个决策树的预测结果可以得到更准确的预测标签,进一步提高对象的分类准确性。
[0227]
在一个实施例中,如图9所示,对象分类装置800还包括:
[0228]
对象认证模块806,用于当预测标签为目标标签时,生成对象认证请求,将对象认证请求发送至目标对象对应的目标终端;获取目标终端根据对象认证请求返回的认证信息,基于认证信息确定目标对象的认证结果;当认证结果为认证不通过时,限制目标对象在目标应用中的操作。
[0229]
上述对象分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0230]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结
构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对象分类模型、训练操作特征等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象分类方法。
[0231]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种对象分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0232]
本领域技术人员可以理解,图10、11中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0233]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0234]
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0235]
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
[0236]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0237]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以
通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0238]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0239]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
技术特征:
1.一种对象分类方法,其特征在于,所述方法包括:获取训练对象对应的训练操作数据和训练标签;所述训练操作数据是基于所述训练对象在目标应用中的操作数据得到的,所述训练标签用于确定所述训练对象在所述目标应用中的操作权限;基于所述训练操作数据和所述训练标签生成初始决策树,将所述初始决策树作为当前决策树;将所述训练操作数据输入当前决策树得到本轮预测结果,基于所述训练标签、本轮预测结果和历史轮预测结果生成预测误差;基于所述训练操作数据和所述预测误差生成当前决策树的后向决策树,将所述后向决策树作为当前决策树,返回将所述训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;基于所述初始决策树和各个后向决策树生成对象分类模型;所述对象分类模型用于将目标对象对应的目标操作数据输入所述初始决策树和所述各个后向决策树,并融合所述初始决策树和所述各个后向决策树的预测结果得到所述目标对象对应的预测标签。2.根据权利要求1所述的方法,其特征在于,所述训练操作数据包括所述训练对象的对象属性特征、操作交互特征、操作时长特征、设备登录特征、注册时间特征、运行平台特征、所述训练对象和目标关联对象之间的目标关联特征中的至少一种,所述目标关联对象是所述训练对象的各个关联对象中具备目标操作权限的关联对象。3.根据权利要求1所述的方法,其特征在于,所述获取训练对象对应的训练操作数据和训练标签,包括:对所述训练对象在所述目标应用中的操作数据进行统计分析,得到初始操作数据;所述初始操作数据包括多个初始操作特征;从各个初始操作特征中确定多个目标操作特征;将各个目标操作特征进行特征交叉,得到交叉操作数据;基于所述初始操作数据和所述交叉操作数据得到所述训练操作数据。4.根据权利要求1所述的方法,其特征在于,所述基于所述训练操作数据和所述训练标签生成初始决策树,包括:基于所述训练操作数据和所述训练标签生成第一基础决策树;将所述训练操作数据输入所述第一基础决策树,得到初始预测结果;基于所述初始预测结果和所述训练标签,调整所述第一基础决策树的决策树参数,直至满足第二收敛条件,得到所述初始决策树。5.根据权利要求4所述的方法,其特征在于,所述训练对象包括多个,所述训练操作数据包括多个训练操作特征;所述基于所述训练操作数据和所述训练标签生成第一基础决策树,包括:对同一类别对应的各个训练操作特征进行分箱处理,得到各个类别分别对应的特征分箱集合;所述特征分箱集合包括多个特征分箱;基于各个当前特征分箱对应的训练标签计算各个当前特征分箱分别对应的第一分裂系数;基于同一类别对应的各个当前特征分箱的第一分裂系数确定第二分裂系数,得到各个
类别分别对应的第二分裂系数,基于第二分裂系数从各个类别中确定目标类别,基于所述目标类别对应的各个当前特征分箱的第一分裂系数,从所述目标类别对应的各个当前特征分箱中确定目标特征分箱;基于所述目标特征分箱生成决策树节点;基于所述目标特征分箱更新剩余类别对应的特征分箱,得到各个类别对应的更新特征分箱,将更新特征分箱作为当前特征分箱,返回所述基于各个当前特征分箱对应的特征数量和训练标签计算各个当前特征分箱分别对应的第一分裂系数的步骤执行,直至满足第一预设条件,得到各个决策树节点;基于所述各个决策树节点生成所述第一基础决策树。6.根据权利要求5所述的方法,其特征在于,所述对同一类别对应的各个训练操作特征进行分箱处理,得到各个类别分别对应的特征分箱集合,包括:对当前类别对应的各个训练操作特征进行初始分箱,得到多个候选分箱,将候选分箱作为当前分箱;基于各个当前分箱对应的训练标签,计算相邻当前分箱对应的分箱合并系数;基于分箱合并系数对相邻当前分箱进行分箱合并,得到多个合并分箱;将合并分箱作为当前分箱,返回所述基于各个当前分箱对应的训练标签,计算相邻当前分箱对应的分箱合并系数的步骤执行,直至满足第二预设条件,得到所述当前类别对应的多个特征分箱;基于所述当前类别对应的各个特征分箱得到所述当前类别对应的特征分箱集合。7.根据权利要求5所述的方法,其特征在于,所述基于各个当前特征分箱对应的训练标签计算各个当前特征分箱分别对应的第一分裂系数,包括:从同一类别对应的各个当前特征分箱中确定参考特征分箱,基于参考特征分箱将同一类别对应的各个当前特征分箱划分为第一类分箱和第二类分箱;基于所述第一类分箱和所述第二类分箱分别对应的标签总数,得到所述第一类分箱和所述第二类分箱分别对应的标签比例;基于当前类分箱中各种训练标签对应的标签数量和所述当前类分箱对应的标签总数,得到所述当前类分箱对应的标签分布系数;基于所述第一类分箱和所述第二类分箱对应的标签比例和标签分布系数,得到所述参考特征分箱对应的第一分裂系数。8.根据权利要求5所述的方法,其特征在于,所述基于同一类别对应的各个当前特征分箱的第一分裂系数确定第二分裂系数,得到各个类别分别对应的第二分裂系数,基于第二分裂系数从各个类别中确定目标类别,基于所述目标类别对应的各个当前特征分箱的第一分裂系数,从所述目标类别对应的各个当前特征分箱中确定目标特征分箱,包括:从同一类别对应的各个第一分裂系数中获取数值最小的第一分裂系数作为第二分裂系数,得到所述各个类别分别对应的第二分裂系数;获取数值最小的第二分裂系数对应的类别作为所述目标类别;从所述目标类别对应的各个第一分裂系数中,获取数值最小的第一分裂系数对应的当前特征分箱作为所述目标特征分箱。9.根据权利要求1所述的方法,其特征在于,所述基于所述训练标签、本轮预测结果和
历史轮预测结果生成预测误差,包括:融合本轮预测结果和历史轮预测结果得到融合预测结果,对所述融合预测结果进行映射处理,得到目标预测标签;基于所述训练标签和所述目标预测标签之间的差异生成预测损失;计算所述预测损失的损失梯度,基于所述损失梯度得到所述预测误差。10.根据权利要求1所述的方法,其特征在于,所述基于所述训练操作数据和所述预测误差生成当前决策树的后向决策树,包括:获取第二基础决策树;将所述训练操作数据输入所述第二基础决策树,得到基础预测结果;基于所述基础预测结果和所述预测误差之间的差异生成损失信息,基于所述损失信息调整所述第二基础决策树的模型参数,直至满足第三收敛条件,得到当前决策树的后向决策树。11.一种对象分类方法,其特征在于,所述方法包括:获取目标对象对应的目标操作数据;所述目标操作数据是基于所述目标对象在目标应用中的操作数据得到的;将所述目标操作数据输入对象分类模型,得到所述目标对象对应的预测标签;所述预测标签用于确定所述目标对象在所述目标应用中的操作权限,所述预测标签是融合所述对象分类模型中各个决策树的预测结果得到的;所述对象分类模型的训练过程包括以下步骤:获取训练对象对应的训练操作数据和训练标签;基于所述训练操作数据和所述训练标签生成初始决策树,将所述初始决策树作为当前决策树;将所述训练操作数据输入当前决策树得到本轮预测结果,基于所述训练标签、本轮预测结果和历史轮预测结果生成预测误差;基于所述训练操作数据和所述预测误差生成当前决策树的后向决策树,将所述后向决策树作为当前决策树,返回将所述训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;基于所述初始决策树和各个后向决策树生成所述对象分类模型。12.根据权利要求11所述的方法,其特征在于,所述方法还包括:当所述预测标签为目标标签时,生成对象认证请求,将所述对象认证请求发送至所述目标对象对应的目标终端;获取所述目标终端根据所述对象认证请求返回的认证信息,基于所述认证信息确定所述目标对象的认证结果;当所述认证结果为认证不通过时,限制所述目标对象在所述目标应用中的操作。13.一种对象分类装置,其特征在于,所述装置包括:训练数据获取模块,用于获取训练对象对应的训练操作数据和训练标签;所述训练操作数据是基于所述训练对象在目标应用中的操作数据得到的,所述训练标签用于确定所述训练对象在所述目标应用中的操作权限;初始决策树生成模块,用于基于所述训练操作数据和所述训练标签生成初始决策树,
将所述初始决策树作为当前决策树;预测误差计算模块,用于将所述训练操作数据输入当前决策树得到本轮预测结果,基于所述训练标签、本轮预测结果和历史轮预测结果生成预测误差;后向决策树生成模块,用于基于所述训练操作数据和所述预测误差生成当前决策树的后向决策树,将所述后向决策树作为当前决策树,返回将所述训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;对象分类模型生成模块,用于基于所述初始决策树和各个后向决策树生成对象分类模型;所述对象分类模型用于将目标对象对应的目标操作数据输入所述初始决策树和所述各个后向决策树,并融合所述初始决策树和所述各个后向决策树的预测结果得到所述目标对象对应的预测标签。14.一种对象分类装置,其特征在于,所述装置包括:数据获取模块,用于获取目标对象对应的目标操作数据;所述目标操作数据是基于所述目标对象在目标应用中的操作数据得到的;标签预测模块,用于将所述目标操作数据输入对象分类模型,得到所述目标对象对应的预测标签;所述预测标签用于确定所述目标对象在所述目标应用中的操作权限,所述预测标签是融合所述对象分类模型中各个决策树的预测结果得到的;所述对象分类模型的训练过程包括以下步骤:获取训练对象对应的训练操作数据和训练标签;基于所述训练操作数据和所述训练标签生成初始决策树,将所述初始决策树作为当前决策树;将所述训练操作数据输入当前决策树得到本轮预测结果,基于所述训练标签、本轮预测结果和历史轮预测结果生成预测误差;基于所述训练操作数据和所述预测误差生成当前决策树的后向决策树,将所述后向决策树作为当前决策树,返回将所述训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;基于所述初始决策树和各个后向决策树生成所述对象分类模型。15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10或11至12中任一项所述的方法的步骤。16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10或11至12中任一项所述的方法的步骤。17.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10或11至12中任一项所述的方法的步骤。
技术总结
本申请涉及一种对象分类方法、装置、计算机设备、存储介质和计算机程序产品。基于训练对象对应的训练操作数据和训练标签生成初始决策树,将初始决策树作为当前决策树;将训练操作数据输入当前决策树得到本轮预测结果,基于训练标签、本轮预测结果和历史轮预测结果生成预测误差;基于训练操作数据和预测误差生成当前决策树的后向决策树,将后向决策树作为当前决策树,返回将训练操作数据输入当前决策树得到本轮预测结果的步骤执行,直至满足第一收敛条件,得到多个后向决策树;基于初始决策树和各个后向决策树生成的对象分类模型通过融合各个决策树针对目标对象的目标操作数据的预测结果得到目标对象对应的预测标签,可提高对象分类准确性。对象分类准确性。对象分类准确性。
技术研发人员:毕超波 黄嘉成 彭艺 刘明亮 郑磊
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.03.09
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种海洋灾害风险防控预警系统的制作方法 下一篇:冷库叉车专用交流电动机的制作方法