一种预测处理方法、装置、设备、介质及程序产品与流程
未命名
09-02
阅读:145
评论:0

1.本技术涉及计算机技术领域,具体涉及人工智能领域,尤其涉及一种预测处理方法、预测处理装置、计算机设备、计算机可读存储介质及计算机程序产品。
背景技术:
2.随着互联网技术的快速发展,可运行于互联网的产品(如能够实现车联网的应用业务等)层出不穷。对于产品决策者而言,实现对产品的运营情况的预判,对产品的发展和优化具有重要意义。例如,如果预测到产品在周期内的活跃对象的数量下降,那么可以及时调整产品的运营策略,以提高产品的运营效果。因此,如何实现对产品的预测成为研究热点话题。
技术实现要素:
3.本技术实施例提供一种预测处理方法、装置、设备、介质及程序产品,能够较好地对产品的对象活跃情况进行预测。
4.一方面,本技术实施例提供了一种预测处理方法,该方法包括:
5.响应于针对第t+1个周期的对象预测事件,获取第t+1个周期之前的n个周期的统计数据集,每个周期的统计数据集中包括:m种活跃分析类别下的统计数据,每个统计数据对应一种用于表征对象在目标应用业务中的活跃分析类别;m、n、t均为大于1的整数;
6.根据对象预测模型对n个周期的统计数据集进行预测处理,得到第t+1个周期的预测结果,预测结果用于指示第t+1个周期内在目标应用业务中处于活跃状态的总对象数据;
7.其中,对象预测模型是根据m组预测优化系数及数据处理规则,得到第t+1个周期内在目标应用业务中处于活跃状态的总对象数据的;m种活跃分析类别中的每一种活跃分析类别对应一组预测优化系数,数据处理规则用于获取处于活跃状态的总对象数据。
8.另一方面,本技术实施例提供了一种预测处理装置,该装置包括:
9.获取单元,用于响应于针对第t+1个周期的对象预测事件,获取第t+1个周期之前的n个周期的统计数据集,每个周期的统计数据集中包括:m种活跃分析类别下的统计数据,每个统计数据对应一种用于表征对象在目标应用业务中的活跃分析类别;m、n、t均为大于1的整数;
10.处理单元,用于根据对象预测模型对n个周期的统计数据集进行预测处理,得到第t+1个周期的预测结果,预测结果用于指示第t+1个周期内在目标应用业务中处于活跃状态的总对象数据;
11.其中,对象预测模型是根据m组预测优化系数及数据处理规则,得到第t+1个周期内在目标应用业务中处于活跃状态的总对象数据的;m种活跃分析类别中的每一种活跃分析类别对应一组预测优化系数,数据处理规则用于获取处于活跃状态的总对象数据。
12.在一种实现方式中,处理单元,用于获取第t+1个周期之前的n个周期的统计数据集时,具体用于:
13.根据第t+1个周期之前在时间上连续的q个周期的日志数据进行对象标识比较,q为大于或等于n的整数;
14.根据对象标识比较结果,获取n个周期的统计数据集;
15.其中,活跃分析类别包括:新增类别、留存类别、回流类别、流失类别中的任意一种或多种,n个周期的统计数据集包括:每种活跃分析类别下统计得到的对象标识的数量。
16.在一种实现方式中,根据对象标识比较结果,获取n个周期的统计数据集,包括以下步骤中的任意一种或多种:
17.根据对象标识比较结果,将属于第s个周期的日志数据,但不属于第s个周期之前的一个或多个周期的日志数据的对象标识,确定为新增类别下的对象标识;
18.根据对象标识比较结果,将属于第s个周期的日志数据,且属于第s-1个周期的日志数据的对象标识,确定为留存类别下的对象标识;
19.根据对象标识比较结果,将属于第s-2个周期的日志数据,且属于第s个周期的日志数据,但不属于第s-1个周期的日志数据的对象标识,确定为回流类别下的对象标识;
20.根据对象标识比较结果,将不属于第s个周期的日志数据,但属于第s-1个周期的日志数据的对象标识,确定为流失类别下的对象标识;
21.s为大于2且小于等于q的整数。
22.在一种实现方式中,处理单元,还用于:
23.检测第t+1个周期的预测结果所对应的总对象数据是否在置信区间内;
24.若否,则进行告警处理;
25.其中,置信区间是根据第t+1个周期之前的n个周期中处于活跃状态的总对象数据的均值参数确定的,均值参数包括:均值和/或标准差。
26.在一种实现方式中,处理单元,还用于:
27.从第t+1个周期之前的周期的统计数据集中,获取训练数据集和预测数据集;
28.采用训练数据集对初始预测模型进训练,得到训练后的初始预测模型,训练后的初始预测模型中包含m组已预测系数;
29.调用训练后的初始预测模型,对预测数据集进行预测处理,得到初始预测结果;
30.若初始预测结果满足预测条件,则将训练后的初始预测模型确定为对象预测模型,以及将m组已预测系数确定为m组预测优化系数;
31.若初始预测结果不满足预测条件,则再次对训练后的初始预测模型进行迭代训练。
32.在一种实现方式中,训练数据集中包含p组训练数据集合,每组训练数据集合中包含在时间上连续的n个周期的统计数据集,预测数据集中包含p组预测数据集合,每组预测数据集合包含在时间上连续的n个周期的统计数据集;
33.其中,第j组预测数据集合的第一个统计数据集是第j组训练数据集合的第二个统计数据集;p为大于1的整数,j为大于1且小于等于p的整数。
34.在一种实现方式中,初始预测模型包括m个初始预测子模型,每个初始预测子模型对应一种活跃分析类别,初始预测模型中包含m组待预测系数,一组待预测系数对应一个初始预测子模型;处理单元,用于采用训练数据集对初始预测模型进训练,得到训练后的初始预测模型时,具体用于:
35.采用训练数据集中的m种活跃分析类别对应的统计数据,分别对每个初始预测子模型包含的待预测系数进行优化训练,得到每个初始预测子模型的已预测系数。
36.在一种实现方式中,处理单元,用于调用所述训练后的初始预测模型,对所述预测数据集进行预测处理,得到初始预测结果时,具体用于:
37.调用训练后的初始预测模型,对预测数据集进行预测处理,得到预测数据集中的每个周期的总预测对象数据;
38.根据预测数据集中的每个周期的总预测对象数据,与基于相应周期的统计数据集得到的总对象数据,确定相应周期的标准差指标;
39.基于周期的标准差指标,得到预测数据集中的每个周期的标准差分布信息;
40.将预测数据集中的每个周期的标准差分布信息确定为初始预测结果。
41.在一种实现方式中,标准差分布信息为标准差分布图;
42.初始预测结果满足预测条件包括:标准差分布图满足标准正态分布;若标准差走势图不满足标准正态分布,则确定初始预测结果不满足预测条件。
43.在一种实现方式中,处理单元,用于调用所述训练后的初始预测模型,对所述预测数据集进行预测处理,得到所述预测数据集中的每个周期的总预测对象数据时,具体用于:
44.调用训练后的初始预测模型,对预测数据集中的m种活跃分析类别的统计数据进行预测处理,得到m种活跃分析类别中的每种活跃分析类别对应的预测统计数据;
45.根据每种活跃分析类别对应的预测统计数据,确定得到预测数据集中的每个周期的总预测对象数据。
46.另一方面,本技术实施例提供一种计算机设备,该计算机设备包括:
47.处理器,适于执行计算机程序;
48.计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时,实现如上述的预测处理方法。
49.另一方面,本技术实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机程序适于由处理器加载并执行如上述的预测处理方法。
50.另一方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的预测处理方法。
51.本技术实施例中,响应于针对目标应用业务的第t+1个周期的对象预测事件,可获取第t+1个周期之前的n个周期的统计数据集,该统计数据集中包含m种活跃分析类别对应的统计数据;然后,根据获取到的n个周期的统计数据集对第t+1个周期时目标应用业务的运营情况进行预测。上述方案中,可通过第t+1个周期之前的n个周期中的m种活跃分析类别的统计数据,较为准确地实现对第t+1个周期内处于活跃状态的的总对象数据的预测,有助于更好制定运营策略,从而提高目标应用业务的运营效益。
附图说明
52.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
53.图1示出了本技术一个示例性实施例提供的一种预测处理系统的架构示意图;
54.图2示出了本技术一个示例性实施例提供的一种预测处理方法的流程示意图;
55.图3示出了本技术一个示例性实施例提供的一种获取训练数据集和预测数据集的示意图;
56.图4示出了本技术一个示例性实施例提供的一种调用训练后的初始预测模型,对预测数据集进行预测处理的示意图;
57.图5示出了本技术一个示例性实施例提供的一种标准正态分布的示意图;
58.图6示出了本技术一个示例性实施例提供的一种预测处理方法的流程示意图;
59.图7示出了本技术一个示例性实施例提供的一种产生对象预测事件的示意图;
60.图8示出了本技术一个示例性实施例提供的一种确定第t+1个周期内属于新增类别的对象的示意图;
61.图9示出了本技术一个示例性实施例提供的一种确定第t+1个周期内属于留存类别的对象的示意图;
62.图10示出了本技术一个示例性实施例提供的一种确定第t+1个周期内属于回流类别的对象的示意图;
63.图11示出了本技术一个示例性实施例提供的一种确定第t+1个周期内属于流失类别的对象的示意图;
64.图12示出了本技术一个示例性实施例提供的一种告警处理的示意图;
65.图13示出了本技术一个示例性实施例提供的一种预测处理装置的结构示意图;
66.图14示出了本技术一个示例性实施例提供的一种计算机设备的结构示意图。
具体实施方式
67.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
68.本技术实施例提出一种预测处理方案,下面先对该预测处理方案所涉及的一些术语和概念进行简单说明,其中:
69.一、产品预测。
70.产品预测可包括:对产品的活跃对象数(即使用产品的活跃对象的数量)进行预测;通过对产品的活跃对象数进行预测,有利于根据预测的活跃对象数对产品的运营策略(如为实现对产品设置的目标(如销售目标、流量目标等)的方法)进行调整,以提高产品的运营效果和效益。其中,对产品的活跃对象数进行预测时,具体可包括:对产品的日活跃对象数(daily active user,dau)、月活跃对象数(monthly active users,mau)等进行预测。日活跃对象数可是指以日(如24小时)为一个周期时,任一周期内在产品中处于活跃状态的活跃对象的数量;月活跃对象数可是指以月(如30天)为一个周期时,任一周期内在产品中处于活跃状态的活跃对象的数量;为便于阐述,后续以对产品的日活跃对象数进行预测为
例,特在此说明。
71.本技术实施例涉及的产品又称为应用业务,可是指运行于终端中的应用程序(或简称为应用)所提供的一项或多项功能,如应用程序提供的登录功能、注册会员功能、支付功能、会话功能、通信功能等等;例如:应用程序为具有车联网功能的应用,那么应用业务可是指该应用提供的距离相近的多个车辆相互建立通信连接的通信功能。在本技术后续实施例中,对产品和应用业务不作区分描述,在此说明。其中,应用程序可是指为完成某项或多项特定工作的计算机程序;按照不同维度(如应用程序的运行方式、功能等)对应用程序进行归类,可得到同一应用程序在不同维度下的类型,其中:按照应用程序的运行方式分类,应用程序可包括但不限于:安装在终端中的客户端、无需下载安装即可使用的小程序、通过浏览器打开的web应用程序等等。按照应用程序的功能类型分类,应用程序可包括但不限于:im(instant messaging,即时通信)应用程序、内容交互应用程序等等;其中,即时通信应用程序是指基于互联网的即时交流消息和社交交互的应用程序,即时通信应用程序可以包括但不限于:包含通信功能的社交应用程序、包含社交交互功能的地图应用程序、车辆应用程序、游戏应用程序等等。内容交互应用程序是指能够实现内容交互的应用程序,例如可以是网银、分享平台、个人空间、新闻等应用程序。本技术实施例并不限定应用程序具体为上述哪种类型的应用,在此说明。
72.进一步地,根据应用业务不同,用于判定在应用业务中处于活跃状态的活跃对象的判定规则并不相同。例如:如果目标应用程序(如任一应用程序)提供登录功能,即目标应用业务(如任一应用业务)包括:登录目标应用程序,那么用于判定在该应用业务中处于活跃状态的活跃对象的判定规则可包括:将目标时间段(如24小时的周期)内登录目标应用程序的对象确定为活跃对象,此时对象在目标应用程序中处于活跃状态是指:对象登录过目标应用程序的状态,或者对象正处于登录目标应用程序的状态。再如:如果目标应用程序提供支付功能,即目标应用业务包括:在目标应用程序中执行支付操作,那么用于判定在该应用业务中处于活跃状态的活跃对象的判定规则可包括:将目标时间段内在目标应用程序中成功执行支付操作的对象确定为活跃对象,此时对象在目标应用程序中处于活跃状态是指:对象在目标应用程序中成功执行支付操作。可以理解的是,上述只是给出两种示例性的目标应用业务以及相应的处于活跃状态的活跃对象的判定规则;但本技术实施例对目标应用业务的具体业务内容,以及相应的处于活跃状态的活跃对象的判定规则的具体内容均不作限定,后续实施例以目标应用业务(如任一应用业务)包括登录目标应用程序(如任一应用程序)为例进行阐述。
73.二、人工智能(artificialintelligence,ai)。
74.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以
及机器学习/深度学习等几大方向。
75.本技术主要涉及人工智能中的机器学习(machine learning,ml),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习可以被看成一项任务,这个任务的目标就是让机器(广义上的计算机)通过学习来获得类似人类的智能。例如人类会下围棋,计算机程序(alphago或alphago zero)被设计成掌握了围棋知识、会下围棋的程序。其中,多种方法可用来实现机器学习的任务,比如,神经网络、线性回归、决策树、支持向量机、贝叶斯分类器、强化学习、概率图模型、聚类等多种方法。
76.在实际应用中,考虑到时间上连续的多个周期内,目标应用业务(或产品)的活跃对象数具有自回归的特性,所谓自回归是指:任一周期内产品的活跃对象数是依赖于该产品在该任一周期之前的一个或多个周期的活跃对象数确定的;换句话说,对产品的活跃对象数进行预测是一种涉及时间序列处理的问题。基于此,本技术实施例支持采用线性回归的方法来实现机器学习的任务,即支持采用线性回归的方法来对能够处理时间序列问题的预测模型进行训练,训练好的预测模型(或称为对象预测模型)可用于对产品的活跃对象数进行预测。其中,预测模型可包括:自回归模型(autoregressive model,ar)、滑动平均模型(moving average model,ma),以及自回归移动模型(autoregressivemovingaverage model,arma);本技术实施例以自回归模型为例对预测处理方案进行阐述。其中,该自回归模型是统计上一种处理时间序列的方法,即用同一变数如t之前的在时间上连续的各个周期,如在时间上连续的周期t-n至t这n+1个周期来预测本期t+1的表现(如当前周期t+1内产品的活跃对象数);其中,周期t-n至t这n+1个周期的数据之间具有线性关系,t、n均为正整数,t》n。
77.基于上述对产品预测和预测模型的相关描述,为实现对产品在任一周期(如以24小时为一个周期)的活跃对象数进行有效预测,本技术实施例提出的预测处理方案,可通过将影响产品的活跃对象数的因素进行拆分,得到影响活跃对象数的m种活跃分析类别;然后,通过获取到的第t+1个周期(如待预测的周期)之前的n个周期(如t、...、t-n+1)中的每个周期上述四种活跃分析类别的统计数据,对每种活跃分析类别构建模型进行模型训练,得到训练好的初始预测模型(或称为对象预测模型);再采用训练好的初始预测模型进行第t+1个周期的预测,得到第t+1个周期的预测结果,该第t+1个周期的预测结果用于指示第t+1个周期内在目标应用业务中处于活跃状态的总对象数据,该总对象数据是由预测得到的m种活跃分析类别下的统计数据生成的。本技术实施例中,可通过第t+1个周期之前的n个周期中的m种活跃分析类别的统计数据,实现预测第t+1个周期中m种活跃分析类别的数据;进一步地,通过对多种活跃分析类别进行预测,能够有效反映运营策略对目标应用业务的具体影响因素,进而有助于更好制定运营策略,从而提高目标应用业务的运营效果。
78.为便于更好地理解本技术实施例提供的预测处理方案,下面结合图1所示的预测处理系统对本技术实施例涉及的预测处理场景进行简单介绍;如图1所示,该预测处理系统中包括计算机设备101及计算机设备102,本技术实施例对计算机设备101及计算机设备102
的数量和命名不作限定。其中,
①
计算机设备101可是指具有目标应用业务的管理权限(如发布、调整等)的产品决策者(或简称为决策者)所使用的终端,该终端可包括但不限于:智能手机(如android手机、ios手机等)、平板电脑、便携式个人计算机、智能语音交互设备、移动互联网设备(mobile internet devices,简称mid)、智能家电、车载终端、飞行器、头戴设备等可以进行触屏的智能设备。
②
计算机设备102可以是指计算机设备101对应的服务器,用于为计算机设备101提供计算和应用支持;服务器可包括但不限于:数据处理服务器、web服务器、应用服务器等等具有复杂计算能力的设备。服务器可以是独立的物理服务器,也可以是由多个物理服务器构成的服务器集群或者分布式系统。计算机设备101和计算机设备102可以通过有线或无线方式进行直接或间接地通信连接,本技术实施例并不对计算机设备101和计算机设备102之间的连接方式进行限定。
79.还需说明的是,预测处理系统中还包括数据库1021,该数据库1021可用于存储与目标应用程序(或目标应用程序提供的目标应用业务)相关的日志数据(或称为日志文件,简称为日志),日志是由一些无序的键值对构成的文本对象;例如,日志可包括但不限于:json对象、数据库(如关系型数据库)中任一数据表内的任一数据行、对产品使用者(如任一对象)在使用目标应用程序(或目标应用程序提供的目标应用业务)的过程中所产生的相关操作(如登录操作、访问操作、删除操作、浏览操作等)进行记录所产生的数据等等。这种情况下,当预测处理系统中的任一计算机设备(如计算机设备101和/或计算机设备102)具有获取日志数据的需求时,可从该数据库1021中获取到关于目标应用程序的日志数据。值得注意的是,在图1中是以计算机设备102中部署数据库1021为例进行展示的,但实际应用场景中,数据库1021可以部署于除计算机设备102之外的其他服务器中,本技术实施例对数据库1021的部署位置和方式不作限定。
80.本技术实施例提供的预测处理方案可以由上述提及的预测处理系统中的计算机设备101或计算机设备102来执行,或者,由计算机设备101和计算机设备102共同执行;为便于阐述,后续以计算机设备101和计算机设备102共同执行本技术实施例提供的预测处理方案为例进行介绍。具体实现中,计算机设备102可获取训练数据集和预测数据集,用于对构建的初始预测模型进行训练,得到训练好的对象预测模型。该训练好的对象预测模型可部署于计算机设备101中,这样当计算机设备101响应于针对第t+1个周期的对象预测事件时,可获取第t+1个周期之前的n个周期的统计数据集,并采用对象预测模型对n个周期的统计数据进行预测处理,得到第t+1个周期的预测结果。其中,第t+1个周期的预测结果用于指示第t+1个周期内在目标应用业务中处于活跃状态的总对象数据。进一步的,决策者可基于预测得到的第t+1个周期的预测结果(即预测得到的第t+1个周期中处于活跃状态的总对象数据)对产品进行管理,以提高产品效益;例如,如果预测得到的第t+1个周期的预测结果所包含的总对象数据少于第t个周期的总对象数据,表示产品当前所采用的运营策略不利于增加产品的活跃对象数,那么产品决策者可对当前所采用的运营策略进行调整,以提高产品的活跃对象数,进而提升产品效益。
81.应当说明的是,由计算机设备102训练好的对象预测模型,除部署于计算机设备101外,计算机设备102也可以部署训练好的对象预测模型;此实现方式下,计算机设备102可响应于针对第t+1个周期的对象预测事件,执行对第t+1个周期的预测操作,并获取对第t+1个周期的预测结果。计算机设备102还支持将第t+1个周期的预测结果发送至计算机设备
101,以便于计算机设备101输出预测结果(如图1所示的预测得到的第t+1个周期下m种活跃分析类别下的统计数据和总对象数据)后,产品决策者能够及时了解产品的第t+1个周期的活跃对象数,避免产品决策的延迟,有助于产品决策者制定产品的运营策略。另外,本技术实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶、车联网等场景,在此对本技术实施例的具体应用场景不作限定。本技术实施例运用到具体产品或技术中时,如获取第t+1个周期之前的n个周期的日志数据时,不可避免要获取使用目标应用程序的对象的对象信息(如对象标识),那么需要获得对象的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
82.基于上述描述的预测处理方案可知,本技术实施例提供的预测处理方案主要涉及两个方面,一方面是模型训练得到对象预测模型,另一方面是采用训练好的对象预测模型进行模型应用;下面结合附图对本技术实施例提出的更为详细的预测处理方法进行介绍。
83.图2示出了本技术一个示例性实施例提供的一种预测处理方法的流程示意图;图2所示的预测处理方法主要是涉及模型训练部分的内容,可以由计算机设备(如计算机设备102)来执行,该预测处理方法可包括但不限于步骤s201-s204:
84.s201:从第t+1个周期之前的周期的统计数据集中,获取训练数据集和预测数据集。
85.正如前述所描述的,本技术实施例涉及的待训练的初始预测模型是能够处理时间序列问题的预测模型,即该初始预测模型能够根据在时间上连续的周期内的产品的活跃对象数,对本期(或称为当前周期)内产品的活跃对象数进行预测;那么在模型训练的过程中,可先执行数据采集,以获取到第t+1个周期(即前述提及的本期或当前周期)之前的多个周期的统计数据集,并根据该获取到第t+1个周期之前的多个周期的统计数据集对初始预测模型进行训练,以使训练好的初始预测模型(或称为对象预测模型)能够实现对第t+1个周期内产品的活跃对象数进行预测。其中,上述提及的第t+1个周期可是指待进行活跃对象预测的周期,位于该第t+1个周期之前的所有周期(如第t个周期、第t-1个周期、
……
)内的针对目标应用业务的日志数据均是已知的;换句话说,第t+1个周期可以是指待获取训练数据集和预测数据集的时刻所处的当前周期,当前周期之前的所有周期内的所有日志数据均可以从数据库中获取到。
86.下面对从第t+1个周期之前的周期的统计数据集中确定训练数据集和预测数据集的具体实现过程进行介绍,其中:
87.首先,响应于数据采集事件(如检测到触发采集日志数据的按键操作时所产生的事件),可采集第t+1个周期之前的多个周期的日志数据,如通过目标应用程序的数据采集系统(如具有从数据库中获取日志数据能力的系统)采集多个周期中的每个周期的日志数据。其中,任一周期的日志数据可包括:该任一周期内在目标应用业务中处于活跃状态的对象的对象信息,该对象信息可包括对象的对象标识(如对象账号)、对象所处地点、操作时间、操作时长等信息。正如前述所描述的,根据目标应用业务的不同,处于活跃状态的活跃对象的判定规则并不相同,那么获取的日志数据也不相同。举例来说:目标应用业务包括登录目标应用程序,那么对象在目标应用程序中处于活跃状态是指:对象登录过目标应用程序的状态,或者对象正处于登录目标应用程序的状态,那么采集的第t个周期的日志数据可包括:在第t个周期内登录过或正处于登录目标应用程序的状态的对象的对象信息,此时该
对象信息可包括对象的对象标识(如对象账号)、登录地点、登录时间、登录时长等信息。
88.其次,在采集得到第t+1个周期之前的多个周期的日志数据后,可根据该多个周期的日志数据构建每个周期的统计数据集。每个周期的统计数据集中包括:m种活跃分析类别下的统计数据,即每个统计数据对应一种用于表征对象在目标应用业务中的活跃分析类别,m为大于1的整数。本技术实施例提及的m种影响活跃对象数的活跃分析类别可包括:新增类别、留存类别、回流类别、流失类别中的任意一种或多种;为便于阐述,后续以m=4,分别为新增类别、留存类别、回流类别、流失类别为例进行说明。这样每个周期的统计数据集中包括4个统计数据,一个统计数据对应一种活跃分析类别;如第t个周期的统计数据集中包含:新增类别下的统计数据为3个、留存类别下的统计数据为2个、回流类别下的统计数据为3个、流失类别下的统计数据为1个。
89.最后,根据第t+1个周期之前的多个周期的统计数据集,获取训练数据集和预测数据集。其中,训练数据集中包含p组训练数据集合,每组训练数据集合中包含在时间上连续的n个周期的统计数据集,n为大于1的整数;预测数据集中包含p组预测数据集合,每组预测数据集合包含在时间上连续的n个周期的统计数据集;p为大于1的整数,j为大于1且小于等于p的整数。
90.上述给出了从第t+1个周期之前的周期的统计数据集中,获取到训练数据集和预测数据集的大致实现过程。为便于更好地理解上述实现过程,下面结合图3所示对获取训练数据集和预测数据集的具体实现过程进行更为详细的介绍;如图3所示,假设响应于数据获取事件,获取到第t+1个周期之前的x+1个周期的日志数据,x为大于等于n的整数,这x+1个周期按照时间顺序排序可得到的周期序列:t-x、t-x+1、t-x+2、t-x+4、
…
、t。那么获取训练数据集的具体实现过程可包括:可从该周期序列第一个周期t-x开始,选取n个在时间上连续的周期的统计数据集,组成第一组训练数据集(包括t-x、t-x+1、
…
、t-x+n-1这n个周期的统计数据集);继续从该周期序列的第二个周期t-x+1开始,选取n个周期在时间上连续的周期的统计数据,组成第二组训练数据集(包括t-x+1、t-x+2、
…
、t-x+n);重复上述步骤,得到p组训练数据集,该p组训练数据集组成训练数据集。获取预测数据集的具体实现过程可包括:从该周期序列的第二个周期t-x+1开始,选取n个周期在时间上连续的周期的统计数据,组成第一组预测数据集(包括t-x+1、t-x+2、
…
、t-x+n这n个周期的统计数据集);继续从该周期序列的第三个周期t-x+2开始,选取n个周期在时间上连续的周期的统计数据,组成第一组预测数据集(包括t-x+2、t-x+3、
…
、t-x+n+1这n个周期的统计数据集);重复上述步骤,得到p组预测数据集,该p组预测数据集组成预测数据集。
91.值得注意的是,按照上述确定训练数据集和预测数据集的方式可知,训练数据集中的p组训练数据集合,与预测数据集中的p组预测数据集合是具有对应关系,这种对应关系可体现为:预测数据集合中的第j组预测数据集合的第一个统计数据集(即第j组预测数据集合中在时间上连续的第一个周期的统计数据集)是,训练数据集中的第j组训练数据集合的第二个统计数据集(即第j组训练数据集合中在时间上连续的第二个周期的统计数据集)。如图3所示的,训练数据集中的第一组训练数据集中的第二个统计数据集(即第t-x+1周期的统计数据集),是预测数据集中的第一组预测数据集中的第一个统计数据集(即第t-x+1周期的统计数据集)。
92.s202:采用训练数据集对初始预测模型进行训练,得到训练后的初始预测模型。
93.基于前述描述可知,本技术实施例支持将影响产品的活跃对象数的因素,拆分为m种活跃分析类别,分别为新增类别、留存类别、回流类别及流失类别;本技术实施例还支持针对每种活跃分析类别分别构建相应的初始预测子模型,初始预测子模型可用于对相应的活跃分析类别的活跃对象数进行预测,这样构建得到的初始预测模型中包括m个初始预测子模型,每个初始预测子模型对应一种活跃分析类别。
94.具体实现中,每种活跃分析类别对应的初始预测子模型的构建过程,可简单理解为采用自回归模型的模型表达式,来作为相应活跃分析类别对应的初始预测子模型;这样基于自回归模型的模型表达式构建得到的包含m个初始预测子模型的初始预测模型如下:
[0095][0096]
其中,初始预测模型中的uv
t+1
表示第t+1个周期内属于新增类别的对象的数量,sv
t+1
表示第t+1个周期内属于留存类别的对象的数量,rv
t+1
表示第t+1个周期内属于回流类别的对象的数量,nv
t+1
表示第t+1个周期内属于流失类别的对象的数量。dau
t+1
表示用于获取第t+1个周期在目标应用业务中处于活跃状态的总对象数据的数据处理规则,该数据处理规则定义:将第t+1个周期内属于新增类别、留存类别以及回流类别的对象数(或称为统计数据)相加,并将相加结果减去第t+1个周期内属于流失类别的对象数所得到的相减结果,作为第t+1个周期内在目标应用业务中处于活跃状态的总对象数据。a0、a1、
…
、a
n-1
是新增类别对应的初始预测子模型的模型参数(或称为待预测系数),b0、b1、
…
、b
n-1
是留存类别对应的初始预测子模型的模型参数,k0、k1、
…
、k
n-1
是回流类别对应的初始预测子模型的模型参数,w0、w1、
…
、w
n-1
是流失类别对应的初始预测子模型的模型参数;也就是说,初始预测模型中包含m组待预测系数,一组待预测系数对应一个初始预测子模型。θ
t+1
,ε
t
,e
t
,λ
t
,φ
t
表示残差序列,n(0,1)表示标准正态分布。
[0097]
继续参见上述给出的初始预测模型可知,该初始预测模型的阶数为n阶,也就是说,第t+1个周期内产品的活跃对象数是依赖于该第t+1个周期之前的在时间上连续的n个周期的统计数据集进行预测得到的。在实际应用场景中,初始预测模型的阶数是采用阶数求解算法,并根据步骤s201中采集到的第t+1个周期之前的周期的统计数据集所包含的统计数据确定的,阶数求解算法可包括但不限于:信息准则、向下检验法等,本技术实施例对确定初始预测模型的阶数的具体实施过程不作限定,在此说明。
[0098]
通过上述对构建的初始预测模型的相关介绍可知,初始预测模型中包含m个初始预测子模型,那么采用训练数据集对初始预测模型进行训练的实现过程可包括:采用训练数据集中的m种活跃分析类别对应的统计数据,分别对每个初始预测子模型包含的待预测系数进行优化训练,得到每个初始预测子模型的已预测系数;再将初始预测子模型的已预测系数代入至相应的包含待预测系数的初始预测子模型中,得到包含已预测系数的初始预测模型,该包含已预测系数的初始预测模型是训练后的初始预测模型。上述只是对训练初
始预测模型的实现过程进行的简单介绍,下面给出更为详细的模型训练过程;其中:
[0099]
可先将训练数据集所包含的一组训练数据集合输入至待训练的初始预测模型,并采用系数预测算法确定出初始预测模型的4组已预测系数,该4组已预测系数可构成回归参数矩阵w,该回归参数矩阵w如下所示:
[0100][0101]
上述回归参数矩阵w中的每个系数(或称为参数)均对应有具体的数值,如a0=1、a5=3等,上述只是通过字母来给出回归参数矩阵的表现形式。其中,用于计算回归参数矩阵w的系数预测算法可包括但不限于:最小二乘法、梯度下降算法(gradient descent)等。最小二乘法是通过最小化每个初始预测子模型的残差的平方和,寻找使得残差的平方和最小的数据作为待预测系数的取值(即已预测系数)。梯度下降算法是将计算初始预测函数的待预测系数的过程,转化为求极小值的问题,即沿着使得残差取极小值的方法,预测初始预测模型的待预测系数,得到初始预测模型的4组已预测系数。本技术实施例并不限定具体采用哪种系数预测算法来计算初始预测模型所包含的待预测系数,在此说明。
[0102]
然后,将上述计算得到的回归参数矩阵w输入至构建的初始预测模型中,得到包含已预测系数的初始预测模型。举例来说,假设构建得到的初始预测模型的阶数为2阶,那么该初始预测模型可表示为:
[0103][0104]
如果输入训练样本集中的一组训练样本集合后,得到的回归参数矩阵w(包含4组已预测系数)为:
[0105][0106]
那么,将回归参数矩阵w输入至构建的初始预测模型后,得到的包含已预测系数的初始预测模型可表示为:
[0107]
[0108]
综上所述,通过从训练数据集中随机抽样的任一组训练数据集合,对待训练的初始预测模型进行优化训练后,可得到包含已预测系数的初始预测模型;后续可采用预测数据集对该包含已预测系数的初始预测模型进行预测,以检测本次训练后的初始预测模型的预测性能。其中,采用预测数据集对该包含已预测系数的初始预测模型进行预测的具体实施过程可参见步骤s203。
[0109]
s203:调用训练后的初始预测模型,对预测数据集进行预测处理,得到初始预测结果。
[0110]
基于步骤s202所示的具体实施过程,得到包含已预测系数的初始预测模型后,本技术实施例还支持采用训练后的初始预测模型,对预测数据集进行预测处理,以实现对训练后的初始预测模型的预测性能的检验。下面结合图4对调用训练后的初始预测模型,对预测数据集进行预测处理的具体实施过程进行介绍,该过程可包括步骤s11-s13:
[0111]
s11、调用训练后的初始预测模型,对预测数据集进行预测处理,得到预测数据集中的每个周期的总预测对象数据。具体地,调用训练后的初始预测模型,对预测数据集中的任一组预测数据集合进行预测处理,可得到该任一组预测数据集合包含的在时间上连续的n个周期中的最后一个周期的总预测对象数据;基于步骤s201对预测数据集的相关描述可知,预测数据集中的p组预测数据集合所包含的n个周期可组成在时间上连续的p*n个周期;那么调用训练后的初始预测模型对预测数据集中的每一组预测数据集合进行预测处理,就可以得到预测数据集中的每个周期的总预测对象数据
[0112]
正如前述所描述的,初始预测模型中包含有m种活跃分析类别对应的m个初始预测子模型,那么上述确定预测数据集中的任一周期的总预测对象数据之前,可先调用训练后的初始预测模型,对预测数据集中的任一周期所包含的m种活跃分析类别的统计数据进行预测处理,得到该任一周期中的m种活跃分析类别中的每种活跃分析类别对应的预测统计数据,然后根据每种活跃分析类别对应的预测统计数据,得到该任一周期的总预测对象数据,进而得到预测数据集中的每个周期的总预测对象数据。换句话说,通过上述实现过程可得到预测数据集中的每个周期的预测数据序列,如第t个周期的预测数据序列为任一周期的预测数据序列中包含预测得到的该任一周期内所包含的属于新增类别的对象数(即预测统计数据)、留存类别的对象数、回流类别的对象数以及流式类别的对象数;再采用数据处理规则对每个周期的预测数据序列所包含的预测统计数据进行处理,得到每个周期的总预测对象数据。例如,预测得到的第t个周期的预测数据序列为[3,5,2,1],那么采用数据处理规则对该第t个周期的预测数据序列所包含的预测统计数据进行处理,得到的该第t个周期的总预测对象数据为:
[0113]
s12、根据预测数据集中的每个周期的总预测对象数据,与基于相应周期的统计数据集得到的总对象数据,确定相应周期的标准差指标。具体实现中可根据如下公式确定周期的标准差指标:
[0114][0115]
其中,mse
t+1
表示第t+1个周期的标准差指标,dau
t+1
表示第t+1个周期的真实的总对象数据,表示第t+1个周期的预测的总预测对象数据。
[0116]
如图4所示,假设第t-x+1个周期的总预测对象数据
且该第t-x+1个周期的统计数据集中包含的统计数据分别为:uv
t-x+1
=3、sv
t-x+1
=2、rv
t-x+1
=1、nv
t-x+1
=0,那么根据该第t-x+1个周期的统计数据集计算得到的该第t-x+1个周期的真实的总对象数据为dau
t-x+1
=6;然后,根据上述给出的计算标准差指标的公式,可得到该第t-x+1个周期的标准差指标为进一步的,对预测数据集中的每个周期均执行上述计算标准差指标的实现过程,可得到预测数据集中的每个周期的标准差指标,进而得到周期t-x到t中的每个周期的标准差指标组成的标准差指标序列[mse
t-x
,...,mse
t
]。
[0117]
s13、基于周期的标准差指标,得到预测数据集中的每个周期的标准差分布信息,并将预测数据集中的每个周期的标准差分布信息确定为初始预测结果。其中,周期的标准差分布信息可为周期的标准差分布图(或称为标准差走势图)。具体地,根据标准差指标序列可绘制得到每个周期的标准差分布图,如对标准差指标序列中的各个标准差指标进行平均值计算,得到该标准差指标序列的均值,再根据均值和每个标准差指标,绘制得到每个周期的标准差分布图;这样每个周期的标准分布图确定为对预测数据集进行预测处理,得到的初始预测结果,即初始预测结果包括每个周期的标准差分布图。其中,当均值为0,且标准差指标为1时,可绘制得到标准正态分布n(0,1)的标准正态分布图,该标准正态分布的示意图可参见图5。
[0118]
s204:根据初始预测结果确定是否继续对训练后的初始预测模型进行训练。
[0119]
具体地,若初始预测结果满足预测条件,表示训练后的初始预测模型达到收敛条件,即表示训练后的初始预测模型的预测性能较优,则可将该训练后的初始预测模型确定为训练好的初始预测模型(即对象预测模型),以及将确定得到的m组已预测系数确定为训练好的对象预测模型的m组预测优化系数。反之,若初始预测结果不满足预测条件,表示本次训练得到的初始预测模型还未达到收敛条件,则再次对该训练后的初始预测模型进行迭代训练,即从训练数据集中的再抽取(如随机抽样)一组训练数据集合执行步骤s202-s204所示的具体实施过程,直至得到收敛条件较好的初始预测模型(或直至训练次数达到设定上限)。通过这种迭代训练的方法,使误差尽量达到最小,实现有效修正模型参数,得到对活跃对象数(dau)的预测性能更优的对象预测模型,进而在模型应用时能够通过预测出的较为准确的总对象数据,让产品决策者及时有效了解产品的整体运营情况。
[0120]
其中,初始预测结果满足预测条件包括:标准差分布图满足标准正态分布;若标准差走势图不满足标准正态分布,则确定初始预测结果不满足预测条件。更为具体的,如果每个周期的标准差分布图均满足标准正态分布,表示每个周期的总预测对象数据满足预测模型评估,则确定初始预测结果满足预测条件,此时可将本次训练后的初始预测模型,确定为训练好的对象预测模型。反之,如果存在一个或多个周期的标准差分布图不满足标准正态分布,表示存在一个或多个周期的总预测对象数据不满足预测模型评估,则继续对本次训练后的初始预测模型进行迭代训练。
[0121]
本技术实施例中,能够将影响产品的活跃对象数的因素拆分为m种活跃分析类别,并针对每种活跃分析类别构建自回归模型进行模型训练,得到训练后的初始预测模型,该训练后的初始预测模型中包含m种活跃分析类别中的每种活跃分析类别对应的初始预测子模型;每种初始预测子模型可用于预测相应活跃分析类别下的统计数据(或称为对象数);
这使得本技术实施例训练得到的初始预测模型不仅能够更准确的预测周期内的活跃对象数,即训练得到的初始预测模型具有较优预测性能,而且能够预测每种活跃分析类别的活跃对象数,使得决策者可以更好地了解每种活跃分析类别对活跃对象数造成的影响,提高初始预测模型的性能。
[0122]
图6示出了本技术一个示例性实施例提供的一种预测处理方法的流程示意图;图6所示的预测处理方法主要是涉及模型训练和模型应用的内容,可以由计算机设备101和计算机设备102共同来执行,该预测处理方法可包括但不限于步骤s601-s606:
[0123]
s601:从第t+1个周期之前的周期的统计数据集中,获取训练数据集和预测数据集。
[0124]
s602:采用训练数据集对初始预测模型进行训练,得到训练后的初始预测模型。
[0125]
s603:调用训练后的初始预测模型,对预测数据集进行预测处理,得到初始预测结果。
[0126]
s604:根据初始预测结果确定是否继续对训练后的初始预测模型进行训练。
[0127]
需要说明的是,步骤s601-s604所示的具体实施过程,可参见前述图2所示实施例中的步骤s201-s204所示的具体实施过程的相关描述,在此不作赘述。
[0128]
s605:响应于针对第t+1个周期的对象预测事件,获取第t+1个周期之前的n个周期的统计数据集。
[0129]
基于前述描述可知,第t+1个周期可是指待进行活跃对象数预测的周期,那么若检测到存在针对第t+1个周期的对象预测事件时,可触发获取第t+1个周期之前的n个周期的统计数据集,以便于调用前述步骤训练好的对象预测模型,对该n个周期的统计数据集进行预测,以得到对第t+1个周期内的活跃对象数的预测结果。其中,n个周期中的统计数据集中包含:在每一种活跃分析类别下统计得到的对象的对象标识的数量。n的具体取值是根据训练好的对象预测模型的阶数确定的;例如,训练好的预测对象模型的阶数为3阶,表示需要基于第t+1个周期之前的在时间上连续的3个周期的统计数据集来预测第t+1个周期的活跃对象数,此实现方式下的n为3;本技术实施例对n的具体取值不作限定,在此说明。另外,针对第t+1个周期的对象预测事件可包括但不限于:检测到决策者针对第t+1个周期执行预测操作时产生的事件,或者,检测到定时器发生中断时产生的事件;下面对这两种示例性的对象预测事件进行更为详细介绍,其中:
[0130]
在一种实现方式中,对象预测事件包括:检测到决策者针对第t+1个周期执行预测操作时产生的事件;换句话说,可以由决策者来指定对某个周期(如第t+1个周期)的活跃对象数进行预测;这种由决策者决定需要进行预测的第t+1个周期的方式,满足决策者自定义确定需要进行预测的周期的需求。具体实现中,决策者可以在计算机设备101中输入待预测的第t+1个周期的周期标识(如周期序号、周期指示的时间段等),这样计算机设备101检测到决策者针对第t+1个周期执行的预测操作时,就确定存在针对第t+1个周期的对象预测事件,此时可响应于该对象预测事件实现对第t+1个周期的活跃对象数的预测处理。
[0131]
值得说明的是,当模型应用过程由计算机设备102来执行时,计算机设备101在接收到决策者输入的第t+1个周期的周期标识后,确定存在针对该第t+1个周期的对象预测事件,那么可基于该对象预测事件生成对象预测请求,该对象预测请求中携带第t+1个周期的周期标识,并将对象预测请求发送至计算机设备102。计算机设备102接收到对象预测请求
后,响应于针对第t+1个周期的对象预测请求,触发执行对第t+1个周期的活跃对象数的预测处理。上述这种产生对象预测事件的示意图可参见图7,如图7所示,决策者可在计算机设备101的显示屏幕(或称为终端屏幕、显示屏等)中输入第t+1个周期的周期标识,这样计算机设备101确定存在针对第t+1个周期的对象预测事件,则基于第t+1个周期的周期标识生成对象预测事件,并将基于对象预测事件生成的对象预测请求发送至计算机设备102进行预测处理。
[0132]
其他实现方式中,对象预测事件包括:检测到定时器发生中断时产生的事件;换句话说,可以设置定时器进行计时,当定时器中断(如定时器停止计时)时,将定时器发生中断的时刻所属的周期,确定为待进行活跃对象数预测的第t+1个周期;通过设置定时器的方式,可实现自动对每个新的周期的活跃对象数进行预测处理,而不需要人为触发每个新的周期的活跃对象数的预测,在一定程度上提高预测效率。举例来说,假设以单日为周期(如12月1日的00:00-24:00为一个周期),且在12月1日的12:00启动定时器进行计时,定时器设置的时长为24小时,那么在12月2日的12:00确定定时器发生中断,此时确定定时器发生中断的时刻为12月2日的12:00,而该中断时刻属于12月2日内,则将12月2日确定为待进行活跃对象数预测的第t+1个周期。
[0133]
需要说明的是,本技术实施例在实际应用中可以采用上述两种可选方式的一种或多种方式,来确定待进行活跃对象数预测的第t+1个周期;但本技术实施例对具体采用哪种方式不作限定。
[0134]
下面对获取第t+1个周期之前的n个周期的统计数据集的具体实现过程进行介绍;其中:首先,获取第t+1个周期之前在时间上连续的q个周期的日志数据,q为大于或等于n的整数,日志数据的相关描述可参见图2所示实施例中的具体实施过程的相关描述;然后,根据第t+1个周期之前在时间上连续的q个周期的日志数据进行对象标识比较;最后,根据对象标识比较结果,获取n个周期的统计数据集。正如前述所描述,n个周期中的每个周期的统计数据集中均包含新增类别、留存类别、回流类别和流失类别中的一种或多种类别的统计数据;上述描述的获取第t+1个周期之前的n个周期的统计数据集的具体实现过程中的,根据第t+1个周期之前在时间上连续的q个周期的日志数据进行对象标识比较,就是为了确定每个周期的统计数据集中的包含的各种类别的统计数据。
[0135]
为便于理解上述获取每个周期的统计数据集的相关描述,下面以q个周期中的第s个周期为例,s为大于2且小于等于q的整数,给出确定周期中的各种类别下的统计数据的具体实现过程,包括以下步骤中的任意一种或多种:
[0136]
1)确定第s个周期的统计数据集中的新增类别下的统计数据(如属于新增类别的对象(或对象标识)的数量)。具体地,将第s个周期的日志数据,与q个周期中在时间上位于第s个周期之前的一个或多个周期的日志数据进行对象标识比较,得到对象标识比较结果;根据该对象标识比较结果,将属于第s个周期的日志数据,但不属于第s个周期之前的一个或多个周期的日志数据的对象标识,确定为新增类别下的对象标识;调用聚合函数对属于第s个周期的所有新增类别下的对象标识进行聚合运算,得到第s个周期的新增类别的统计数据;第s个周期内属于新增类别的任一对象标识表示:该任一对象标识在q个周期内位于第s个周期之前的所有周期内均未出现过。其中,上述提及的聚合函数(可以对一组值执行计算并返回单一的值)是具有求和运算能力的函数,即对属于第s个周期的所有新增类别下
的对象标识进行的聚合运算可包括:对属于第s个周期的所有新增类别下的对象标识求和;本技术实施例对具体采用哪种聚合函数(如count函数)不作限定,在此说明。
[0137]
举例来说,如果用于判断目标应用业务中处于活跃状态的活跃对象的判定规则为:登录目标应用程序,且q个周期内位于第s个周期之前的周期分别为第s-1个周期和第s-2个周期;如图8所示,根据第s个周期的日志数据得到:在第s个周期内对象标识a出现次数为3次、对象标识b出现次数为1次,以及对象标识c出现次数为1次,表示在第s个周期内,对象标识a对应的对象登录过目标应用程序3次,对象标识b对应的对象登录过目标应用程序1次,对象标识c对应的对象登录过目标应用程序1次。同理,根据第s-1个周期的日志数据得到:在第s-1个周期内对象标识a出现的次数为1次,对象标识c出现的次数为1次,表示第s-1个周期内对象标识a对应的对象登录过目标应用程序1次,对象标识c对应的对象登录过目标应用程序1次。同理,根据第s-2个周期的日志数据得到:在第s-2个周期内对象标识a出现的次数为3次,表示第s-2个周期内对象标识a对应的对象登录过目标应用程序3次。基于上述第s个周期、第s-1个周期和第s-2个周期的相关描述,可确定第s个周期内的对象标识b均未出现在第s-1个周期和第s-2个周期内,则确定对象标识b属于第s个周期的新增类别,进一步地,确定第s个周期的统计数据集中的新增类别的统计数据为1。
[0138]
基于此可知,第s个周期内属于新增类别的对象标识的数量越多,即新增类别下的统计数据的数值越大,在一定程度上表示目标应用业务在第s个周期所采用的运营策略能够带来更多的新的对象,进而确定该运营策略能够为目标应用业务带来更多的收益。
[0139]
2)确定第s个周期的统计数据集中的留存类别下的统计数据。具体地,将第s个周期的日志数据,与第s-1个周期的日志数据进行对象标识比较,得到对象标识比较结果;根据该对象标识比较结果,将属于第s个周期的日志数据,且属于第s-1个周期日志数据的对象标识,确定为留存类别下的对象标识;调用聚合函数对属于第s个周期的所有留存类别下的对象标识进行聚合运算,得到第s个周期的留存类别的统计数据;第s个周期内属于留存类别的任一对象标识表示:该任一对象标识在第s-1个周期的日志数据中出现,也在第s-1个周期的日志数据中出现。其中,对聚合函数和聚合运算的相关描述可参见1)所示的实现方式,在此不作赘述。
[0140]
举例来说,如果用于判断目标应用业务中处于活跃状态的活跃对象的判定规则为:登录目标应用程序;如图9所示,根据第s个周期的日志数据得到:在第s个周期内对象标识a出现次数为3次、对象标识b出现次数为1次,以及对象标识c出现次数为1次,表示在第s个周期内,对象标识a对应的对象登录过目标应用程序3次,对象标识b对应的对象登录过目标应用程序1次,对象标识c对应的对象登录过目标应用程序1次。同理,根据第s-1个周期的日志数据得到:在第s-1个周期内对象标识a出现的次数为1次,对象标识c出现的次数为1次,表示第s-1个周期内对象标识a对应的对象登录过目标应用程序1次,对象标识c对应的对象登录过目标应用程序1次。基于上述第s个周期以及第s-1个周期的相关描述,可确定第s个周期内的对象标识a以及对象标识c均出现在第s个周期和第s-1个周期内,则确定对象标识a以及对象标识c属于第s个周期的留存类别,进一步地,确定第s个周期的统计数据集中的留存类别的统计数据为2。
[0141]
基于此可知,第s个周期内属于留存类别的对象标识的数量越多,即留存类别下的统计数据的数值越大,在一定程序上表示第s个周期目标应用业务所采用的运营策略能够
留住更多的对象,进而确定该运营策略能够为目标应用业务带来更多的收益。
[0142]
3)确定第s个周期的统计数据集中的回流类别下的统计数据。具体地,将第s个周期的日志数据、第s-1个周期的日志数据以及第s-2个周期的日志数据进行对象标识比较,得到对象标识比较结果;根据该对象标识比较结果,将属于第s-2个周期的日志数据,且属于第s个周期的日志数据,但不属于第s-1个周期的日志数据的对象标识,确定为回流类别下的对象标识;调用聚合函数对属于第s个周期的所有回流类别下的对象标识进行聚合运算,得到第s个周期的回流类别的统计数据;第s个周期内属于回流类别的任一对象标识表示:该任一对象标识在第s-2个周期的日志数据中出现,但在第s-1个周期的日志数据中未出现,又在第s个周期的日志数据中出现。其中,对聚合函数和聚合运算的相关描述可参见1)所示的实现方式,在此不作赘述。
[0143]
举例来说,如果用于判断目标应用业务中处于活跃状态的活跃对象的判定规则为:登录目标应用程序;如图10所示,根据第s个周期的日志数据得到:在第s个周期内对象标识a出现次数为3次、对象标识b出现次数为1次,以及对象标识c出现次数为1次,表示在第s个周期内,对象标识a对应的对象登录过目标应用程序3次,对象标识b对应的对象登录过目标应用程序1次,对象标识c对应的对象登录过目标应用程序1次。同理,根据第s-1个周期的日志数据得到:在第s-1个周期内对象标识b出现的次数为1次,对象标识c出现的次数为1次,表示第s-1个周期内对象标识b对应的对象登录过目标应用程序1次,对象标识c对应的对象登录过目标应用程序1次。同理,根据第s-2个周期的日志数据得到:在第s-2个周期内对象标识a出现的次数为3次,表示第s-2个周期内对象标识a对应的对象登录过目标应用程序3次。基于上述第s个周期、第s-1个周期和第s-2个周期的相关描述,可确定第s个周期内的对象标识a出现于第s-2个周期的日志数据,但未出现于第s-1个周期的日志数据,且出现于第s个周期的日志数据中,则确定对象标识a属于第s个周期的回流类别,进一步地,确定第s个周期的统计数据集中的回流类别的统计数据为1。
[0144]
基于此可知,第s个周期内属于回流类别的对象标识的数量越多,即回流类别下的统计数据的数值越大,在一定程序上表示第s个周期目标应用业务所采用的运营策略能够重新吸引更多对象,进而确定该运营策略能够为目标应用业务带来更多的收益。
[0145]
4)确定第s个周期的统计数据集中的流失类别下的统计数据。具体地,将第s个周期的日志数据、第s-1个周期的日志数据进行对象标识比较,得到对象标识比较结果;根据该对象标识比较结果,将属于第s-1个周期的日志数据,但不属于第s个周期的日志数据的对象标识,确定为流失类别下的对象标识;调用聚合函数对属于第s个周期的所有流失类别下的对象标识进行聚合运算,得到第s个周期的流失类别的统计数据;第s个周期内属于流失类别的任一对象标识表示:该任一对象标识在第s-1个周期的日志数据中出现,但在第s个周期的日志数据中未出现。其中,对聚合函数和聚合运算的相关描述可参见1)所示的实现方式,在此不作赘述。
[0146]
举例来说,如果用于判断目标应用业务中处于活跃状态的活跃对象的判定规则为:登录目标应用程序。如图11所示,根据第s个周期的日志数据得到:在第s个周期内对象标识a出现次数为3次,表示在第s个周期内,对象标识a对应的对象登录过目标应用程序3次。同理,根据第s-1个周期的日志数据得到:在第s-1个周期内对象标识a出现的次数为1次,对象标识b出现的次数为1次,对象标识c出现的次数为1次,表示第s-1个周期内对象标
识a对应的对象登录过目标应用程序1次,对象标识b对应的对象登录过目标应用程序1次,对象标识c对应的对象登录过目标应用程序1次。基于上述第s个周期以及第s-1个周期的相关描述,可确定第s个周期内的对象标识b以及对象标识c均出现在第s-1个周期,但均未出现于第s个周期内,则确定对象标识b以及对象标识c属于第s个周期的流失类别,进一步地,确定第s个周期的统计数据集中的流失类别的统计数据为2。
[0147]
基于此可知,第s个周期内属于流失类别的对象标识的数量越多,即流失类别下的统计数据的数值越大,在一定程序上表示第s个周期目标应用业务所采用的运营策略更可能降低对对象的吸引力,进而确定该运营策略不能为目标应用业务带来更多的收益。
[0148]
需要说明的是,当s为大于2且小于等于q的任一整数时,在时间上连续的q个周期中位于第s个周期之后的任一个周期(如第s+3个周期),均有位于该任一周期之前的至少2个周期(如位于第s+3个周期之前的2个周期为:第s+2个周期和第s+1个周期)。那么该任一周期内的新增类别、留存类别以及流失类别的统计数据均可以根据位于该任一周期之前的1个周期(如位于第s+3个周期之前的1个周期为第s+2个周期)的统计数据集统计得到;同理,该任一周期内的流失类别的统计数据可以根据位于该任一周期之前的2个周期(如位于第s+3个周期之前的2个周期为第s+2个周期和第s+1个周期)的统计数据集统计得到。
[0149]
然而,当s为大于零且小于等于2的整数时,如s=1或s=2时,考虑到q个周期中位于该第s个周期之前的周期的数量是小于2的,那么采用上述几种实现方式并不能得到周期内的每种活跃分析类别的统计数据;如s=2时,第2个周期之前只存在第1个周期,那么根据该第1个周期的统计数据集以及上述提供的新增类别、留存类别和流失类别的统计数据的获取规则,可得到第2个周期内的新增类别、留存类别和流失类别的统计数据,但不能根据上述提供的回流类别的统计数据的获取规则得到第2个周期内的回流类别的统计数据。在这种情况下,本技术实施例支持采用目标规则来确定s=1或s=2时,第1周期和第2周期的统计数据集中的每种活跃分析类别的统计数据;目标规则可包括但不限于:设置默认值(如为第1个周期和第2个周期内的每种活跃分析类别的统计数据设置为常数);或者,求平均值(如计算s大于1的每个周期中的每种活跃分析类别的统计数据的平均值,并将该平均值作为第1个周期和/或第2个周期中相应活跃分析类别的统计数据);等等;本技术实施例对目标规则的具体内容不作限定。
[0150]
还需说明的是,在确定每个周期的统计数据集的过程中,可能存在某些周期内的某个对象标识出现的次数大于1;如图8所示的第s个周期内的对象标识a出现次数为3次,大于1次,表示该对象标识a对应的对象在第s个周期内3次登录目标应用程序。此情况下,考虑到本技术实施例涉及的新增类别、留存类别、回流类别以及流失类别均与对象标识在同一周期内出现的次数无关,则在确定第s个周期的统计数据集的过程中,需采用去重统计规则确定每种活跃分析类别的统计数据;所谓去重统计规则可是指:针对日志数据(或日志数据组成的序列)中出现重复的记录,只统计一次。
[0151]
s606:根据对象预测模型对n个周期的统计数据集进行预测处理,得到第t+1个周期的预测结果。
[0152]
根据图2所示实施例的具体实现过程,可得到训练好的对象预测模型,该对象预测模型具有较优的预测性能;那么在获取到第t+1个周期之前的n个周期的统计数据集后,可调用对象预测模型对n个周期的统计数据集进行预测处理,即将n个周期的统计数据集所包
含的统计数据输入至对象预测模型中,得到对象预测模型对该第t+1个周期的预测结果,该预测结果用于指示第t+1个周期内在目标应用业务中处于活跃状态的总对象数据。通过对第t+1个周期内在目标应用业务中处于活跃状态的活跃对象数的预测,能够让产品决策者及时提前了解目标应用业务的整体运营情况,避免目标应用业务出现故障造成的决策延迟。具体实现中,对象预测模型是根据m组预测优化系数及数据处理规则,得到第t+1个周期内在目标应用业务中处于活跃状态的总对象数据的;m种活跃分析类别中的每一种活跃分析类别对应一组预测优化系数,数据处理规则用于获取处于活跃状态的总对象数据。可选的,预测结果除包括第t+1个周期内在目标应用业务中处于活跃状态的总对象数据外,还可以包括第t+1个周期内m种活跃分析类别中的每种活跃分析类别的统计数据;本技术实施例对预测结果具体所包含的内容不作限定。
[0153]
另外,本技术实施例还支持根据对第t+1个周期预测得到的预测结果进行告警处理。具体实现中,首先,根据第t+1个周期之前的n个周期的处于活跃状态的总对象数据的均值参数确定置信区间,均值参数包括:均值和/或标准差;然后,检测第t+1个周期的预测结果所对应的总对象数据是否在置信区间内;若第t+1个周期的预测结果所对应的总对象数据不在置信区间内,表示该第t+1个周期的预测结果所对应的总对象数据不属于正常数据范围,则进行告警处理;若第t+1个周期的预测结果所对应的总对象数据在置信区间内,表示该第t+1个周期的预测结果所对应的总对象数据属于正常数据范围,则可不进行告警处理。
[0154]
下面结合图12对上述涉及的告警处理的实现过程进行更为详细介绍,如图12所示,假设第t+1个周期之前的n个周期包括:第t-n+1个周期、第t-n+2个周期、
…
、第t个周期。首先,获取n个周期中每个周期的统计数据集;然后,根据各个周期的统计数据集所包含的m种活跃分析类别的统计数据,计算得到各个周期的总对象数据dau;其次,按照n个周期的时间顺序走势,对n个周期的总对象数据进行排序,得到总对象数据序列[dau
t-n+1
,
…
,dau
t
];再根据均值计算公式,计算该总对象数据序列的均值,以及根据标准差计算公式计算该总对象数据序列的标准差;最后,根据计算的得到的均值和标准差构建得到总对象数据序列的置信区间。
[0155]
其中,上述描述的均值计算公式为:
[0156][0157]
标准差计算公式为:
[0158][0159]
i的取值范围为[0,
…
,n-1]中的整数,dau
t-i
表示第t-i个周期的总对象数据,如i=0,那么dau
t-i
=dau
t
,表示第t个周期的总对象数据。根据均值和标准差构建的置信区间为:
[0160][0161]
其中,z
a/2
表示置信度的取值,本技术实施例对置信度的具体取值数值不作限定,例如,z
a/2
可表示95%的置信度取值,或90%的置信度取值等。
[0162]
继续参见图12,在调用对象预测模型对第t+1个周期进行预测处理后,可得到第t+
1个周期的预测结果,该预测结果中包含第t+1个周期的总预测对象数据;那么可将该第t+1个周期的总预测对象数据与置信区间进行比较;若该第t+1个周期的总预测对象数据落入置信区间,则第t+1个周期的总预测对象数据发生异常(如第t+1个周期内在目标应用业务中的活跃对象的数量暴增或暴跌);反之,若该第t+1个周期的总预测对象数据位于置信区间之外,则第t+1个周期的总预测对象数据属于正常数据范围。
[0163]
进一步的,当第t+1个周期的预测结果所对应的总对象数据不属于置信区间时,表示预测的第t+1个周期的总对象数据可能少于正常数据范围,此时本技术实施例支持进行告警处理,以便于能够及时反馈产品的运营情况,及时调整目标应用业务的运营策略,降低运营风险。其中,告警处理可包括但不限于:向决策者输出告警通知;或者,自动进行运营策略切换;等等。
[0164]
一种实现方式中,告警处理包括向决策者输出告警通知。此实现方式中,计算机设备102在确定预测得到的第t+1个周期的总对象数据不属于置信区间时,可基于第t+1个周期的总对象数据生成告警通知,该告警通知可以携带预测得到的第t+1个周期的总对象数据和/或每种活跃分析类别下的统计数据,该告警通知用于指示预测得到的第t+1个周期的总对象数据不属于置信区间;然后,计算机设备102通过通讯工具将生成的告警通知发送给决策者,以便于决策者根据告警通知进行目标应用业务的调整。其中,根据采用的通讯工具的类型不同,告警通知的表现形式并不相同;例如:通讯工具为即时通信应用(如社交公共服务账号、社交应用程序等)时,告警通知可以表现为文本形式,此时可通过短信、邮件、会话消息等方式将告警通知发送给决策者;再如:通讯应用为能够进行通信的电子设备时,告警通知可以表现为语音,如通过电话形式将告警通知发送给决策者。需要说的是,具体采用哪一种或多种通讯工具进行告警通知的输出,可以是由决策者预先设定好的,或者,还可以是随机选择的,本技术实施例对此不作限定。
[0165]
其他实现方式中,告警处理包括自动进行运营策略切换。此实现方式中,计算机设备中事先设置并存储有多种运营策略,每种运营策略可能对应有不同总对象数据的设定数据范围,当对第t+1个周期预测得到的总对象数据落入哪个设定数据范围时,可将目标应用业务当前所采用的运营策略,切换为总对象数据落入的设定数据范围所对应的运营策略。这种告警处理方式,只需要决策者事先设置好多种运营策略即可,在后续对第t+1个周期预测的过程中,对于决策者而言,可实现无感的对第t+1个周期的运营策略进行调整。
[0166]
需要说明的是,上述只是给出两种示例性的告警处理的实现方式,在实际应用中,本技术实施例对告警处理的实现方式不作限定。例如,告警处理还包括执行预先设置的奖励规则(如用于激励在目标应用业务中处理活跃状态的活跃对象的规则),如计算机设备中事先设置并存储有不同的奖励规则,每种奖励规则对应不同的总对象数据(或设定数据范围);那么当预测得到的第t+1个周期的总对象数据后,可自动触发该总对象数据对应的奖励规则,实现激励在目标应用业务中处理活跃状态的活跃对象。另外可以理解的是,根据目标应用业务的不同,运营策略并不相同,如目标应用业务为注册成为目标应用程序的会员,则运营策略可以是为实现激励更多对象注册成为目标应用程序的会员的方法;本技术实施例对运营策略的具体内容不作限定。
[0167]
综上所述,本技术实施例能够将影响产品的活跃对象数的因素拆分为m种活跃分析类别,并针对每种活跃分析类别构建自回归模型进行模型训练,得到训练后的初始预测
模型,该训练后的初始预测模型中包含m种活跃分析类别中的每种活跃分析类别对应的初始预测子模型;每种初始预测子模型可用于预测相应活跃分析类别下的统计数据(或称为对象数);这使得本技术实施例训练得到的初始预测模型不仅能够更准确的预测周期内的活跃对象数,即训练得到的初始预测模型具有较优预测性能,而且能够预测每种活跃分析类别的活跃对象数,使得决策者可以更好地了解每种活跃分析类别对活跃对象数造成的影响,进而有助于更好制定运营策略,从而提高目标应用业务的运营效果。
[0168]
上述详细阐述了本技术实施例的方法,为了便于更好地实施本技术实施例的上述方案,相应地,下面提供了本技术实施例的装置。
[0169]
图13示出了本技术一个示例性实施例提供的一种预测处理装置的结构示意图;该预测处理装置可以用于是运行于计算机设备中的一个计算机程序(包括程序代码),例如该预测处理装置可以是计算机设备中的目标应用业务;该预测处理装置可以用于执行图2及图6所示的方法实施例中的部分或全部步骤。请参见图13,该预测处理装置包括如下单元:
[0170]
获取单元1301,用于响应于针对第t+1个周期的对象预测事件,获取第t+1个周期之前的n个周期的统计数据集,每个周期的统计数据集中包括:m种活跃分析类别下的统计数据,每个统计数据对应一种用于表征对象在目标应用业务中的活跃分析类别;m、n、t均为大于1的整数;
[0171]
处理单元1302,用于根据对象预测模型对n个周期的统计数据集进行预测处理,得到第t+1个周期的预测结果,预测结果用于指示第t+1个周期内在目标应用业务中处于活跃状态的总对象数据;
[0172]
其中,对象预测模型是根据m组预测优化系数及数据处理规则,得到第t+1个周期内在目标应用业务中处于活跃状态的总对象数据的;m种活跃分析类别中的每一种活跃分析类别对应一组预测优化系数,数据处理规则用于获取处于活跃状态的总对象数据。
[0173]
在一种实现方式中,处理单元1302,用于获取第t+1个周期之前的n个周期的统计数据集时,具体用于:
[0174]
根据第t+1个周期之前在时间上连续的q个周期的日志数据进行对象标识比较,q为大于或等于n的整数;
[0175]
根据对象标识比较结果,获取n个周期的统计数据集;
[0176]
其中,活跃分析类别包括:新增类别、留存类别、回流类别、流失类别中的任意一种或多种,n个周期的统计数据集包括:每种活跃分析类别下统计得到的对象标识的数量。
[0177]
在一种实现方式中,根据对象标识比较结果,获取n个周期的统计数据集,包括以下步骤中的任意一种或多种:
[0178]
根据对象标识比较结果,将属于第s个周期的日志数据,但不属于第s个周期之前的一个或多个周期的日志数据的对象标识,确定为新增类别下的对象标识;
[0179]
根据对象标识比较结果,将属于第s个周期的日志数据,且属于第s-1个周期的日志数据的对象标识,确定为留存类别下的对象标识;
[0180]
根据对象标识比较结果,将属于第s-2个周期的日志数据,且属于第s个周期的日志数据,但不属于第s-1个周期的日志数据的对象标识,确定为回流类别下的对象标识;
[0181]
根据对象标识比较结果,将不属于第i个周期的日志数据,但属于第s-1个周期的日志数据的对象标识,确定为流失类别下的对象标识;
[0182]
s为大于2且小于等于q的整数。
[0183]
在一种实现方式中,处理单元1302,还用于:
[0184]
检测第t+1个周期的预测结果所对应的总对象数据是否在置信区间内;
[0185]
若否,则进行告警处理;
[0186]
其中,置信区间是根据第t+1个周期之前的n个周期中处于活跃状态的总对象数据的均值参数确定的,均值参数包括:均值和/或标准差。
[0187]
在一种实现方式中,处理单元1302,还用于:
[0188]
从第t+1个周期之前的周期的统计数据集中,获取训练数据集和预测数据集;
[0189]
采用训练数据集对初始预测模型进训练,得到训练后的初始预测模型,训练后的初始预测模型中包含m组已预测系数;
[0190]
调用训练后的初始预测模型,对预测数据集进行预测处理,得到初始预测结果;
[0191]
若初始预测结果满足预测条件,则将训练后的初始预测模型确定为对象预测模型,以及将m组已预测系数确定为m组预测优化系数;
[0192]
若初始预测结果不满足预测条件,则再次对训练后的初始预测模型进行迭代训练。
[0193]
在一种实现方式中,训练数据集中包含p组训练数据集合,每组训练数据集合中包含在时间上连续的n个周期的统计数据集,预测数据集中包含p组预测数据集合,每组预测数据集合包含在时间上连续的n个周期的统计数据集;
[0194]
其中,第j组预测数据集合的第一个统计数据集是第j组训练数据集合的第二个统计数据集;p为大于1的整数,j为大于1且小于等于p的整数。
[0195]
在一种实现方式中,初始预测模型包括m个初始预测子模型,每个初始预测子模型对应一种活跃分析类别,初始预测模型中包含m组待预测系数,一组待预测系数对应一个初始预测子模型;处理单元1302,用于采用训练数据集对初始预测模型进训练,得到训练后的初始预测模型时,具体用于:
[0196]
采用训练数据集中的m种活跃分析类别对应的统计数据,分别对每个初始预测子模型包含的待预测系数进行优化训练,得到每个初始预测子模型的已预测系数。
[0197]
在一种实现方式中,处理单元1302,用于调用所述训练后的初始预测模型,对所述预测数据集进行预测处理,得到初始预测结果时,具体用于:
[0198]
调用训练后的初始预测模型,对预测数据集进行预测处理,得到预测数据集中的每个周期的总预测对象数据;
[0199]
根据预测数据集中的每个周期的总预测对象数据,与基于相应周期的统计数据集得到的总对象数据,确定相应周期的标准差指标;
[0200]
基于周期的标准差指标,得到预测数据集中的每个周期的标准差分布信息;
[0201]
将预测数据集中的每个周期的标准差分布信息确定为初始预测结果。
[0202]
在一种实现方式中,标准差分布信息为标准差分布图;
[0203]
初始预测结果满足预测条件包括:标准差分布图满足标准正态分布;若标准差走势图不满足标准正态分布,则确定初始预测结果不满足预测条件。
[0204]
在一种实现方式中,处理单元1302,用于调用所述训练后的初始预测模型,对所述预测数据集进行预测处理,得到所述预测数据集中的每个周期的总预测对象数据时,具体
用于:
[0205]
调用训练后的初始预测模型,对预测数据集中的m种活跃分析类别的统计数据进行预测处理,得到m种活跃分析类别中的每种活跃分析类别对应的预测统计数据;
[0206]
根据每种活跃分析类别对应的预测统计数据,确定得到预测数据集中的每个周期的总预测对象数据。
[0207]
根据本技术的一个实施例,图13所示的预测处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本技术的其它实施例中,该预测处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本技术的另一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2及图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图13中所示的预测处理装置,以及来实现本技术实施例的预测处理方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
[0208]
本技术实施例中,处理单元1302响应于针对目标应用业务的第t+1个周期的对象预测事件,可获取第t+1个周期之前的n个周期的统计数据集,该统计数据集中包含m种活跃分析类别对应的统计数据;然后,根据获取到的n个周期的统计数据集对第t+1个周期时目标应用业务的运营情况进行预测。上述方案中,可通过第t+1个周期之前的n个周期中的m种活跃分析类别的统计数据,较为准确地实现对第t+1个周期内处于活跃状态的的总对象数据的预测,有助于更好制定运营策略,从而提高目标应用业务的运营效益。
[0209]
图14示出了本技术一个示例性实施例提供的一种计算机设备的结构示意图。请参见图14,该计算机设备,包括处理器1401、通信接口1402以及计算机可读存储介质1403。其中,处理器1401、通信接口1402以及计算机可读存储介质1403可通过总线或者其它方式连接。其中,通信接口1402用于接收和发送数据。计算机可读存储介质1403可以存储在计算机设备的存储器中,计算机可读存储介质1403用于存储计算机程序,计算机程序包括程序指令,处理器1401用于执行计算机可读存储介质1403存储的程序指令。处理器1401(或称cpu(central processing unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
[0210]
本技术实施例还提供了一种计算机可读存储介质(memory),计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备的处理系统。并且,在该存储空间中还存放了适于被处理器1401加载并执行的一条或多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例
如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机可读存储介质。
[0211]
在一个实施例中,该计算机设备可以是前述实施例提到的服务器;该计算机可读存储介质中存储有一条或多条指令;由处理器1401加载并执行计算机可读存储介质中存放的一条或多条指令,以实现上述预测处理方法实施例中的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器1401加载并执行如下步骤:
[0212]
响应于针对第t+1个周期的对象预测事件,获取第t+1个周期之前的n个周期的统计数据集,每个周期的统计数据集中包括:m种活跃分析类别下的统计数据,每个统计数据对应一种用于表征对象在目标应用业务中的活跃分析类别;m、n、t均为大于1的整数;
[0213]
根据对象预测模型对n个周期的统计数据集进行预测处理,得到第t+1个周期的预测结果,预测结果用于指示第t+1个周期内在目标应用业务中处于活跃状态的总对象数据;
[0214]
其中,对象预测模型是根据m组预测优化系数及数据处理规则,得到第t+1个周期内在目标应用业务中处于活跃状态的总对象数据的;m种活跃分析类别中的每一种活跃分析类别对应一组预测优化系数,数据处理规则用于获取处于活跃状态的总对象数据。
[0215]
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取第t+1个周期之前的n个周期的统计数据集时,具体执行如下步骤:
[0216]
根据第t+1个周期之前在时间上连续的q个周期的日志数据进行对象标识比较,q为大于或等于n的整数;
[0217]
根据对象标识比较结果,获取n个周期的统计数据集;
[0218]
其中,活跃分析类别包括:新增类别、留存类别、回流类别、流失类别中的任意一种或多种,n个周期的统计数据集包括:每种活跃分析类别下统计得到的对象标识的数量。
[0219]
在一种实现方式中,根据对象标识比较结果,获取n个周期的统计数据集,包括以下步骤中的任意一种或多种:
[0220]
根据对象标识比较结果,将属于第s个周期的日志数据,但不属于第s个周期之前的一个或多个周期的日志数据的对象标识,确定为新增类别下的对象标识;
[0221]
根据对象标识比较结果,将属于第s个周期的日志数据,且属于第s-1个周期的日志数据的对象标识,确定为留存类别下的对象标识;
[0222]
根据对象标识比较结果,将属于第s-2个周期的日志数据,且属于第s个周期的日志数据,但不属于第s-1个周期的日志数据的对象标识,确定为回流类别下的对象标识;
[0223]
根据对象标识比较结果,将不属于第s个周期的日志数据,但属于第s-1个周期的日志数据的对象标识,确定为流失类别下的对象标识;
[0224]
s为大于2且小于等于q的整数。
[0225]
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1401加载并还执行如下步骤:
[0226]
检测第t+1个周期的预测结果所对应的总对象数据是否在置信区间内;
[0227]
若否,则进行告警处理;
[0228]
其中,置信区间是根据第t+1个周期之前的n个周期中处于活跃状态的总对象数据的均值参数确定的,均值参数包括:均值和/或标准差。
[0229]
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1401加载
并还执行如下步骤:
[0230]
从第t+1个周期之前的周期的统计数据集中,获取训练数据集和预测数据集;
[0231]
采用训练数据集对初始预测模型进训练,得到训练后的初始预测模型,训练后的初始预测模型中包含m组已预测系数;
[0232]
调用训练后的初始预测模型,对预测数据集进行预测处理,得到初始预测结果;
[0233]
若初始预测结果满足预测条件,则将训练后的初始预测模型确定为对象预测模型,以及将m组已预测系数确定为m组预测优化系数;
[0234]
若初始预测结果不满足预测条件,则再次对训练后的初始预测模型进行迭代训练。
[0235]
在一种实现方式中,训练数据集中包含p组训练数据集合,每组训练数据集合中包含在时间上连续的n个周期的统计数据集,预测数据集中包含p组预测数据集合,每组预测数据集合包含在时间上连续的n个周期的统计数据集;
[0236]
其中,第j组预测数据集合的第一个统计数据集是第j组训练数据集合的第二个统计数据集;p为大于1的整数,j为大于1且小于等于p的整数。
[0237]
在一种实现方式中,初始预测模型包括m个初始预测子模型,每个初始预测子模型对应一种活跃分析类别,初始预测模型中包含m组待预测系数,一组待预测系数对应一个初始预测子模型;计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行采用训练数据集对初始预测模型进训练,得到训练后的初始预测模型时,具体执行如下步骤:
[0238]
采用训练数据集中的m种活跃分析类别对应的统计数据,分别对每个初始预测子模型包含的待预测系数进行优化训练,得到每个初始预测子模型的已预测系数。
[0239]
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行调用所述训练后的初始预测模型对所述预测数据集进行预测处理,得到初始预测结果时,具体执行如下步骤:
[0240]
调用训练后的初始预测模型,对预测数据集进行预测处理,得到预测数据集中的每个周期的总预测对象数据;
[0241]
根据预测数据集中的每个周期的总预测对象数据,与基于相应周期的统计数据集得到的总对象数据,确定相应周期的标准差指标;
[0242]
基于周期的标准差指标,得到预测数据集中的每个周期的标准差分布信息;
[0243]
将预测数据集中的每个周期的标准差分布信息确定为初始预测结果。
[0244]
在一种实现方式中,标准差分布信息为标准差分布图;
[0245]
初始预测结果满足预测条件包括:标准差分布图满足标准正态分布;若标准差走势图不满足标准正态分布,则确定初始预测结果不满足预测条件。
[0246]
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行调用所述训练后的初始预测模型,对所述预测数据集进行预测处理,得到所述预测数据集中的每个周期的总预测对象数据时,具体执行如下步骤:
[0247]
调用训练后的初始预测模型,对预测数据集中的m种活跃分析类别的统计数据进行预测处理,得到m种活跃分析类别中的每种活跃分析类别对应的预测统计数据;
[0248]
根据每种活跃分析类别对应的预测统计数据,确定得到预测数据集中的每个周期的总预测对象数据。
[0249]
本技术实施例中,处理器1401响应于针对目标应用业务的第t+1个周期的对象预测事件,可获取第t+1个周期之前的n个周期的统计数据集,该统计数据集中包含m种活跃分析类别对应的统计数据;然后,根据获取到的n个周期的统计数据集对第t+1个周期时目标应用业务的运营情况进行预测。上述方案中,可通过第t+1个周期之前的n个周期中的m种活跃分析类别的统计数据,较为准确地实现对第t+1个周期内处于活跃状态的的总对象数据的预测,有助于更好制定运营策略,从而提高目标应用业务的运营效益。
[0250]
本技术实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述预测处理方法。
[0251]
本领域普通技术人员可以意识到,结合本技术中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用,使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0252]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、数字用户线(dsl))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如,固态硬盘(solid state disk,ssd))等。
[0253]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种预测处理方法,其特征在于,包括:响应于针对第t+1个周期的对象预测事件,获取所述第t+1个周期之前的n个周期的统计数据集,每个周期的统计数据集中包括:m种活跃分析类别下的统计数据,每个统计数据对应一种用于表征对象在目标应用业务中的活跃分析类别;m、n、t均为大于1的整数;根据对象预测模型对所述n个周期的统计数据集进行预测处理,得到所述第t+1个周期的预测结果,所述预测结果用于指示所述第t+1个周期内在目标应用业务中处于活跃状态的总对象数据;其中,所述对象预测模型是根据m组预测优化系数及数据处理规则,得到所述第t+1个周期内在目标应用业务中处于活跃状态的总对象数据的;所述m种活跃分析类别中的每一种活跃分析类别对应一组预测优化系数,所述数据处理规则用于获取处于活跃状态的总对象数据。2.如权利要求1所述的方法,其特征在于,所述获取所述第t+1个周期之前的n个周期的统计数据集,包括:根据所述第t+1个周期之前在时间上连续的q个周期的日志数据进行对象标识比较,q为大于或等于n的整数;根据对象标识比较结果,获取n个周期的统计数据集;其中,所述活跃分析类别包括:新增类别、留存类别、回流类别、流失类别中的任意一种或多种,n个周期的统计数据集包括:每种活跃分析类别下统计得到的对象标识的数量。3.如权利要求2所述的方法,其特征在于,所述根据对象标识比较结果,获取n个周期的统计数据集,包括以下步骤中的任意一种或多种:根据对象标识比较结果,将属于第s个周期的日志数据,但不属于所述第s个周期之前的一个或多个周期的日志数据的对象标识,确定为所述新增类别下的对象标识;根据对象标识比较结果,将属于第s个周期的日志数据,且属于第s-1个周期的日志数据的对象标识,确定为所述留存类别下的对象标识;根据对象标识比较结果,将属于第s-2个周期的日志数据,且属于所述第s个周期的日志数据,但不属于第s-1个周期的日志数据的对象标识,确定为所述回流类别下的对象标识;根据对象标识比较结果,将不属于所述第s个周期的日志数据,但属于第s-1个周期的日志数据的对象标识,确定为所述流失类别下的对象标识;s为大于2且小于等于q的整数。4.如权利要求1所述的方法,其特征在于,所述方法还包括:检测所述第t+1个周期的预测结果所对应的总对象数据是否在置信区间内;若否,则进行告警处理;其中,所述置信区间是根据所述第t+1个周期之前的n个周期中处于活跃状态的总对象数据的均值参数确定的,所述均值参数包括:均值和/或标准差。5.如权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:从所述第t+1个周期之前的周期的统计数据集中,获取训练数据集和预测数据集;采用所述训练数据集对初始预测模型进训练,得到训练后的初始预测模型,所述训练后的初始预测模型中包含m组已预测系数;
调用所述训练后的初始预测模型,对所述预测数据集进行预测处理,得到初始预测结果;若所述初始预测结果满足预测条件,则将所述训练后的初始预测模型确定为对象预测模型,以及将所述m组已预测系数确定为所述m组预测优化系数;若所述初始预测结果不满足预测条件,则再次对所述训练后的初始预测模型进行迭代训练。6.如权利要求5所述的方法,其特征在于,所述训练数据集中包含p组训练数据集合,每组训练数据集合中包含在时间上连续的n个周期的统计数据集,所述预测数据集中包含p组预测数据集合,每组预测数据集合包含在时间上连续的n个周期的统计数据集;其中,第j组预测数据集合的第一个统计数据集是第j组训练数据集合的第二个统计数据集;p为大于1的整数,j为大于1且小于等于p的整数。7.如权利要求6所述的方法,其特征在于,所述初始预测模型包括m个初始预测子模型,每个初始预测子模型对应一种活跃分析类别,所述初始预测模型中包含m组待预测系数,一组待预测系数对应一个初始预测子模型;所述采用所述训练数据集对初始预测模型进训练,得到训练后的初始预测模型,包括:采用所述训练数据集中的m种活跃分析类别对应的统计数据,分别对每个初始预测子模型包含的待预测系数进行优化训练,得到所述每个初始预测子模型的已预测系数。8.如权利要求5所述的方法,其特征在于,所述调用所述训练后的初始预测模型,对所述预测数据集进行预测处理,得到初始预测结果,包括:调用所述训练后的初始预测模型,对所述预测数据集进行预测处理,得到所述预测数据集中的每个周期的总预测对象数据;根据所述预测数据集中的每个周期的总预测对象数据,与基于相应周期的统计数据集得到的总对象数据,确定相应周期的标准差指标;基于周期的标准差指标,得到所述预测数据集中的每个周期的标准差分布信息;将所述预测数据集中的每个周期的标准差分布信息确定为初始预测结果。9.如权利要求8所述的方法,其特征在于,所述标准差分布信息为标准差分布图;所述初始预测结果满足预测条件包括:所述标准差分布图满足标准正态分布;若所述标准差走势图不满足标准正态分布,则确定所述初始预测结果不满足预测条件。10.如权利要求8所述的方法,其特征在于,所述调用所述训练后的初始预测模型,对所述预测数据集进行预测处理,得到所述预测数据集中的每个周期的总预测对象数据,包括:调用所述训练后的初始预测模型,对所述预测数据集中的m种活跃分析类别的统计数据进行预测处理,得到所述m种活跃分析类别中的每种活跃分析类别对应的预测统计数据;根据所述每种活跃分析类别对应的预测统计数据,确定得到所述预测数据集中的每个周期的总预测对象数据。11.一种预测处理装置,其特征在于,包括:获取单元,用于响应于针对第t+1个周期的对象预测事件,获取所述第t+1个周期之前的n个周期的统计数据集,每个周期的统计数据集中包括:m种活跃分析类别下的统计数据,
每个统计数据对应一种用于表征对象在目标应用业务中的活跃分析类别;m、n、t均为大于1的整数;处理单元,用于根据对象预测模型对所述n个周期的统计数据集进行预测处理,得到所述第t+1个周期的预测结果,所述预测结果用于指示所述第t+1个周期内在目标应用业务中处于活跃状态的总对象数据;其中,所述对象预测模型是根据m组预测优化系数及数据处理规则,得到所述第t+1个周期内在目标应用业务中处于活跃状态的总对象数据的;所述m种活跃分析类别中的每一种活跃分析类别对应一组预测优化系数,所述数据处理规则用于获取处于活跃状态的总对象数据。12.一种计算机设备,其特征在于,包括:处理器,适于执行计算机程序;计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-10任一项所述的预测处理方法。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-10所述的预测处理方法。14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1-10所述的预测处理方法。
技术总结
本申请实施例公开了一种预测处理方法、装置、设备、介质及程序产品,其中的方法包括:响应于针对第t+1个周期的对象预测事件,可获取第t+1个周期之前的n个周期的统计数据集,并采用对象预测模型对n个周期的统计数据集进行预测处理,得到第t+1个周期的预测结果,该预测结果指示了第t+1个周期内在目标应用业务中处于活跃状态的总对象数据。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶、车联网等各种场景,能够较好地对目标应用业务的对象活跃情况进行预测。活跃情况进行预测。活跃情况进行预测。
技术研发人员:钟子宏
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.02.17
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/