数据预测方法、装置及电子设备与流程

未命名 10-08 阅读:96 评论:0


1.本发明涉及零售行业的指标远期预测技术领域,尤其是涉及一种数据预测方法、装置及电子设备。


背景技术:

2.零售商超行业场景下相关业务人员需要对未来做非常长期的估计:比如进口商品的订货、商品的汰换等。目前常用的方法通常为采用很多短期预测的模型进行超远期指标估计,比如传统时序模型、机器学习模型神经网络模型,但是由于预测远期预测,预测窗口较长,需要模型滚动预测,因此使用上述三类短期预测的模型,会很快收敛到近期均值,很难去把握未来的上涨或下降趋势,而且容易导致预测出现偏差,缺乏准确性和可靠性。


技术实现要素:

3.本发明的目的在于提供一种数据预测方法、装置及电子设备,以提高预测的准确性和可靠性。
4.本发明提供的一种数据预测方法,其特征在于,方法包括:
5.根据预先获取的指定类别的待预测对象对应的多个历史指标数据,确定待预测对象对应的子标准指标分布图;将符合预设条件的每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图;基于总标准指标分布图和预设的分位点区间范围,确定参数阈值;基于参数阈值,对待预测对象对应的多个历史指标数据进行处理,得到待预测对象对应的目标历史指标数据;采用最小二乘回归法对待预测对象对应的目标历史指标数据进行拟合,得到待预测对象对应的目标对数衰减模型;基于目标对数衰减模型和预先设置的每个预测时间段,生成待预测对象在对应预测时间段内的预测指标数据。
6.进一步的,根据预先获取的指定类别的待预测对象对应的多个历史指标数据,确定待预测对象对应的子标准指标分布图的步骤包括:获取指定类别的待预测对象在多个历史时间段分别对应的多个历史指标数据;基于历史时间段的数量和多个历史指标数据,计算待预测对象对应的历史平均指标数据;基于历史平均指标数据和多个历史指标数据,计算待预测对象对应的历史标准差指标数据;基于多个历史指标数据、历史平均指标数据和历史标准差指标数据,计算待预测对象在每个历史时间段分别对应的历史标准指标数据;基于每个历史标准指标数据,确定待预测对象对应的子标准指标分布图。
7.进一步的,将符合预设条件的每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图的步骤包括:基于预设阈值,从指定类别对应的待预测对象中选择历史平均指标数据大于预设阈值的每个目标历史平均指标数据对应的目标待预测对象;基于每个目标待预测对象,从多个子标准指标分布图中,选择每个目标待预测对象对应的第一子标准指标分布图;将每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图。
8.进一步的,基于总标准指标分布图和预设的分位点区间范围,确定参数阈值的步
骤包括:基于总标准指标分布图,以0.1%为步进,从总标准指标分布图中获取分位点区间范围中的每个分位点对应的总标准指标数据;计算分位点区间范围中每两个相邻的分位点对应的总标准指标数据之间的差值,得到每个分位点对应的差值结果;基于每个差值结果,确定目标分位点;其中,目标分位点对应的目标差值结果大于与目标分位点前后相邻的两个分位点分别对应的差值结果;获取目标分位点对应的目标总标准指标数据,并将目标总标准指标数据确定为参数阈值。
9.进一步的,基于参数阈值,对待预测对象对应的多个历史指标数据进行处理,得到待预测对象对应的目标历史指标数据的步骤包括:基于参数阈值,以及待预测对象对应的历史平均指标数据、历史标准差指标数据,确定待预测对象对应的划分阈值;基于划分阈值,将待预测对象对应的多个历史指标数据中超过划分阈值的异常历史指标数据替换为划分阈值;将待预测对象对应的多个历史指标数据中未超过划分阈值的正常历史销量数据和待预测对象对应的替换后的划分阈值,确认为待预测对象对应的目标历史指标数据。
10.进一步的,方法还包括:将每个预测指标数据进行可视化展示,得到可视化信息;基于可视化信息生成决策信息、报警信息。
11.本发明提供的一种数据预测装置,装置包括:第一确定模块,用于根据预先获取的指定类别的待预测对象对应的多个历史指标数据,确定待预测对象对应的子标准指标分布图;叠加模块,用于将符合预设条件的每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图;第二确定模块,用于基于总标准指标分布图和预设的分位点区间范围,确定参数阈值;处理模块,用于基于参数阈值,对待预测对象对应的多个历史指标数据进行处理,得到待预测对象对应的目标历史指标数据;拟合模块,用于采用最小二乘回归法对待预测对象对应的目标历史指标数据进行拟合,得到待预测对象对应的目标对数衰减模型;生成模块,用于基于目标对数衰减模型和预先设置的每个预测时间段,生成待预测对象在对应预测时间段内的预测指标数据。
12.进一步的,第二确定模块还用于:基于总标准指标分布图,以0.1%为步进,从总标准指标分布图中获取分位点区间范围中的每个分位点对应的总标准指标数据;计算分位点区间范围中每两个相邻的分位点对应的总标准指标数据之间的差值,得到每个分位点对应的差值结果;基于每个差值结果,确定目标分位点;其中,目标分位点对应的目标差值结果大于与目标分位点前后相邻的两个分位点分别对应的差值结果;获取目标分位点对应的目标总标准指标数据,并将目标总标准指标数据确定为参数阈值。
13.本发明提供的一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述任一项的数据预测方法。
14.本发明提供的一种机器可读存储介质,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述任一项的数据预测方法。
15.本发明提供的数据预测方法、装置及电子设备,方法包括:将符合预设条件的每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图;基于总标准指标分布图和预设的分位点区间范围,确定参数阈值;基于参数阈值,得到待预测对象对应的目标历史指标数据;基于目标历史指标数据可以拟合得到目标对数衰减模型,基于目标对数衰减模和每个预测时间段生成待预测对象在对应预测时间段内的预测指标数据。该方式中,
基于总标准指标分布图和预设的分位点区间范围,确定参数阈值,可以获取更加合理稳健的参数阈值,而且采用目标对数衰减模型预测指标数据,可以避免对未来趋势过度高估或过度低估而影响预测结果,提高了预测的准确性和可靠性。
附图说明
16.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1为本发明实施例提供的一种数据预测方法的流程图;
18.图2为本发明实施例提供的另一种数据预测方法的流程图;
19.图3为本发明实施例提供的一种多个待预测对象分别对应的子标准指标分布图;
20.图4为本发明实施例提供的一种指定类别的总标准指标分布图;
21.图5为本发明实施例提供的一种分位点区间范围中的每个分位点对应的总标准指标数据示意图;
22.图6为本发明实施例提供的一种分位点区间范围中每个分位点对应的差值结果示意图;
23.图7为本发明实施例提供的一种位点区间范围中每个分位点对应的标准销量分布位置示意图;
24.图8为本发明实施例提供的一种销量水平不同的多个商品分别对应的异常值判定阈值示意图;
25.图9为本发明实施例提供的一种线性回归模型和目标对数衰减模型分别对应的远期趋势估计示意图;
26.图10为本发明实施例提供的一种商品预测指标数据可视化后的示意图;
27.图11为本发明实施例提供的另一种商品预测指标数据可视化后的示意图;
28.图12为本发明实施例提供的一种数据预测的预测过程示意图;
29.图13为本发明实施例提供的一种数据预测装置的结构示意图;
30.图14为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
31.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
32.零售商超行业,不管是线上网购还是线下超市,在供应链端、销售端等环节都有很强的计划性:在供应链端,需要根据商品货物未来一段时间的订货量趋势向供应商订货;在销售端,销售人员需要根据商品的销售趋势来计划未来的促销活动或商品上下架处理、根据人流量/点击率等指标趋势设计未来的促达计划;相关集团财务人员需要估计未来长期收益等指标,从而进行更好的商业决策。
33.更进一步的,很多场景下相关业务人员需要对未来做非常长期的估计:比如进口商品的订货、商品的汰换等。对门店订货量趋势进行远期预测,可以用于仓库向海外供应商签远期订单,它的订货计划直接影响下游卖场及销售状况。如何既保障卖场商品的正常供应,又要保证商品的库存水位不至于过高导致积压,并且还要考虑供应商到货周期的约束(尤其是进口商品),因此,向供应商预估出合理的补货量是非常重要的。
34.现在市面上很多短期预测的模型,大致分为三类:
35.传统时序模型:ar、ma、arima、arch等;
36.机器学习模型:svm、xgboost、lightgbm等;
37.神经网络模型:rnn、lstm、transformer等;
38.重要的是,对于远期预测,预测窗口较长,需要模型滚动预测(即将前阶段预测值作为下阶段的输入参数),因此对于第1类模型会很快收敛到近期均值,很难去把握未来的上涨或下降趋势,容易导致预测缺乏准确性和可靠性。
39.对于第2、第3类模型,该方案相较于第一种在短期预测的场景准确率更高,但其依赖非常多的业务特征,对未来预测的时候,它们非常依赖未来具体的标签,如果模型加入了价格、天气或者近期销售等指标,那么在远期预测的时候这些未来指标将会变得非常不可靠,但如果不把这些指标加入模型,这些模型也不再具备优势。并且,对于近期销售水平等指标,如果仍然采用滚动预测,还是会趋于均值预测,很难把握长期势头,也容易导致预测缺乏准确性和可靠性。
40.其次,对于第1类传统时序预测方法,对每个序列单独建模,并且有繁琐的定阶和检验,并且对待预测序列的平稳性有一定要求。对于第2、3类模型不需要统计检验,模型复杂度稍高一点,也更适合较多的输入信息,这也带来一定的计算开销。
41.其他的还有传统小商家是基于人工计算,基于店员判断,人为判断会带来商品遗漏与估计偏差。且不同门店店员经验不一、操作不规范,会造成不同程度的运营损失。并且,其也带来了一定程度的人力损耗。
42.基于此,本发明实施例提供了一种数据预测方法、装置及电子设备,该技术应用于需要对零售行业的指标进行远期预测的应用中。
43.为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据预测方法进行详细介绍,如图1所示,该方法包括如下步骤:
44.步骤s102,根据预先获取的指定类别的待预测对象对应的多个历史指标数据,确定待预测对象对应的子标准指标分布图。
45.上述指定类别可以理解为某个商品类目,比如肉制品类、饮料类等;待预测对象可以理解为该商品类目下的某个单品(也可以称为店品、商品),其中,一个商品类目下可以有多个单品,比如肉制品类可以包括猪肉、牛肉、羊肉等。
46.上述历史指标数据,可以是历史销量数据、历史人流量数据、历史点击率数据、历史收益数据等。
47.假设以历史销量数据为例,在具体实现过程中,可以先获取同一类目下的每个商品对应的多个历史销量数据,进而获取对应的标准差和平均销量,然后再根据多个历史销量数据、标准差和平均销量确定该类目下的每个商品对应的子标准指标分布图。
48.步骤s104,将符合预设条件的每个第一子标准指标分布图进行叠加,得到指定类
别的总标准指标分布图。
49.在具体实现过程中,对于长远期预测,由于难以准确获取很多辅助信息,所以对已有的历史序列(相当于上述多个历史指标数据)要求比较高,一般需要将历史序列中异常点进行剔除处理,由于不同商品由于波动水平的不同,其用于剔除异常值的划分阈值也应该不同,一般来说,该划分阈值应与商品的平均波动水平成正比,而划分阈值又需要基于参数阈值计算得到。因此,n(参数阈值)的选择是否合理直接决定了异常值是否剔除合理,所以n的合理选择是十分重要的。
50.而实际上单个店品的样本(历史指标数据)较少,且规律不稳定,如果在单品上去寻找合适的n(也即参数阈值)很容易过渡假设。因此,可以考虑将同一类目下的所有店品纳入到统一的框架下进行估计。
51.上述预设条件可以是平均销量大于1,具体的,可以将同一类目下的平均销量大于1的每个商品(也称典型商品)对应的子标准指标分布图进行叠加处理,得到该类别的总标准指标分布图(也即将标准化的单品分布叠加求得类目总体分布),在此基础上有利于后续可以获取更加合理的、稳健的用于判定异常值的参数阈值。
52.步骤s106,基于总标准指标分布图和预设的分位点区间范围,确定参数阈值。
53.在具体实现过程中,在已有的商品总体标准化分布(总标准指标分布图)下,可以寻找能够较好区分异常值和正常值的分界点(剔大单阈值,也即划分阈值),一般可以利用不同的分位数分布实现,仍以历史销量数据为例,考虑到通常异常偏大的销售样本(历史销售数据)占总样本比例小于等于2%,即平均每品异常大的销售概率不大于2%,可以将分位点区间范围预先设置为[0.1%,2%],然后以0.1%为步进,得到从大到小各分位点(0.1%、0.2%、...、2%)在总标准指标分布图中的位置,进而得到各分位点对应的总标准销售数据,当发现相邻两个分位点之间的分布规律出现断层时,可以将两个分位点中数字最大的分位点对应的总标准销售数据确定为参数阈值。
[0054]
步骤s108,基于参数阈值,对待预测对象对应的多个历史指标数据进行处理,得到待预测对象对应的目标历史指标数据。
[0055]
在具体实现过程中,根据参数阈值可以计算得到每个商品对应的划分阈值,基于划分阈值可以处理对应商品的多个历史指标数据,具体的可以将商品的异常值(也即大于划分阈值的历史指标数据)替换为该商品对应划分阈值,而正常值(也即不大于划分阈值的历史指标数据)则保持不变,然后将原本的正常值和替换后的划分阈值共同确定为目标历史指标数据。
[0056]
步骤s110,采用最小二乘回归法对待预测对象对应的目标历史指标数据进行拟合,得到待预测对象对应的目标对数衰减模型。
[0057]
当需要对进口商品的超远期估计时,回归模型所需要的解释变量可能无法再在未来得到,因此更多需要依赖序列本身的趋势规律。前面提到了传统的arma等模型,很快收敛到近期均值,很难去把握远期的上涨或下降趋势,于是可以考虑用简单模型先拟合后延拓的方式对远期进行估计。延拓就是将历史序列拟合出来的函数拓展至未来,一般用线性函数延拓,但其会导致对未来序列的趋势过度高估或过度低估,因为任何趋势都不会永远单向地延伸下去,因此,本方案可以考虑对趋势进行对数衰减。
[0058]
在具体实现过程中,在已经处理异常的目标历史指标数据基础上,可以采用最小
二乘回归法对预先设置的对数衰减模型进行拟合,得到目标对数衰减模模型。
[0059]
具体的,仍以上述历史指标数据是历史销量数据为例,可以将处理异常值后得到的目标历史指标数据用序列p[j][t]表示,其中,j代表商品标识,指类目下第j个商品,p[j][t]表示商品j在第t天经过异常值处理后的历史销量;然后将商品j处理后的序列p[j][t]当做因变量,t作为自变量,去拟合如下形式的对数函数:y(t)=a*ln(t+1)+b;其中a、b为模型参数,实际实现时采用最小二乘回归即可求得a、b对应的具体数值;其中t为历史预测天数,1天可以代表1个历史时间段。
[0060]
上述函数y(t)=a*ln(t+1)+b中,之所以选择(t+1),而不是选择(t+n),n为大于1的值,主要是考虑到当历史指标数据较少时(如新品),低样本量会导致模型对随机波动的过度解释,如线性回归,而在(t+1)较小时,ln(t+1)有能力去拟合较大的随机趋势,但又不会过度解释趋势而影响未来预测,而(t+n)当n为大值时更倾向于线性拟合。
[0061]
因此利用上述目标对数衰减模型进行远期趋势估计时,即便是处于新品应用场景中,也依然可以实现合理、稳健、准确的预估。
[0062]
步骤s112,基于目标对数衰减模型和预先设置的每个预测时间段,生成待预测对象在对应预测时间段内的预测指标数据。
[0063]
在具体实现过程中,当得到函数y(t)=a*ln(t+1)+b的具体参数a、b后,可以对未来进行估计。具体的,对于某商品在第x天的销售估计量d[x]可以为:
[0064][0065]
如果要对某商品未来x天总销售估计量d的估计,计算方式如下:
[0066][0067]
如需更高运行效率,还可以直接计算函数a*ln(x+t+1)+b积分,代入x的值即可得到总销售估计量。
[0068]
当生成某商品在第x天的销售估计量后,可以以此为依据进行促销、汰换等进一步的决策。
[0069]
实际上,上述总销售估计量与订货总需求量是一致的,因此当预测得到总销售估计量之后,可以将总销售估计量作为订货总需求量用于向海外供应商签远期订单。
[0070]
进一步的,如果上述历史指标数据为历史人流量数据、历史点击率数据、历史收益数据时,上述步骤s112生成的预测指标数据,还可以是预测人流量数据、预测点击率数据、预测历史收益数据,同样可以以预测人流量数据、预测点击率数据、预测历史收益数据为依据,对商品的促销、汰换进行决策。
[0071]
上述数据预测方法,方法包括:将符合预设条件的每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图;基于总标准指标分布图和预设的分位点区间范围,确定参数阈值;基于参数阈值,得到待预测对象对应的目标历史指标数据;基于目标历史指标数据可以拟合得到目标对数衰减模型,基于目标对数衰减模和每个预测时间段生成待预测对象在对应预测时间段内的预测指标数据。该方式中,基于总标准指标分布图和预设的分位点区间范围,确定参数阈值,可以获取更加合理稳健的参数阈值,而且采用目标
对数衰减模型预测指标数据,可以避免对未来趋势过度高估或过度低估而影响预测结果,提高了预测的准确性和可靠性。
[0072]
本发明实施例还提供了另一种数据预测方法,该方法在上述实施例方法的基础上实现;如图2所示,该方法包括如下步骤:
[0073]
步骤s202,获取指定类别的待预测对象在多个历史时间段分别对应的多个历史指标数据。
[0074]
上述多个历史时间段可以理解为参考历史天数t:当前日期前t天作为参考历史,一般可以将t取值为450天,因此可以获取指定类别的待预测对象在过去450天中,每天对应的历史指标数据。
[0075]
步骤s204,基于历史时间段的数量和多个历史指标数据,计算待预测对象对应的历史平均指标数据。
[0076]
上述多个历史指标数据可以用历史序列表示,比如s[j][t](也相当于二维数组,大小为j*h)。s[j][t]可以是商品j在第t天的原始指标数据(比如原始日销量)。
[0077]
上述待预测对象对应的历史平均指标数据实际上也是历史序列均值s_avg[j],具体可以通过以下公式求得:
[0078][0079]
因此,当获取到多个历史指标数据后,可以将多个历史指标数据求和得到第一求和结果,并将第一求和结果除以历史时间段的数量,计算得到历史平均指标数据。
[0080]
步骤s206,基于历史平均指标数据和多个历史指标数据,计算待预测对象对应的历史标准差指标数据。
[0081]
上述待预测对象对应的历史标准差指标数据实际上也是历史序列标准差s_std[j],具体可以通过以下公式求得:
[0082][0083]
因此,当获取到历史平均指标数据后,可以将多个历史指标数据分别与历史平均指标数据作差得到多个差值结果,并将多个差值结果的平方值进行求和,得到第二求和结果,将第二求和结果除以历史时间段的数量在开方,就可已得到历史标准差指标数据。
[0084]
步骤s208,基于多个历史指标数据、历史平均指标数据和历史标准差指标数据,计算待预测对象在每个历史时间段分别对应的历史标准指标数据。
[0085]
上述待预测对象在每个历史时间段分别对应的历史标准指标数据实际上也是历史标准化序列v[j][t],具体可以通过以下公式求得:
[0086][0087]
其中,v[j][t]可以是商品j在第t天的历史标准指标数据。
[0088]
步骤s210,基于每个历史标准指标数据,确定待预测对象对应的子标准指标分布图。
[0089]
具体实现时,不同的商品波动幅度不同,可以将不同店品样本s[j][t]根据该品的
平均销量s_avg[j]和平均波动s_std[j]进行标准化,得到标准化序列v[j][t],具体的,可以参见如图3所示的多个待预测对象分别对应的子标准指标分布图(比如不同商品历史销量的标准分布图),其中,图3的横坐标均可以代表不同的历史标准指标数据,纵坐标表示每个历史标准指标数据对应的样本数量,比如获取到某商品的450个历史指标数据,则通过标准化后,这450个历史指标数据可以对应450个历史标准指标数据,其中,这450个历史标准指标数据中有可能存在相同的数值,例如第5个和第7个历史指标数据对应的历史标准指标数据均为4(也即450个历史指标数据中有2个历史指标数据对应的历史标准指标数据相同),则该商品对应的子标准指标分布图中横坐标为4时,对应的纵坐标为2。
[0090]
步骤s212,基于预设阈值,从指定类别对应的待预测对象中选择历史平均指标数据大于预设阈值的每个目标历史平均指标数据对应的目标待预测对象。
[0091]
步骤s214,基于每个目标待预测对象,从多个子标准指标分布图中,选择每个目标待预测对象对应的第一子标准指标分布图。
[0092]
步骤s216,将每个第一子标准销量分布图进行叠加,得到指定类别的总标准指标分布图。
[0093]
具体实现时,以历史指标数据是历史销售数据为例,商品由于波动水平的不同,其异常大单(真实销量s[j][t]-平均销量s_avg[j])的剔除的阈值也应该不同,一般来说,该阈值应与商品的平均波动水平(标准差s_std[j])成正比。也就是说n倍标准差以上的波动被视为异常波动,当(真实销量s[j][t]-平均销量s_avg[j])》n*标准差s_std[j],多余的部分销量应当被剔除。对此,n选择为多少比较合适,成为了待处理的问题。
[0094]
而由于单个店品的样本较少,且规律不稳定,在单品上去寻找合适的n很容易过渡假设。因此,考虑将同一类目下的所有店品(即j={1,2,3,...,j})纳入到统一的框架下进行估计。
[0095]
具体的,由于是剔除商品的异常值(在均值基础上大于n倍标准差的视为异常值),因此可以关注波动大于平均销量的那一部分分布,可以将典型商品(相当于历史平均指标数据》1的目标待预测对象)的分布图(相当于第一子标准指标分布图)叠加,得到总体的标准销售分布(相当于指定类别的总标准指标分布图),具体的,可以参见如图4所示的指定类别的总标准指标分布图(实际上横坐标为不同的总标准指标数据,而每个横坐标对应的纵坐标则是各个第一子标准指标分布图中的该横坐标对应的纵坐标相加后得到的总样本数量)。
[0096]
步骤s218,基于总标准指标分布图,以0.1%为步进,从总标准指标分布图中获取分位点区间范围中的每个分位点对应的总标准指标数据。
[0097]
在具体实现过程中,在已有的商品总体标准化分布下,可以利用不同的分位数分布寻找能够较好区分异常值和正常值的分界点(剔大单阈值,也即划分阈值),具体的,上述分位点区间范围可以设置为[0.1%,2%],假设以0.1%为步进,可以得到从大到小各分位点(0.1%、0.2%、...、2%)对应销售标准分布的位置,进而得到每个分位点对应的总标准指标数据,具体的,可以参见如图5所示的一种分位点区间范围中的每个分位点对应的总标准指标数据示意图;其中,图5的横坐标为分位点区间范围中的每个分位点,图5的纵坐标为每个分位点对应的总标准指标数据。
[0098]
步骤s220,计算分位点区间范围中每两个相邻的分位点对应的总标准指标数据之
间的差值,得到每个分位点对应的差值结果。
[0099]
在具体实现过程中,如果想要寻找最优的区分异常大单的参数阈值,可以在分位点区间范围:[0.1%,2%]中寻找相邻两个分位点之间的分布规律断层的地方。
[0100]
具体的,可以将图5进行一阶差分,得到图6(图6为一种分位点区间范围中每个分位点对应的差值结果示意图),其中图6的纵坐标为相邻分位点对应分布位置的差异(也即每两个相邻分位点中后一个分位点对应的差值结果,应当是两个相邻分位点中位置靠后的分位点对应的总标准指标数据与位置靠前的分位点对应的总标准指标数据之间的差值),比如图6中分位数1.3%(横坐标)对应的差值结果(纵坐标),应当是分位数1.3%与分位数1.2%之间的总标准指标数据的差异(比如标准销量差异)。
[0101]
步骤s222,基于每个差值结果,确定目标分位点;其中,目标分位点对应的目标差值结果大于与目标分位点前后相邻的两个分位点分别对应的差值结果。
[0102]
步骤s224,获取目标分位点对应的目标总标准指标数据,并将目标总标准指标数据确定为参数阈值。
[0103]
具体的,图6中圆圈标注的一处为,从图6中可以看出:分位数1.3%与分位数1.2%之间的标准销量差异d(1.3%,1.2%),也即分位数1.3%对应的差值结果,满足d(1.3%,1.2%)》d(1.2%,1.1%)且d(1.3%,1.2%)》d(1.4%,1.3%),因此可以判断出两个分位点(1.3%和1.2%)之间的分布规律出现断层,可以将目标分位点设定为1.3%(即最大的1.3%样本视为异常),而根据图7(一种位点区间范围中每个分位点对应的标准销量分布位置示意图)可知,1.3%对应的标准销量分布位置为3.11。
[0104]
要说明的是,目标分位点的数量可能有多个,此时应当选择数值最小的目标分位点对应的目标总标准指标数据得作为参数阈值。
[0105]
步骤s226,基于参数阈值,以及待预测对象对应的历史平均指标数据、历史标准差指标数据,确定待预测对象对应的划分阈值。
[0106]
如果选定参数阈值n=3.11,那么待预测对象对应的划分阈值就为“均值s_avg[j]+3.11*标准差s_std[j]”,即当商品销量s[j][t]》均值s_avg[j]+3.11*标准差s_std[j]时,视为异常销量。
[0107]
步骤s228,基于划分阈值,将待预测对象对应的多个历史指标数据中超过划分阈值的异常历史指标数据替换为划分阈值。
[0108]
步骤s230,将待预测对象对应的多个历史指标数据中未超过划分阈值的正常历史销量数据和待预测对象对应的替换后的划分阈值,确认为待预测对象对应的目标历史指标数据。
[0109]
在具体实现过程中,根据前面的算法得到n,n倍标准差以上的波动被视为异常波动。因此,可以直接将超过划分阈值的销量扣除即可,异常值处理过后的序列p[j][t](也即目标历史指标数据)具体表示如下:
[0110][0111]
其中,如果n为3.11,那么就将超过划分阈值(均值s_avg[j]+3.11*标准差s_std[j])的历史指标数据(也即异常历史指标数据)替换为划分阈值,并将没有超过划分阈值(均值s_avg[j]+3.11*标准差s_std[j])的历史指标数据(也即正常历史指标数据)保持不
变。
[0112]
进一步的,根据图8所示的一种销量水平不同的多个商品分别对应的异常值判定阈值(划分阈值)示意图可以看到,划分阈值设置比较合理,并且能够在正常波动的商品场景保留一定的冗余空间,符合预期。因此,上述通过将符合预设条件的每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图;基于总标准指标分布图和预设的分位点区间范围,确定参数阈值的这种参数阈值的确定方法比较合理,可以确定出合理的参数阈值,进而可以计算得出合理稳健的用于识别异常值的划分阈值。
[0113]
步骤s232,采用最小二乘回归法对待预测对象对应的目标历史指标数据进行拟合,得到待预测对象对应的目标对数衰减模型。
[0114]
步骤s234,基于目标对数衰减模型和预先设置的每个预测时间段,生成待预测对象在对应预测时间段内的预测指标数据。
[0115]
对于长远期预测,需要关注的是稳定的趋势规律,所以对待预估的序列(相当于待预测对象在对应预测时间段内的预测指标数据)可以采用目标对数衰减模型进行保守的、趋势衰减的预估,最后将其可视化展示给相关用户作决策参考。
[0116]
具体的,根据图9所示的一种线性回归模型和目标对数衰减模型分别对应的远期趋势估计示意图可以看到,线性回归模型容易导致对远期趋势过度高估或过度低估(对随机波动过度解释),而目标对数衰减模型则可以对远期趋势进行保守的、趋势衰减的预估。
[0117]
上述方案不会过度依赖具体商家的业务属性,可移植性高,很容易大规模切换不同应用场景。实际应用中相关的业务人员也很容易操作,易铺展。本方案占用很少算力资源,并且可以做到实时运算,并很容易覆盖数据规模庞大的零售商超场景。
[0118]
步骤s236,将每个预测指标数据进行可视化展示,得到可视化信息。
[0119]
步骤s238,基于可视化信息生成决策信息、报警信息。
[0120]
在在具体实现过程中,可以将上述目标对数衰减模型和预估的趋势可视化,以直接在用户界面展示不同商品未来走势,给相关用户作决策参考。
[0121]
如图10所示的一种商品预测指标数据可视化后的示意图,其中黑色圆点标识出历史销量数据中的异常值;最长的黑色虚线是根据历史序列对未来趋势的估计,最长的黑色虚线下方的面积即为一定时间内的总需求量。相关业务人员可以根据这些可视化信息,对不同的商品进行促销、汰换等进一步的决策。
[0122]
而根据如图11所示的另一种商品预测指标数据可视化后的示意图可知,该图中商品在之后的预测时间段内的预测指标数据出现了几乎接近于0的趋势,因此可以提供趋势自动化报警功能,以生成异常报警提示相关人员对该商品进行汰换(下架),另外当某商品的衰减趋势仍然有较大的向下斜率时,也可识别为异常预警提供给相关人员,以使相关人员对该商品进行促销。
[0123]
进一步的,进行预期预测时,还可以给出目标对数衰减模型(默认必选)、线性模型、多项式模型供业务人员选择,并根据选择的多种模型生成对应的预估曲线供业务人员对比参考。
[0124]
为了更好的理解上述实施例,可以参见如图12所示的一种数据预测的预测过程示意图,图中通过将不同商品的销售分布进行标准化,得到单品标准化分步,再将单品标准化分布叠加求得类目总标准分布,再在总体分布上找到划分异常值的阈值,并根据不同商品
的不同波动水平处理其异常值;在已经异常值处理后的序列基础上,用对数衰减模型进行拟合;在拟合好的模型上,求得远期估计量、并将模型及预估的远期趋势可视化,并且还可以实现模型选择或对比、异常值标识、趋势异常报警等。
[0125]
上述数据预测方法首先将历史序列中异常点进行处理,其次,利用目标对数衰减模型对预估的序列进行保守的、趋势衰减的预估,最后将其可视化展示给相关用户作决策参考,可以更加合理地确定参数阈值,还可以避免对未来趋势过度高估或过度低估而影响预测结果,提高了预测的准确性和可靠性。
[0126]
本发明实施例还提供了一种数据预测装置,如图13所示,装置包括:第一确定模块131,用于根据预先获取的指定类别的待预测对象对应的多个历史指标数据,确定待预测对象对应的子标准指标分布图;叠加模块132,用于将符合预设条件的每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图;第二确定模块133,用于基于总标准指标分布图和预设的分位点区间范围,确定参数阈值;处理模块134,用于基于参数阈值,对待预测对象对应的多个历史指标数据进行处理,得到待预测对象对应的目标历史指标数据;拟合模块135,用于采用最小二乘回归法对待预测对象对应的目标历史指标数据进行拟合,得到待预测对象对应的目标对数衰减模型;生成模块136,用于基于目标对数衰减模型和预先设置的每个预测时间段,生成待预测对象在对应预测时间段内的预测指标数据。
[0127]
进一步的,第一确定模块还用于:获取指定类别的待预测对象在多个历史时间段分别对应的多个历史指标数据;基于历史时间段的数量和多个历史指标数据,计算待预测对象对应的历史平均指标数据;基于历史平均指标数据和多个历史指标数据,计算待预测对象对应的历史标准差指标数据;基于多个历史指标数据、历史平均指标数据和历史标准差指标数据,计算待预测对象在每个历史时间段分别对应的历史标准指标数据;基于每个历史标准指标数据,确定待预测对象对应的子标准指标分布图。
[0128]
进一步的,叠加模块还用于:基于预设阈值,从指定类别对应的待预测对象中选择历史平均指标数据大于预设阈值的每个目标历史平均指标数据对应的目标待预测对象;基于每个目标待预测对象,从多个子标准指标分布图中,选择每个目标待预测对象对应的第一子标准指标分布图;将每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图。
[0129]
进一步的,第二确定模块还用于:基于总标准指标分布图,以0.1%为步进,从总标准指标分布图中获取分位点区间范围中的每个分位点对应的总标准指标数据;计算分位点区间范围中每两个相邻的分位点对应的总标准指标数据之间的差值,得到每个分位点对应的差值结果;基于每个差值结果,确定目标分位点;其中,目标分位点对应的目标差值结果大于与目标分位点前后相邻的两个分位点分别对应的差值结果;获取目标分位点对应的目标总标准指标数据,并将目标总标准指标数据确定为参数阈值。
[0130]
进一步的,处理模块还用于:基于参数阈值,以及待预测对象对应的历史平均指标数据、历史标准差指标数据,确定待预测对象对应的划分阈值;基于划分阈值,将待预测对象对应的多个历史指标数据中超过划分阈值的异常历史指标数据替换为划分阈值;将待预测对象对应的多个历史指标数据中未超过划分阈值的正常历史销量数据和待预测对象对应的替换后的划分阈值,确认为待预测对象对应的目标历史指标数据。
[0131]
进一步的,装置还包括可视化展示模块,用于:将每个预测指标数据进行可视化展
示,得到可视化信息;基于可视化信息生成决策信息、报警信息。
[0132]
本发明实施例所提供的数据预测装置,其实现原理及产生的技术效果和前述数据预测方法实施例相同,数据预测装置实施例部分,可参考前述数据预测方法实施例中相应内容。
[0133]
本发明实施例还提供了一种电子设备,参见图14所示,该电子设备包括处理器130和存储器131,该存储器131存储有能够被处理器130执行的机器可执行指令,该处理器130执行机器可执行指令以实现上述数据预测方法。
[0134]
进一步地,图14所示的电子设备还包括总线132和通信接口133,处理器130、通信接口133和存储器131通过总线132连接。
[0135]
其中,存储器131可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线132可以是isa总线、pci总线或eisa总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0136]
处理器130可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131,处理器130读取存储器131中的信息,结合其硬件完成前述实施例的方法的步骤。
[0137]
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述数据预测方法,具体实现可参见方法实施例,在此不再赘述。
[0138]
本发明实施例所提供的数据预测方法、装置及电子设备,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0139]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0140]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:
1.一种数据预测方法,其特征在于,所述方法包括:根据预先获取的指定类别的待预测对象对应的多个历史指标数据,确定所述待预测对象对应的子标准指标分布图;将符合预设条件的每个第一子标准指标分布图进行叠加,得到所述指定类别的总标准指标分布图;基于所述总标准指标分布图和预设的分位点区间范围,确定参数阈值;基于所述参数阈值,对所述待预测对象对应的多个历史指标数据进行处理,得到所述待预测对象对应的目标历史指标数据;采用最小二乘回归法对所述待预测对象对应的目标历史指标数据进行拟合,得到所述待预测对象对应的目标对数衰减模型;基于所述目标对数衰减模型和预先设置的每个预测时间段,生成所述待预测对象在对应预测时间段内的预测指标数据。2.根据权利要求1所述的方法,其特征在于,根据预先获取的指定类别的待预测对象对应的多个历史指标数据,确定所述待预测对象对应的子标准指标分布图的步骤包括:获取指定类别的待预测对象在多个历史时间段分别对应的多个历史指标数据;基于所述历史时间段的数量和多个所述历史指标数据,计算所述待预测对象对应的历史平均指标数据;基于所述历史平均指标数据和多个所述历史指标数据,计算所述待预测对象对应的历史标准差指标数据;基于多个所述历史指标数据、所述历史平均指标数据和所述历史标准差指标数据,计算所述待预测对象在每个历史时间段分别对应的历史标准指标数据;基于每个历史标准指标数据,确定所述待预测对象对应的子标准指标分布图。3.根据权利要求2所述的方法,其特征在于,将符合预设条件的每个第一子标准指标分布图进行叠加,得到所述指定类别的总标准指标分布图的步骤包括:基于预设阈值,从所述指定类别对应的待预测对象中选择历史平均指标数据大于所述预设阈值的每个目标历史平均指标数据对应的目标待预测对象;基于每个所述目标待预测对象,从多个子标准指标分布图中,选择每个所述目标待预测对象对应的第一子标准指标分布图;将每个所述第一子标准指标分布图进行叠加,得到所述指定类别的总标准指标分布图。4.根据权利要求1所述的方法,其特征在于,基于所述总标准指标分布图和预设的分位点区间范围,确定参数阈值的步骤包括:基于所述总标准指标分布图,以0.1%为步进,从所述总标准指标分布图中获取所述分位点区间范围中的每个分位点对应的总标准指标数据;计算所述分位点区间范围中每两个相邻的分位点对应的总标准指标数据之间的差值,得到每个所述分位点对应的差值结果;基于每个所述差值结果,确定目标分位点;其中,所述目标分位点对应的目标差值结果大于与所述目标分位点前后相邻的两个分位点分别对应的差值结果;获取所述目标分位点对应的目标总标准指标数据,并将所述目标总标准指标数据确定
为参数阈值。5.根据权利要求2所述的方法,其特征在于,基于所述参数阈值,对所述待预测对象对应的多个历史指标数据进行处理,得到所述待预测对象对应的目标历史指标数据的步骤包括:基于所述参数阈值,以及所述待预测对象对应的历史平均指标数据、历史标准差指标数据,确定所述待预测对象对应的划分阈值;基于所述划分阈值,将所述待预测对象对应的多个历史指标数据中超过所述划分阈值的异常历史指标数据替换为所述划分阈值;将所述待预测对象对应的多个历史指标数据中未超过所述划分阈值的正常历史销量数据和所述待预测对象对应的替换后的所述划分阈值,确认为所述待预测对象对应的目标历史指标数据。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:将每个所述预测指标数据进行可视化展示,得到可视化信息;基于所述可视化信息生成决策信息、报警信息。7.一种数据预测装置,其特征在于,所述装置包括:第一确定模块,用于根据预先获取的指定类别的待预测对象对应的多个历史指标数据,确定所述待预测对象对应的子标准指标分布图;叠加模块,用于将符合预设条件的每个第一子标准指标分布图进行叠加,得到所述指定类别的总标准指标分布图;第二确定模块,用于基于所述总标准指标分布图和预设的分位点区间范围,确定参数阈值;处理模块,用于基于所述参数阈值,对所述待预测对象对应的多个历史指标数据进行处理,得到所述待预测对象对应的目标历史指标数据;拟合模块,用于采用最小二乘回归法对所述待预测对象对应的目标历史指标数据进行拟合,得到所述待预测对象对应的目标对数衰减模型;生成模块,用于基于所述目标对数衰减模型和预先设置的每个预测时间段,生成所述待预测对象在对应预测时间段内的预测指标数据。8.根据权利要求7所述的装置,其特征在于,所述第二确定模块还用于:基于所述总标准指标分布图,以0.1%为步进,从所述总标准指标分布图中获取所述分位点区间范围中的每个分位点对应的总标准指标数据;计算所述分位点区间范围中每两个相邻的分位点对应的总标准指标数据之间的差值,得到每个所述分位点对应的差值结果;基于每个所述差值结果,确定目标分位点;其中,所述目标分位点对应的目标差值结果大于与所述目标分位点前后相邻的两个分位点分别对应的差值结果;获取所述目标分位点对应的目标总标准指标数据,并将所述目标总标准指标数据确定为参数阈值。9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-6任一项所述的数据预测方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-6任一项所述的数据预测方法。

技术总结
本发明提供了一种数据预测方法、装置及电子设备,方法包括:将符合预设条件的每个第一子标准指标分布图进行叠加,得到指定类别的总标准指标分布图;基于总标准指标分布图和预设的分位点区间范围,确定参数阈值;基于参数阈值,得到待预测对象对应的目标历史指标数据;基于目标历史指标数据可以拟合得到目标对数衰减模型,基于目标对数衰减模和每个预测时间段生成待预测对象在对应预测时间段内的预测指标数据。该方式中,基于总标准指标分布图和预设的分位点区间范围,确定参数阈值,可以获取更加合理稳健的参数阈值,而且采用目标对数衰减模型预测指标数据,可以避免对未来趋势过度高估或过度低估而影响预测结果,提高了预测的准确性和可靠性。的准确性和可靠性。的准确性和可靠性。


技术研发人员:张珂瑜 陈鹏飞 段珂 苏琳 张磊 刘鹏飞 杨凯
受保护的技术使用者:多点生活(成都)科技有限公司
技术研发日:2023.06.28
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐