一种基于集成学习的异常订单检测方法

未命名 08-03 阅读:199 评论:0


1.本发明涉及异常订单检测的技术领域,特别是涉及一种基于集成学习模型融合的电商异常订单检测方法。


背景技术:

2.企业或平台在销售商品的过程中,常常会遇到一些异常订单,例如黄牛订单、恶意订单、商家刷单等。黄牛订单会大量削减促销对普通用户的吸引程度,使得促销权益和利益被一小部分人获取,而非给到目标会员。恶意订单则更加危险,很多竞争对手间会通常这种方式在促销活动中,将大量的商品库存通过订单的方式锁定,然后再活动结束后通过取消、退货等方式释放库存。这种方式将使促销活动由于无法真正卖出商品而无法实现促销的目的,同时还会消耗公司大量的人力、物力,是各个公司都非常反感的恶意竞争方式。商家刷单是一种常见的用于提升商家排名的方式,通常由商家来安排内部或关联人员大量购买商品,以形成商家流量和销售提升的目的。异常订单检测的目的是找到非普通用户的订单记录,即识别订单的异常状态,发出异常预警,降低电商平台的交易风险。


技术实现要素:

3.为了解决上述电商平台中异常订单的存在会带来平台交易风险的问题,本发明提供一种基于集成学习多模型融合的电商异常订单检测方法,能够有效识别订单的异常状态,进而得以向后台发出异常订单预警,降低电商平台交易风险。
4.根据本发明的第一方面,提供了一种基于集成学习的异常订单检测方法,其包括如下步骤:步骤一、采集相应电商平台的原始订单数据;步骤二、清洗数据集中存在的缺失值、重复值和异常值,从预处理后的订单数据集中提取出更具有解释性与相关性的特征,涉及到的方法包括特征提取、聚合特征、分箱,然后将数据集划分为训练集与测试集;步骤三、利用样本数据集训练基于xgboost、catboost、gbdt的集成学习基分类器,提出评价指标体系,使用基于贝叶斯优化的黑盒优化系统openbox多次优化基分类器,对优化后的基分类器进行基于测试集异常订单检测测试;步骤四、利用最优参数得到的基分类器构建基于投票法的融合模型,使模型的泛化能力与准确度得到提升;进一步地,所述步骤一中的原始数据集特征至少包括订单id、下单时间、商品一级类别、商品所属渠道、商品id、品牌、订单金额、商品销售数量、订单渠道、支付方式、下单用户id、城市以及标签值异常。
5.进一步地,所述步骤二对异常订单检测数据集的预处理包括缺失值处理、重复值处理、异常值处理。对交易金额与交易数量两个连续型特征进行异常值检测与处理,异常值处理采用箱线图法与标准差法。其中箱线图法与标准差法计算方式如下:
箱线图法则:当任意样本的特定特征值超出[ql-1.5*iqr,qu+1.5*iqr]时,则认为该样本的该特征值是异常值,其中ql代表下四分位数,qu代表上四分位数,iqr:qu-ql。
[0006]
标准差法:通过均值和标准差判断:[mean-2*std,mean+2*std],超出范围为异常值,其中mean为均值,std为标准差。
[0007]
进一步地,所述步骤二提出提出了异常风险关键评估指标——异常率,指异常交易/全部交易的比例,对每个特征都计算其不同类别下的异常率,以确定特定特征/特定类别与异常风险的关系。将异常率作为聚合特征放入特征矩阵,所述聚合特征是指对原特征离散型变量统计后提取的新特征,该新特征中每一个类别对应原特征中的一个值,该值对于该类别具有某种业务意义。进而构建支付方式异常率、下单小时异常率、省份异常率、商品一级类别异常率、订单渠道异常率、商品所属渠道异常率、用户异常率。
[0008]
进一步地,所述步骤二使用kmeans对订单金额进行分箱,进而新增特征分箱均值与分箱异常率;基于一个阈值使用二值法对商品销售数量进行分箱,销售数量大于阈值的,是高风险交易,标注为1,反之则是低风险交易,标注为0。
[0009]
进一步地,所述步骤二在经过上述特征工程处理后的异常订单检测数据集中,划分80%为训练集,划分20%作为验证集供模型进行训练与检验。
[0010]
进一步地,所述步骤三将上述处理后的训练样本数据输入至预先构建的xgboost模型、catboost模型和gbdt模型中进行训练得到三个基分类器。
[0011]
进一步地,步骤三所述对于基分类器的超参数确定部分,使用基于贝叶斯优化的黑盒优化系统openbox多次优化基分类器,采用(1-auc)作为优化目标函数,对三个基分类器进行超参优化;其中openbox将优化迭代次数max_run=200,对于本实施例的实际问题的超参优化使用随机森林作为代理模型surrogate_type='prf',为每个目标函数评估设定最大时间预算time_limit_per_trial=180(单位:秒),对xgboost、catboost、gbdt基分类器进行超参优化;其中auc和accuracy计算公式如下:auc=p(p

>p

)accuracy=(tp+tn)/(tp+fp+fn+tn)其中p

指将该正样本预测为1的概率;p

指将该负样本预测为1的概率;进一步地,所述步骤四将xgboost、gbdt和catboost基分类器的输出概率按照权重加和,构建基于软投票法的融合模型,三个基分类器概率权重占比分别为0.8、0.2和4。
[0012]
采用本申请的技术方案的有益效果如下:本发明在特征构建环节经过对于订单特征与标签间的数据分析,创建出基于异常率的一系列与标签相关性较强的新特征,能有效地提升模型效果。训练多种分类算法构建基分类器,并使用基于贝叶斯优化的黑盒系统openbox对基分类器进行超参优化,能增强模型预测性能。将构建的基模型置于底层,建立基于软投票法的融合模型并输入处理后的数据以实现融合模型,融合模型相较单模型来说通过融合基于不同算法的单模型能突破单模型精度上限,泛化能力得到提高,从而提高异常订单检测精度。
附图说明
[0013]
图1为实施例流程图。
[0014]
图2为特征工程流程图。
[0015]
图3为openbox超参优化结果。
[0016]
图4为实施例流程图表1。
[0017]
图5为特征工程流程图表2。
[0018]
图6为openbox超参优化结果表3。


技术特征:
1.一种基于集成学习的异常订单检测方法,其特征在于:包括以下步步骤:步骤一、采集相应电商平台的原始订单数据;步骤二、清洗数据集中存在的缺失值、重复值和异常值,从预处理后的订单数据集中提取出更具有解释性与相关性的特征,涉及到的方法包括特征提取、聚合特征、分箱,然后将数据集划分为训练集与测试集;步骤三、利用样本数据集训练基于xgboost、catboost、gbdt的集成学习基分类器,提出评价指标体系,使用基于贝叶斯优化的黑盒优化系统openbox多次优化基分类器,对优化后的基分类器进行基于测试集异常订单检测测试;步骤四、利用最优参数得到的基分类器构建基于投票法的融合模型,使模型的泛化能力与准确度得到提升。2.根据权利要求1所述的基于集成学习的异常订单检测方法,其特征在于:所述步骤一中的原始数据集特征至少包括订单id、下单时间、商品一级类别、商品所属渠道、商品id、品牌、订单金额、商品销售数量、订单渠道、支付方式、下单用户id、城市以及标签值异常。3.根据权利要求1所述的基于集成学习的异常订单检测方法,其特征在于:所述步骤二对异常订单检测数据集的预处理包括缺失值处理、重复值处理、异常值处理。对交易金额与交易数量两个连续型特征进行异常值检测与处理,异常值处理采用箱线图法与标准差法。箱线图法则:当任意样本的特定特征值超出[ql-1.5*iqr,qu+1.5*iqr]时,则认为该样本的该特征值是异常值,其中ql代表下四分位数,qu代表上四分位数,iqr:qu-ql。标准差法:通过均值和标准差判断:[mean-2*std,mean+2*std],超出范围为异常值,其中mean为均值,std为标准差。4.根据权利要求2所述的基于集成学习的异常订单检测方法,其特征在于所述步骤二进一步包括:提出异常风险关键评估指标——异常率,指异常交易/全部交易的比例,对每个特征都计算其不同类别下的异常率,以确定特定特征/特定类别与异常风险的关系。将异常率作为聚合特征放入特征矩阵,所述聚合特征是指对原特征离散型变量统计后提取的新特征,该新特征中每一个类别对应原特征中的一个值,该值对于该类别具有某种业务意义。进而构建支付方式异常率、下单小时异常率、省份异常率、商品一级类别异常率、订单渠道异常率、商品所属渠道异常率、用户异常率。5.根据权利要求2所述的基于集成学习的异常订单检测方法,其特征在于所述步骤二进一步包括:使用kmeans对订单金额进行分箱,进而新增特征分箱均值与分箱异常率;基于一个阈值使用二值法对商品销售数量进行分箱,销售数量大于阈值的,是高风险交易,标注为1,反之则是低风险交易,标注为0。6.根据权利要求1所述的基于集成学习的异常订单检测方法,其特征在于所述步骤二进一步包括:在处理后的所异常订单检测数据集中,划分80%为训练集,划分20%作为验证集供模型进行训练与检验。7.根据权利要求1所述的基于集成学习的异常订单检测方法,其特征在于所述步骤三包括:将上述处理后的训练样本数据输入至预先构建的xgboost模型、catboost模型和gbdt模型中进行训练得到三个基分类器。8.根据权利要求7所述的基于集成学习的异常订单检测方法,其特征在于:对于基分类器的超参数确定部分,使用基于贝叶斯优化的黑盒优化系统openbox多次优化基分类器,采
用(1-auc)作为优化目标函数,对三个基分类器进行超参优化。其中auc计算公式如下:auc=p(p

>p

)其中p

指将该正样本预测为1的概率;p

指将该负样本预测为1的概率;9.根据权利要求1所述的基于集成学习的异常订单检测方法,其特征在于所述步骤四进一步包括:将xgboost、gbdt和catboost基分类器的输出概率按照权重加和,构建基于软投票法的融合模型,三个基分类器概率权重占比分别为0.8、0.2和4。

技术总结
本发明公开一种基于集成学习的异常订单检测方法。先收集对应电商平台原始订单数据集;进而清洗数据集中存在的缺失值、重复值和异常值,从预处理后的订单数据集中提取出更具有解释性与相关性的特征,涉及到的方法包括特征提取、聚合特征、分箱等;其次,利用样本数据集训练基于XGBoost、CatBoost、GBDT的集成学习基分类器,提出评价指标体系,利用基于贝叶斯优化的黑盒优化系统openbox多次优化基分类器,对优化后的基分类器进行基于测试集异常订单检测测试;最后,利用最优参数得到的基分类器构建基于投票法的融合模型,使模型的泛化能力与准确度得到提升;将得到的融合集成学习模型用于电商的异常订单的检测或者预警,具有较好的可解释性与精度。好的可解释性与精度。


技术研发人员:谭家荣 冯翔
受保护的技术使用者:华东理工大学
技术研发日:2022.10.21
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐