基于数据分析格结构统一模型的商品购买关联分析方法
未命名
10-21
阅读:42
评论:0
1.本发明涉及基于数据分析格结构统一模型的商品购买关联分析方法,属于数据挖掘和数据分析领域。
背景技术:
2.随着大数据时代的到来,互联网、物联网和移动智能终端中产生的数据呈爆发式增长,相应的对于数据分析和挖掘的需求也大大增加。此外,数据分析和挖掘在各类商业化场景、建造设计业等工业场景中也有着广泛的应用。商业领域应用的最典型的例子即为购物篮分析,主要通过对用户消费记录数据的挖掘和分析,找出用户购买习惯的一些潜在规律。可以追踪商品售卖情况来优化商品的囤货,也可以进一步指导物品的摆放以提高售卖率。
3.传统的数据分析与数据挖掘采用数据立方体、频繁项集格与概念格作为核心数据分析模型,构造这三种格结构都将产生较大的时空开销,而且只能在某一领域对多维数据进行处理,计算效率低下。
技术实现要素:
4.本发明提供一种基于数据分析格结构统一模型的商品购买关联分析方法。利用数据分析格结构统一模型能够在不同的应用场景中表示数据的层次化结构以及能够将三种格结构算法在计算过程中所具有的优势融合到其他两种格结构的计算当中的优势。
5.本发明采用的技术方案是:基于数据分析格结构统一模型的商品购买关联分析方法,包括如下步骤:
6.step1、数据预处理
7.选取商品数据,包括消费者(如c1,c2,c3),商品类别(如面包,牛奶,啤酒,尿布等),购买数量,购买日期等,删除属性缺失值和异常值,填写丢失值;对所需的商品基本表进行事务集转换;
8.step2、建立数据分析格结构统一模型
9.将数据立方体、频繁项集格和概念格三种格结构进行统一;具体为将频繁项集挖掘任务转换为冰山立方体计算任务,将浓缩立方体计算任务转换为频繁项集挖掘任务,将商立方体计算与闭项集挖掘任务转换为概念格构造任务;
10.step3、利用数据分析格结构统一模型,进行关联规则挖掘
11.扫描所有的事务集,得到每一个候选集的支持度,将候选支持度与最小支持度阈值进行比较,保留大于或等于该阈值的项,得到1项频繁项集l1,再由l1产生候选集c1,并计算其支持度;再次将候选支持度与最小支持度阈值进行比较,保留大于或等于该阈值的项,得到2项频繁项集l2;将l1与l2进行连接产生候选集c2,将候选集支持度与最小支持度阈值进行比较,保留大于或等于该阈值的项得到3项频繁项集,由频繁项集产生关联规则;
12.step4、获得关联结果
13.根据步骤step3获得的频繁项集以及关联规则进行分析,获得商品购买之间的关系。
14.所述step1中,令数据库基本表r=(d,m),其中d={d1,d2,
…
,dn}为基本表r的维度属性集,m={m1,m2,...,m
l
}为基本表r的度量属性集,t=(d1,d2,
…
,dn,m1,m2,
…
,m
l
)为r上的任一数据单元。基本表与事务集的映射函数为:
[0015][0016]
所述step2具体过程如下:
[0017]
step2.1、针对同一数据集和最小支持度阈值的条件下,选择冰山立方体与频繁项集格之间的映射;
[0018]
step2.2、对于具有相同的节点及节点间的偏序关系的数据集,由于商立方体、概念格和闭项集格两两同构,选择商立方体、概念格与闭项集格间的相互映射;
[0019]
step2.3、对同一最小支持度的数据集,在进行剪枝后,由于冰山商立方体、iceberg概念格以及频繁闭项集格两两同构,选择三者间的相互映射;
[0020]
step2.4、对于相同的聚集函数的数据集,利用相同的最小支持度阈值对数据立方体和频繁项集格进行剪枝,选择基于相同聚集函数的冰山立方体与泛化频繁项集一一映射。
[0021]
本发明的有益效果是:
[0022]
本发明从格论与图论的角度论证了数据立方体计算、频繁项集挖掘和概念格构造的映射关系,给出了三种格结构中多种经典方法之间的统一模型,如冰山立方体与频繁项集格的统一模型、浓缩立方体与频繁项集格的统一模型以及商立方体、闭项集格与概念格的统一模型。同时对相关概念进行了泛化。首先,基于数据立方体的聚集函数,对频繁项集进行了泛化,提出了泛化频繁项集并给出其与冰山立方体的统一模型;其次,基于频繁项集挖掘中通过支持度选择更具代表性的数据的思想,对商立方体进行了泛化,提出了冰山商立方体并给出其与频繁闭项集格、概念格的统一模型。可以在不同的应用场景中表示数据的层次化结构以及能够将三种格结构算法在计算过程中所具有的优势融合到其他两种格结构的计算当中,可以实现数据的压缩,可以缩短关联分析的执行时间,提高执行效率,方便对于商品数据的分析。
附图说明
[0023]
图1是本发明给出的具体的实施流程图;
[0024]
图2是本发明中基本表导出的保留覆盖等价类上界的商立方体示例图;
[0025]
图3是本发明中基本表映射为事务集形式后计算所得的闭项集格示例图;
[0026]
图4是本发明中基本表映射为形式背景形式后计算所得的概念格示例图;
[0027]
图5是本发明中转置后的概念格示例图;
[0028]
图6是本发明中频繁闭项集格、iceberg概念格和转置后的iceberg概念格示例图;
[0029]
图7是本发明中传统的数据挖掘算法与数据分析格统一模型处理foodmart数据集时间效率对比示例图。
具体实施方式
[0030]
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明做进一步的描述,本部分的实施例用于解释说明本发明,便于理解的目的,不以此来限制本发明。
[0031]
实施例1:如图1所示,基于数据分析格结构统一模型的商品购买关联分析方法,具体步骤如下:
[0032]
step1、数据预处理
[0033]
选取商品数据,包括消费者(如c1,c2,c3),商品类别(如面包,牛奶,啤酒,尿布等),购买数量,购买日期等,删除属性缺失值和异常值,填写丢失值;对所需的商品基本表进行事务集与形式背景的转换。
[0034]
令数据库基本表r=(d,m),其中d={d1,d2,
…
,dn}为基本表r的维度属性集,m={m1,m2,...,m
l
}为基本表r的度量属性集,t=(d1,d2,
…
,dn,m1,m2,
…
,m
l
)为r上的任一数据单元。
[0035]
定义基本表与事务集/形式背景的映射函数:
[0036][0037]
以表1给出的基本表r为例,利用上面给出的映射函数可将该基本表r映射为事务集(形式背景)形式r',如表2所示,为避免混淆,用表3的形式来表示映射所得的事务集(形式背景)r'。
[0038]
表1基本表r
[0039][0040]
表2基本表r映射后的事务集(形式背景)形式r'
[0041][0042]
表3映射事务集(形式背景)r'
[0043][0044]
step2、建立数据分析格结构统一模型;
[0045]
使用数据分析格结构统一模型对于不同的数据模型进行等价转换。
[0046]
step2.1、针对同一数据集和最小支持度阈值的条件下,选择冰山立方体与频繁项集格之间的映射;冰山立方体计算中,having子句中使用的冰山度量为count,则取相同的最小支持度阈值min_sup,冰山立方体与频繁项集分别为在原始的数据立方体或频繁项集格上进行剪枝,得出冰山立方体结果;针对同一数据集和最小支持度阈值的条件下,冰山立
方体与频繁项集格的计算结果相一致,可以实现冰山立方体与频繁项集格之间的映射。
[0047]
step2.2、由于商立方体、概念格和闭项集格具有相同的节点及节点间的偏序关系,三者两两同构,由此可以实现商立方体、概念格与闭项集格间的相互映射。图2为基本表1导出的仅保留等价类上界单元的商立方体,而图3为基本表r映射为事务集形式r’后计算所得的闭项集格。图4为基本表r映射为形式背景形式r’后计算所得的概念格。概念格中定义的偏序关系与商立方体、闭项集格中定义的偏序关系相反,将概念格的哈斯图中的偏序关系进行转置,转置后的概念格如图5。在同一数据集上,商立方体计算、闭项集挖掘与概念格挖掘将产生相同结果,可以实现商立方体、概念格和闭项集格之间的映射相互转换
[0048]
step2.3、由频繁闭项集、频繁概念以及频繁商立方体单元三者映射节点间具有相同的支持度,针对同一最小支持度进行剪枝后所得的结果也将相同,冰山商立方体、iceberg概念格以及频繁闭项集格两两同构,那么就可以实现三者间的相互映射。以表1为例,其映射所得的形式背景如表2所示,映射事务集如表3所示。设最小支持度阈值为min_sup=0.5,分别对商立方体、闭项集格、概念格进行剪枝,得到的冰山商立方体如图6(a)所示,相应的频繁闭项集格、iceberg概念格如图6(b)和图6(c)所示。为了方便直观的了解三者的统一性,图6(c)给出的是转置的iceberg概念格。
[0049]
step2.4、由于数据立方体与频繁项集格同构,二者节点之间具有相同的反单调性,对于相同的聚集函数,利用相同的最小支持度阈值对数据立方体和频繁项集格进行剪枝,将会得到相同的结果计算,因此对于基于相同聚集函数的冰山立方体与泛化频繁项集相互等价,可以实现一一映射。给定包含度量属性的基本表r,保留度量属性不变,将维度属性按照映射规则转换为事务集形式,从而得到泛化事务集。给定满足反单调性的聚集函数(如count、sum、max等)和最小支持度阈值,分别对基本表和泛化事务集进行冰山立方体计算与泛化频繁项集挖掘。对于相同的聚集函数,利用相同的最小支持度阈值对数据立方体和频繁项集格进行剪枝,将会得到相同的结果计算。所以基于相同聚集函数的冰山立方体与泛化频繁项集相互等价,可以实现一一映射。
[0050]
step3、确定数据模型,进行关联规则挖掘
[0051]
首先寻找最大k项频繁集。简单扫描所有的事务集,得到每一个候选集的支持度。将候选支持度与最小支持度阈值进行比较,保留大于或等于该阈值的项,得到1项频繁项集l1,再由l1产生候选集c1,并计算其支持度。再次将候选支持度与最小支持度阈值进行比较,保留大于或等于该阈值的项,得到2项频繁项集l2。将l1与l2进行连接产生候选集c2,将候选集支持度与最小支持度阈值进行比较,保留大于或等于该阈值的项得到3项频繁项集。由频繁项集产生关联规则。
[0052]
step4、获得关联分析结果
[0053]
根据步骤3获得的频繁项集以及关联规则进行分析,可以获得商品购买之间的关系。例如购买啤酒的用户有很大可能也会购买尿布。对比经典的数据挖掘,由于数据分析格统一模型,在剪枝的过程中加入了避免计算冗余数据的特征,在真实的食品商品数据集foodmart上,时间效率几乎提升了7倍。如图7所示。
[0054]
一个设计良好的一种数据分析格结构统一模型处理多维数据的方法需要考虑很多方面,其中使用数据分析格结构统一模型对数据立方体计算、频繁项集挖掘与概念格的映射关系进行转换是关键的环节。本发明中,首先为了方便后续关于数据立方体、频繁项集
格与概念格映射的讨论,对数据立方体使用的基本表、频繁项集挖掘使用的事务集与概念格使用的形式背景进行转换。对于冰山立方体与频繁项集格,如果冰山立方体计算中,having子句中使用的冰山度量为count,则取相同的最小支持度阈值min_sup时,冰山立方体与频繁项集分别为在原始的数据立方体或频繁项集格上进行剪枝后所得的结果,那么针对同一数据集和最小支持度阈值的条件下,冰山立方体与频繁项集格的计算结果相一致,则认为他们可以进行一一映射。对于浓缩立方体与频繁项集格的映射关系,可以通过浓缩立方体中除bst以外的数据单元等价于min_sup=2的频繁项集格来进行证明。对于商立方体、闭项集格与概念格的映射关系,可以通过商立方体、概念格与闭项集格两两同构,且商立方体的等价类上界、概念格的概念内涵和频繁项集挖掘的闭项集两两等价来进行证明。对于冰山商立方体、频繁闭项集格与iceberg概念格之间的映射关系,可以通过冰山商立方体、iceberg概念格与频繁闭项集格两两同构来进行证明。对于冰山立方体计算与泛化频繁项集挖掘的映射关系,数据立方体与频繁项集格同构,即数据立方体与频繁项集格的节点之间一一对应。对于相同的聚集函数,利用相同的最小支持度阈值对数据立方体和频繁项集格进行剪枝,将会得到相同的结果计算,因此基于相同聚集函数的冰山立方体与泛化频繁项集相互等价,可以一一映射。通过上述的映射关系,我们可以在满足映射关系的数据模型之间进行转换,实现对于不同领域的多维数据的分析。
[0055]
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
技术特征:
1.基于数据分析格结构统一模型的商品购买关联分析方法,其特征在于,包括如下步骤:step1、数据预处理选取商品数据,包括消费者、商品类别、购买数量、购买日期,删除属性缺失值和异常值,填写丢失值;对所需的商品基本表进行事务集转换;step2、建立数据分析格结构统一模型将数据立方体、频繁项集格和概念格三种格结构进行统一;具体为将频繁项集挖掘任务转换为冰山立方体计算任务,将浓缩立方体计算任务转换为频繁项集挖掘任务,将商立方体计算与闭项集挖掘任务转换为概念格构造任务;step3、利用数据分析格结构统一模型,进行关联规则挖掘扫描所有的事务集,得到每一个候选集的支持度,将候选支持度与最小支持度阈值进行比较,保留大于或等于该阈值的项,得到1项频繁项集l1,再由l1产生候选集c1,并计算其支持度;再次将候选支持度与最小支持度阈值进行比较,保留大于或等于该阈值的项,得到2项频繁项集l2;将l1与l2进行连接产生候选集c2,将候选集支持度与最小支持度阈值进行比较,保留大于或等于该阈值的项得到3项频繁项集,由频繁项集产生关联规则;step4、获得关联结果根据步骤step3获得的频繁项集以及关联规则进行分析,获得商品购买之间的关系。2.如权利要求1所述的基于数据分析格结构统一模型的商品购买关联分析方法,其特征在于,所述step1中商品基本表r=(d,m),其中d={d1,d2,
…
,d
n
}为基本表r的维度属性集,m={m1,m2,...,m
l
}为基本表r的度量属性集,t=(d1,d2,
…
,d
n
,m1,m2,
…
,m
l
)为r上的任一数据单元;基本表与事务集的映射函数为:3.如权利要求1所述的基于数据分析格结构统一模型的商品购买关联分析方法,其特征在于,所述step2具体过程如下:step2.1、针对同一数据集和最小支持度阈值的条件下,选择冰山立方体与频繁项集格之间的映射;step2.2、对于具有相同的节点及节点间的偏序关系的数据集,由于商立方体、概念格和闭项集格两两同构,选择商立方体、概念格与闭项集格间的相互映射;step2.3、对同一最小支持度的数据集,在进行剪枝后,由于冰山商立方体、iceberg概念格以及频繁闭项集格两两同构,选择三者间的相互映射;step2.4、对于相同的聚集函数的数据集,利用相同的最小支持度阈值对数据立方体和频繁项集格进行剪枝,选择基于相同聚集函数的冰山立方体与泛化频繁项集一一映射。
技术总结
本发明提出了一种基于数据分析格结构统一模型的商品购买关联分析方法,属于数据挖掘和数据分析领域。本发明将数据立方体、频繁项集格以及概念格三者系统地结合起来,提出了三种格结构的多种模型之间的统一模型,并从偏序格的角度形式化地论证了模型的正确性;在格结构统一模型的基础上,给出了格结构统一计算方法并可以使用这种统一模型和计算方法实现对于多维数据的处理。本发明在满足映射关系条件下对于数据立方体、频繁项集格与概念格的统一结构模型、冰山立方体与频繁项集格的统一模型、浓缩立方体与频繁项集格的统一模型以及商立方体、闭项集格与概念格的统一模型进行相互转换以此可以实现对于商品数据可以具有不同领域的表现形式。领域的表现形式。领域的表现形式。
技术研发人员:游进国 吴康 尚文 徐静文 陈曦
受保护的技术使用者:昆明理工大学
技术研发日:2023.07.17
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/