非遗文化数据特征选择方法
未命名
09-03
阅读:105
评论:0

1.本发明属于数据挖掘方法技术领域,具体涉及一种非遗文化数据特征选择方法。
背景技术:
2.近年来,非遗文化越来越受到国家和社会的重视,尤其随着信息技术的快速发展,非遗文化数字化建设的力度也越来越大,各类非遗文化信息资源不断涌现。通过对非遗文化级别进行分类分析,能够为相关部门对未来的非遗文化的级别划分提供更合理的决策方案,从而更加有效地保护非遗文化。然而,现有的非遗文化数据维度较高,这使得对非遗文化数据进行分类分析的成本大大增加。此外,现有的非遗文化数据信息具有一定的不确定性,不重要的特征不仅会增加数据的冗余度,还会导致对非遗文化级别进行预测时无法达到理想的效果。因此,为了更有效地对文化数据进行分析,降低数据处理的成本,有必要对文化数据进行特征选择来降低数据维度和剔除不重要特征。
3.目前,群智能算法中的萤火虫算法是受到萤火虫闪烁的行为的启发而设计的由xin-she yang于2008年提出。萤火虫算法较其它群智能算法具有较好的性能,但是标准萤火虫算法适应度函数的构造通常无法确保选出的特征子集具有较小的信息损失,同时算法在寻优过程中存在搜索精度低、收敛速度慢的问题。邻域粗糙集通过引入邻域粒化和度量空间的概念,将粗糙集理论的等价关系转化为邻域空间上对信息粒子的覆盖关系,能够有效地度量数据信息的不确定性。因此,有必要将邻域粗糙集和萤火虫算法相结合,针对萤火虫算法的适应度函数构造、搜索更新策略等方面进行改进研究。用于处理高维复杂的文化数据。
技术实现要素:
4.本发明的目的在于提供一种非遗文化数据特征选择方法,可以在不影响非遗文化数据最终分类结果的情况下,删除其中不相关或重要程度低的属性。
5.本发明所采用的技术方案是:非遗文化数据特征选择方法,包括以下步骤:
6.步骤1、获取非遗文化数据集,基于萤火虫算法构建非遗文化数据集特征选择模型;
7.步骤2、利用邻域粒度粗糙熵和属性集重要性计算萤火虫种群中个体的适应度fit
ngre
;
8.步骤3、令适应度较低的萤火虫个体朝适应度较高的萤火虫个体所在的方向移动,对萤火虫的位置进行更新并重新计算萤火虫个体的适应度;
9.步骤4、判断当前迭代是否达到最大迭代次数t
max
,若未达到,则返回执行步骤3,否则输出全局最优萤火虫个体所对应的非遗文化数据集的最优特征子集。
10.本发明的特点还在于,
11.步骤1具体为:根据获取的非遗文化数据集基于萤火虫算法初始化特征选择模型参数;其中,非遗文化数据集的特征子集即萤火虫数目n为50,最大迭代次数t
max
为30,随机
初始化大小为n的萤火虫种群fag={s1,s2,...,sn},每只萤火虫所对应的初始位置s={s
i1
,s
i2
,...,s
id
},1≤i≤n,d表示特征数;设置初始吸引力β0、传播介质对光的吸收系数γ、步长的扰动因子α以及最大迭代次数t
max
;在计算每个萤火虫个体即每个特征子集的适应度之前,采用sigmoid函数对每个个体进行编码,从而将其值转换为0、1形式,sigmoid函数的定义如下:
[0012][0013]
步骤2中邻域粒度粗糙熵计算式如下:
[0014]
ngre(s)=ngk(d|s)
×
ner(d|s)
ꢀꢀꢀꢀꢀ
(2)
[0015]
式(2)中,ngk(d|s)和ner(d|s)分别为候选特征子集s相对于决策属性d的邻域知识粒度和邻域粗糙熵,计算式如下:
[0016][0017][0018]
式(3)和式(4)中,δs(xi)为特征子集s中样本的邻域类,|δ
s∪d
(xi)|是在特征子集s和决策属性d中样本的邻域类,u是样本空间;
[0019]
利用邻域粒度粗糙熵和属性集重要性计算萤火虫种群中个体的适应度,计算公式如下:
[0020][0021]
式(5)中,λ1和λ2用来调整邻域粒度粗糙熵和属性集重要性的影响程度,且λ1+λ2=1;对于任一萤火虫即特征子集s∈fag,|s|为特征子集s的特征个数,n为所有特征个数;ngre(s)为邻域粒度粗糙熵。
[0022]
步骤3包括比较萤火虫个体的适应度之间的大小,令适应度较低的萤火虫个体朝适应度较高的萤火虫个体所在的方向移动,根据空间距离计算出每个萤火虫个体与其他萤火虫个体之间的相互吸引力,进而对萤火虫的位置进行更新并重新计算萤火虫个体的适应度;具体包括以下步骤:
[0023]
步骤3.1、依次将每个萤火虫个体的适应度与其他萤火虫个体的适应度进行比较,按照适应度低的萤火虫个体被适应度高的萤火虫个体吸引的原则,确定每个萤火虫个体分别被种群内哪些萤火虫个体吸引,并根据空间距离计算出每个萤火虫个体与其他萤火虫之间的相互吸引力,吸引力计算公式如下:
[0024][0025]
式(6)中,β0是r=0时的吸引力,γ是光吸收系数,r
ij
为萤火虫个体xi和xj之间的距离;
[0026]
步骤3.2、对于任意两只萤火虫si和sj∈fag,若sj的适应度高于si,则令萤火虫si朝
sj所处位置的方向进行移动,萤火虫个体的位置更新计算公式如下:
[0027]
sid(t+1)=sid(t)+β(rij)(sjd(t)-sid(t))+α(rand-1/2)
ꢀꢀꢀꢀꢀꢀ
(7)
[0028]
式(7)中,d表示萤火虫个体的空间维度即特征维度,α∈[0,1]为步长因子,β(r
ij
)为萤火虫xi和xj之间的吸引力,(rand-1/2)是[-0.5,0.5]区间内的随机数,t是迭代次数;
[0029]
步骤3.3、利用公式(5)更新萤火虫个体si的适应度,对所有萤火虫进行排序并找出当前迭代次数中适应度最优的萤火虫个体。
[0030]
步骤4还包括,将输出的非遗文化数据集的最优特征子集r按照7:3的比例划分为训练集t和测试集v,并采用cart决策树模型对划分后的特征子集进行分类,在分类过程中,通过计算训练集t中每个特征的基尼指数来选择cart决策树的初始根节点,将训练集t划分成若干子集;训练集t中每个特征a的基尼指数计算公式如下:
[0031][0032]
式(8)中,|t|表示训练集t中的非遗文化数据个数,|ck|代表训练集t中第k个类别的非遗文化数据量,k为非遗文化级别数目,假设特征a的值将训练集t划分为t1和t2两个类别,那么|t1|和|t2|分别表示每个类别所包含的非遗文化数据量;
[0033]
对于划分的每个子集,如果该子集中的非遗文化数据属于同一类别,则将该子集标记为一类;否则,跳转至计算特征基尼指数的步骤,并在每个子集上递归应用上述步骤;重复此过程,直至满足停止条件。
[0034]
本发明的有益效果是:本发明的非遗文化数据特征选择方法,经过特征选择处理的非遗文化数据相较于原始数据拥有更低的维度,在对处理后的非遗文化数据进行分类时,由于其具有更低的冗余度,且保持了较好的数据信息完备性,由此实现了对非遗文化级别分类效果的优化,达到了降低数据冗余,优化资源的目的。
附图说明
[0035]
图1是本发明的非遗文化数据特征选择方法的流程示意图;
[0036]
图2是本发明的非遗文化数据特征选择方法中实施例3在三个对比方法上采用auc、acc、f1评价指标的对比结果图;
[0037]
图3是本发明的非遗文化数据特征选择方法中实施例3在三个对比方法上采用特征子集规模评价指标的对比结果图。
具体实施方式
[0038]
下面结合附图以及具体实施方式对本发明进行详细说明。
[0039]
实施例1
[0040]
如图1所示,包括具体按照以下步骤实施:
[0041]
步骤1、获取非遗文化数据集,基于萤火虫算法构建非遗文化数据集特征选择模型,并根据非遗文化数据集初始化萤火虫种群规模(即特征子集)、光吸收系数、最大迭代次数等参数。具体按照以下步骤实施:
[0042]
根据获取的非遗文化数据集基于萤火虫算法思想初始化特征选择模型参数。其中,萤火虫(即特征子集)数目n为50,最大迭代次数t
max
为30。随机初始化大小为n的萤火虫
种群fag={s1,s2,...,sn},每只萤火虫所对应的初始位置s={s
i1
,s
i2
,...,s
id
},其中1≤i≤n,d表示特征数。设置初始吸引力β0、传播介质对光的吸收系数γ、步长的扰动因子α以及最大迭代次数t
max
。在计算每个萤火虫个体(即每个特征子集)的适应度之前,采用sigmoid函数对每个个体进行编码,从而将其值转换为0,1形式。sigmoid函数的定义如下:
[0043][0044]
步骤2、利用邻域粒度粗糙熵和属性集重要性计算萤火虫种群中个体的适应度。具体按照以下步骤实施:
[0045]
邻域粒度粗糙熵计算式如下:
[0046]
ngre(s)=ngk(d|s)
×
ner(d|s)
ꢀꢀꢀꢀꢀ
(2)
[0047]
式中ngk(d|b)和ner(d|b)分别为候选特征子集s相对于决策属性d的邻域知识粒度和邻域粗糙熵,计算式如下:
[0048][0049][0050]
其中,δs(xi)为属性子集s中样本的邻域类,|δ
s∪d
(xi)|是在属性子集s和决策属性d中样本的邻域类,u是样本空间。
[0051]
利用邻域粒度粗糙熵和属性集重要性计算萤火虫种群中个体的适应度,计算公式如下:
[0052][0053]
其中,λ1和λ2用来调整邻域粒度粗糙熵和属性集重要性的影响程度,且λ1+λ2=1,fit
ngre
为萤火虫种群中个体的适应度。对于任一萤火虫(即特征子集)s∈fag,|s|为特征子集s的特征个数,n为所有特征个数。ngre(s)为邻域粒度粗糙熵。
[0054]
步骤3、比较萤火虫个体的适应度之间的大小,令适应度较低的萤火虫个体朝适应度较高的萤火虫个体所在的方向移动,根据空间距离计算出每个萤火虫个体与其他萤火虫个体之间的相互吸引力,进而对萤火虫的位置进行更新并重新计算萤火虫个体的适应度。具体按照以下步骤实施:
[0055]
依次将每个萤火虫个体的适应度与其他萤火虫个体的适应度进行比较,按照适应度低的萤火虫个体被适应度高的萤火虫个体吸引的原则,确定每个萤火虫个体分别被种群内哪些萤火虫个体吸引,并根据空间距离计算出每个萤火虫个体与其他萤火虫个体之间的相互吸引力,吸引力计算公式如下:
[0056][0057]
其中,β0是r=0时的吸引力,γ是光吸收系数,r
ij
为萤火虫个体xi和xj之间的距离。
[0058]
对于任意两只萤火虫si和sj∈fag,若sj的适应度高于si,则令萤火虫si朝sj所处位
置的方向进行移动,萤火虫个体的位置更新计算公式如下:
[0059]
sid(t+1)=sid(t)+β(rij)(sjd(t)-sid(t))+α(rand-1/2)
ꢀꢀ
(7)
[0060]
其中,d表示萤火虫个体的空间维度(即特征维度),α∈[0,1]为步长因子,β(r
ij
)为萤火虫xi和xj之间的吸引力,(rand-1/2)是[-0.5,0.5]区间内的随机数,t是迭代次数。
[0061]
利用公式(5)更新萤火虫个体si的适应度,对所有萤火虫进行排序并找出当前迭代次数中适应度最优的萤火虫个体。
[0062]
步骤4、判断当前迭代是否达到最大迭代次数t
max
(本发明中最大迭代次数t
max
为30),若未达到,返回执行步骤3,否则输出全局最优萤火虫个体所对应的特征子集,最终得到基于萤火虫算法的非遗文化数据集的最优特征子集。
[0063]
实施例2
[0064]
为了验证所提非遗文化数据特征选择方法的有效性,本发明利用cart决策树算法对处理后的非遗文化数据集执行分类操作,并对分类结果进行评估。具体按照以下步骤实施:
[0065]
判断本次寻优结果是否满足结束条件(达到最大迭代次数),若未满足条件,则转到步骤3,进行下一次寻优;若满足结束条件,则将步骤3所得到的最优特征子集用于非遗文化数据集的特征选择过程。将经过特征选择处理后的非遗文化数据集r按照7:3的比例划分为训练集t和测试集v,并采用cart决策树模型对划分后的数据集进行分类分析。在分类过程中,通过计算训练集t中每个特征的基尼指数来选择初始根节点,将训练集t划分成若干子集。训练集t中每个特征a的基尼指数计算公式如下:
[0066][0067]
其中,|t|表示训练集t中的非遗文化数据个数,|ck|代表训练集t中第k个类别(即国家级或省级)的非遗文化数据量,k为非遗文化级别数目,本发明中k取值为2。假设特征a的值将训练集t划分为t1和t2两个类别,那么|t1|和|t2|分别表示每个类别所包含的非遗文化数据量。
[0068]
对于划分的每个子集,如果该子集中的非遗文化数据属于同一类别(如国家级),则将该子集标记为一类;否则,跳转至计算特征基尼指数的步骤,并在每个子集上递归应用上述步骤。重复此过程,直至满足停止条件。构建完成的cart决策树模型可以对测试集v进行分类,将测试集中的非遗文化数据划分到预定义的类别中。
[0069]
针对分类结果,采用auc、accuracy(以下简称acc)、f1-score(以下简称f1)和特征子集规模大小来对其进行评估。其中auc值是roc曲线和坐标轴包围的面积大小,它可以清楚地显示分类器的分类效果。auc值越接近1,分类性能越好。当auc值小于或等于0.5时,代表分类能力越差。acc是指样本分类的准确率,即分类器正确分类的样本数与总样本数之比。f1是precision和recall的调和平均值,其取值范围为[0,1]。1代表模型的最佳输出,0代表模型的最差输出。
[0070]
通过上述方式,本发明的非遗文化数据特征选择方法,对所采集到的非遗文化数据a进行特征选择,生成一组[x1,x1,...,xn]向量集合的特征子集,其中n为数据集特征的最大维度其中xi=0或1,表示是否选中当前特征,以筛选出数据中关键特征,剔除冗余数据特征。本发明可以生成一组特征子集,决策者可以根据决策需求,选择特征子集的优化方案,
而后基于所选的特征子集方案结合非遗文化数据a生成新的文化数据b。此时,文化数据b较非遗文化数据a中拥有更低的维度。当对该文化数据进行分类时,由于非遗文化数据b有着更低的维度,且保持了较好的分类性能,实现了对计算资源的优化。
[0071]
实施例3
[0072]
如图1所示,具体按照以下步骤实施:
[0073]
步骤1、获取非遗文化数据集,基于萤火虫算法构建非遗文化数据集特征选择模型,并根据非遗文化数据集初始化萤火虫种群规模(即特征子集)、光吸收系数、最大迭代次数等参数。具体为:根据采集到的非遗文化数据集基于萤火虫算法思想初始化特征选择模型参数。其中,萤火虫(即特征子集)数目n为50,最大迭代次数t
max
为30。随机初始化大小为n的萤火虫种群fag={s1,s2,...,sn},每只萤火虫所对应的初始位置s={s
i1
,s
i2
,...,s
id
},其中1≤i≤n,d表示特征数。设置初始吸引力β0、传播介质对光的吸收系数γ、步长的扰动因子α以及最大迭代次数t
max
。在计算每个萤火虫个体(即每个特征子集)的适应度之前,采用sigmoid函数对每个个体进行编码,从而将其值转换为0,1形式。sigmoid函数的定义如下:
[0074][0075]
步骤2、利用邻域粒度粗糙熵和属性集重要性计算萤火虫种群中个体的适应度。具体为:邻域粒度粗糙熵计算式如下:
[0076]
ngre(s)=ngk(d|s)
×
ner(d|s)
ꢀꢀꢀꢀꢀ
(2)
[0077]
式中ngk(d|s)和ner(d|s)分别为候选特征子集s相对于决策属性d的邻域知识粒度和邻域粗糙熵,计算式如下:
[0078][0079][0080]
其中,δs(xi)为特征子集s中样本的邻域类,|δ
s∪d
(xi)|是在特征子集s和决策属性d中样本的邻域类,u是样本空间。
[0081]
利用邻域粒度粗糙熵和属性集重要性计算萤火虫种群中个体的适应度,计算公式如下:
[0082][0083]
其中,λ1和λ2用来调整邻域粒度粗糙熵和属性集重要性的影响程度,且λ1+λ2=1,fit
ngre
为萤火虫种群中个体的适应度。对于任一萤火虫(即特征子集)s∈fag,|s|为特征子集s的特征个数,n为所有特征个数。ngre(s)为邻域粒度粗糙熵。
[0084]
步骤3、比较萤火虫个体的适应度之间的大小,令适应度较低的萤火虫个体朝适应度较高的萤火虫个体所在的方向移动,根据空间距离计算出每个萤火虫个体与其他萤火虫个体之间的相互吸引力,进而对萤火虫的位置进行更新并重新计算萤火虫个体的适应度。
具体为:依次将每个萤火虫个体的适应度与其它萤火虫个体的适应度进行比较,按照适应度低的萤火虫个体被适应度高的萤火虫个体吸引的原则,确定每个萤火虫个体分别被种群内哪些萤火虫个体吸引,并根据空间距离计算出每个萤火虫个体与其他萤火虫个体之间的相互吸引力,吸引力计算公式如下:
[0085][0086]
其中,β0是r=0时的吸引力,γ是光吸收系数,r
ij
为萤火虫个体xi和xj之间的距离。
[0087]
对于任意两只萤火虫si和sj∈fag,若sj的适应度高于si,则令萤火虫si朝sj所处位置的方向进行移动,萤火虫个体的位置更新计算公式如下:
[0088]
sid(t+1)=sid(t)+β(rij)(sjd(t)-sid(t))+α(rand-1/2) (7)
[0089]
其中,d表示萤火虫个体的空间维度(即特征维度),α∈[0,1]为步长因子,β(r
ij
)为萤火虫xi和xj之间的吸引力,(rand-1/2)是[-0.5,0.5]区间内的随机数,t是迭代次数。
[0090]
利用公式(5)更新萤火虫个体si的适应度,对所有萤火虫进行排序并找出当前迭代次数中适应度最优的萤火虫个体。
[0091]
步骤4、判断当前迭代是否达到最大迭代次数t
max
(本发明中最大迭代次数t
max
为30),若未达到,返回执行步骤3,否则输出全局最优萤火虫个体所对应的特征子集,最终得到基于萤火虫算法的非遗文化数据集的最优特征子集。为了验证所提非遗文化数据特征选择方法的有效性,本发明利用cart决策树模型对处理后的非遗文化数据集执行分类操作,并对分类结果进行评估。具体按照以下步骤实施:
[0092]
判断本次寻优结果是否满足结束条件(达到最大迭代次数),若未满足条件,则转到步骤3,进行下一次寻优;若满足结束条件,则将步骤3所得到的最优特征子集用于非遗文化数据集的特征选择过程。将经过特征选择处理后的非遗文化数据集r按照7:3的比例划分为训练集t和测试集v,并采用cart决策树模型对划分后的数据集进行分类分析。在分类过程中,通过计算训练集t中每个特征的基尼指数来选择初始根节点,将训练集t划分成若干子集。训练集t中每个特征a的基尼指数计算公式如下:
[0093][0094]
其中,|t|表示训练集t中的非遗文化数据个数,|ck|代表训练集t中第k个类别(即国家级或省级)的非遗文化数据量,k为非遗文化级别数目,本发明中k取值为2。假设特征a的值将训练集t划分为t1和t2两个类别,那么|t1|和|t2|分别表示每个类别所包含的非遗文化数据量。
[0095]
对于划分的每个子集,如果该子集中的非遗文化数据属于同一类别(如国家级),则将该子集标记为一类;否则,跳转至计算特征基尼指数的步骤,并在每个子集上递归应用上述步骤。重复此过程,直至满足停止条件。构建完成的cart决策树模型可以对测试集v进行分类,将测试集中的非遗文化数据划分到预定义的类别中。
[0096]
对于该实施例,采用auc、acc、f1和特征子集规模大小来对其进行评估。其中auc值是roc曲线和坐标轴包围的面积大小,它可以清楚地显示分类器的分类效果。auc值越接近1,分类性能越好。当auc值小于或等于0.5时,代表分类能力越差。acc是指样本分类的准确
率,即分类器正确分类的样本数与总样本数之比。f1是precision和recall的调和平均值。f1的取值范围是[0,1]。1代表模型的最佳输出,0代表模型的最差输出。特征子集规模是指进行特征选择后的特征子集数量大小,越小越优。
[0097]
在该实施例中,将本发明与三种已有的特征选择方法在四个评价指标上进行对比,对比方法包括:ssa(麻雀搜索算法),hho(哈里斯鹰优化算法),rfe(特征递归消除算法),对比结果如图2,图3所示。从图2,图3中可以看出本发明的效果最优,且在四个评价指标上都有明显的提升。说明本发明能有效获取重要性高的特征子集,并且获取较好的分类结果。
技术特征:
1.非遗文化数据特征选择方法,其特征在于,包括以下步骤:步骤1、获取非遗文化数据集,基于萤火虫算法构建非遗文化数据集特征选择模型;步骤2、利用邻域粒度粗糙熵和属性集重要性计算萤火虫种群中个体的适应度fit
ngre
;步骤3、令适应度较低的萤火虫个体朝适应度较高的萤火虫个体所在的方向移动,对萤火虫的位置进行更新并重新计算萤火虫个体的适应度;步骤4、判断当前迭代是否达到最大迭代次数t
max
,若未达到,则返回执行步骤3,否则输出全局最优萤火虫个体所对应的非遗文化数据集的最优特征子集。2.如权利要求1所述的非遗文化数据特征选择方法,其特征在于,所述步骤1具体为:根据获取的非遗文化数据集基于萤火虫算法初始化特征选择模型参数;其中,非遗文化数据集的特征子集即萤火虫数目n为50,最大迭代次数t
max
为30,随机初始化大小为n的萤火虫种群fag={s1,s2,...,s
n
},每只萤火虫所对应的初始位置s={s
i1
,s
i2
,...,s
id
},1≤i≤n,d表示特征数;设置初始吸引力β0、传播介质对光的吸收系数γ、步长的扰动因子α以及最大迭代次数t
max
;在计算每个萤火虫个体即每个特征子集的适应度之前,采用sigmoid函数对每个个体进行编码,从而将其值转换为0、1形式,sigmoid函数的定义如下:3.如权利要求2所述的非遗文化数据特征选择方法,其特征在于,所述步骤2中邻域粒度粗糙熵计算式如下:ngre(s)=ngk(d|s)
×
ner(d|s)
ꢀꢀꢀꢀꢀ
(2)式(2)中,ngk(d|s)和ne
r
(d|s)分别为候选特征子集s相对于决策属性d的邻域知识粒度和邻域粗糙熵,计算式如下:和邻域粗糙熵,计算式如下:式(3)和式(4)中,δ
s
(x
i
)为特征子集s中样本的邻域类,|δ
s∪d
(x
i
)|是在特征子集s和决策属性d中样本的邻域类,u是样本空间;利用邻域粒度粗糙熵和属性集重要性计算萤火虫种群中个体的适应度,计算公式如下:式(5)中,λ1和λ2用来调整邻域粒度粗糙熵和属性集重要性的影响程度,且λ1+λ2=1;对于任一萤火虫即特征子集s∈fag,|s|为特征子集s的特征个数,n为所有特征个数;ngre(s)为邻域粒度粗糙熵。4.如权利要求3所述的非遗文化数据特征选择方法,其特征在于,所述步骤3包括比较萤火虫个体的适应度之间的大小,令适应度较低的萤火虫个体朝适应度较高的萤火虫个体所在的方向移动,根据空间距离计算出每个萤火虫个体与其他萤火虫个体之间的相互吸引
力,进而对萤火虫的位置进行更新并重新计算萤火虫个体的适应度;具体包括以下步骤:步骤3.1、依次将每个萤火虫个体的适应度与其他萤火虫个体的适应度进行比较,按照适应度低的萤火虫个体被适应度高的萤火虫个体吸引的原则,确定每个萤火虫个体分别被种群内哪些萤火虫个体吸引,并根据空间距离计算出每个萤火虫个体与其他萤火虫之间的相互吸引力,吸引力计算公式如下:式(6)中,β0是r=0时的吸引力,γ是光吸收系数,r
ij
为萤火虫个体x
i
和x
j
之间的距离;步骤3.2、对于任意两只萤火虫s
i
和s
j
∈fag,若s
j
的适应度高于s
i
,则令萤火虫s
i
朝s
j
所处位置的方向进行移动,萤火虫个体的位置更新计算公式如下:sid(t+1)=sid(t)+β(rij)(sjd(t)-sid(t))+α(rand-1/2)
ꢀꢀꢀꢀꢀꢀ
(7)式(7)中,d表示萤火虫个体的空间维度即特征维度,α∈[0,1]为步长因子,β(r
ij
)为萤火虫x
i
和x
j
之间的吸引力,(rand-1/2)是[-0.5,0.5]区间内的随机数,t是迭代次数;步骤3.3、利用公式(5)更新萤火虫个体s
i
的适应度,对所有萤火虫进行排序并找出当前迭代次数中适应度最优的萤火虫个体。5.如权利要求4所述的非遗文化数据特征选择方法,其特征在于,所述步骤4还包括,将输出的非遗文化数据集的最优特征子集r按照7:3的比例划分为训练集t和测试集v,并采用cart决策树模型对划分后的特征子集进行分类,在分类过程中,通过计算训练集t中每个特征的基尼指数来选择cart决策树的初始根节点,将训练集t划分成若干子集;训练集t中每个特征a的基尼指数计算公式如下:式(8)中,|t|表示训练集t中的非遗文化数据个数,|c
k
|代表训练集t中第k个类别的非遗文化数据量,k为非遗文化级别数目,假设特征a的值将训练集t划分为t1和t2两个类别,那么|t1|和|t2|分别表示每个类别所包含的非遗文化数据量;对于划分的每个子集,如果该子集中的非遗文化数据属于同一类别,则将该子集标记为一类;否则,跳转至计算特征基尼指数的步骤,并在每个子集上递归应用上述步骤;重复此过程,直至满足停止条件。
技术总结
本发明公开的非遗文化数据特征选择方法,包括:获取非遗文化数据集,基于萤火虫算法构建非遗文化数据集特征选择模型,利用邻域粒度粗糙熵和属性集重要性计算萤火虫种群中个体的适应度;令适应度较低的萤火虫个体朝适应度较高的萤火虫个体所在的方向移动,对萤火虫的位置进行更新并重新计算萤火虫个体的适应度;输出全局最优萤火虫个体所对应的非遗文化数据集的最优特征子集。本发明经过特征选择处理的非遗文化数据相较于原始数据拥有更低的维度,在对处理后的非遗文化数据进行分类时,由于其具有更低的冗余度,且保持了较好的数据信息完备性,由此实现了对非遗文化级别分类效果的优化,达到了降低数据冗余,优化资源的目的。优化资源的目的。优化资源的目的。
技术研发人员:赵雪青 杨晗 师昕 刘浩 吴祯鴻
受保护的技术使用者:西安工程大学
技术研发日:2023.05.31
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/