一种基于FCBF#-PSO-RF模型的晶圆良率分类预测方法
未命名
10-21
阅读:77
评论:0
一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法
技术领域
1.本发明涉及集成电路工艺制造领域,尤其涉及一种晶圆良率分类预测方法。
背景技术:
2.在集成电路(ic)制造过程中,工艺参数是影响芯片表现的关键因素,工艺参数的异常会使得芯片性能下降,导致良率损失。为了全面地了解和监控ic制造工艺参数的影响,往往会在晶圆制造过程中进行大量的测试,以此有效地对制造过程中的工艺参数进行控制和改进,提高晶圆良率,降低芯片成本。
3.传统的晶圆良率预测方法主要考虑晶圆的缺陷来源、缺陷数目、缺陷聚集程度与良率之间的关系,需要在晶圆完成生产之后进行综合统计分析,不具有动态实时性,无法及时反馈、辅助生产工艺调整。
4.近年来更多的研究集中于利用晶圆允收测试(wat)参数替代缺陷来源、缺陷群聚特性等相关参数作为预测晶圆良率的输入因子,构建晶圆良率预测模型。
5.晶圆允收测试(wat),又称为电性测试(e-test),是一种重要的ic晶圆测试方式。其主要是在晶圆制造完成后,工厂利用预先设计在芯片隔离区域的测试模块,通过探针法接通底层电路并收集芯片相关的物理电性参数,这些电性参数能够间接地反映制造过程中工艺参数的好坏。针对wat数据进行分析,找出工艺过程中的薄弱环节,进而有针对性地对ic制造过程中不好的工艺参数进行提升改进,在ic制造产业中应用十分广泛。同时,为了降低wat测试的时间和成本,一般实际生产中仅仅只会在晶圆上少数几个测试点放置测试结构,再通过建立相关模型,用获得的数据预测其它各点的情况。wat数据集包括晶圆上芯片中器件的传导电阻gm、漏极电流与栅极电压id-vg、漏极电流与漏极电压id-vd、输出导纳gds、电容-电压c-v、栅极漏电流igss、击穿电压、亚阈值斜率、噪声系数、输入和输出阻抗等等许多数据,具有特征维度高的特点。
6.但事实上,这些特征中有很多的特征相互之间是有相同变化趋势的。这是因为在电性测试中,虽然测试的物理量不同,但是都可能因为器件中某一个参数的影响而导致电性上的共同变化。例如,对某一mos管的开启电压和栅极漏电流的测试,它们都有可能因为栅氧的特性变化而导致性能上的共同变化。由于很多变量在不同程度上都提供相同的信息,所以特征与特征之间的这种相关性会导致问题变得复杂化。因此,而这些重叠的信息会导致计算量的增加和计算复杂性的增加。
技术实现要素:
7.(一)要解决的技术问题
8.基于现有技术的上述不足,本发明提供一种数据集质量高、分类准确度高、运行时间短的晶圆良率分类预测方法。
9.(二)技术方案
10.为了达到上述目的,本发明采用的主要技术方案包括:
11.第一方面,本发明提供一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法所述方法包括:
12.(1)对wat数据集进行预览和预处理;
13.(2)采用fcbf#算法对预处理后的数据集进行特征选择,得到最优特征子集,并对最优特征子集进行划分,得到训练集、验证集和测试集;
14.(3)将训练集和验证集输入rf模型进行预训练,结合pso群体优化算法对rf模型进行参数优化,得到训练优化好的rf模型,保留分类器模型;其中,将良率高于50%的晶圆视为正类;良率低于50%的晶圆视为负类;
15.(4)将测试集输入预训练优化好的rf模型,输出晶圆良率分类结果。
16.进一步地,所述步骤(1)中的对wat数据集进行预览和预处理具体包括:
17.(1-1)数据集预览:
18.wat数据包括晶圆编号、测试点坐标、晶圆测试结果以及晶圆良率;所述晶圆测试结果包括但不限于传导电阻gm、漏极电流与栅极电压id-vg、漏极电流与漏极电压id-vd、输出导纳gds、电容-电压c-v、栅极漏电流igss、击穿电压、亚阈值斜率、噪声系数、输入和输出阻抗;一般而言,数据集的大小取决于晶圆数量、晶圆上放置测试点的个数以及每个测试点测量的电特性参数的个数;
19.使用python中的函数对wat数据集进行预览,可以获得数据集的大小、均值、方差、缺失项个数等属性,便于后续预处理操作;
20.(1-2)数据集预处理:
21.数据集预处理操作使用python中的数据处理工具,具体到对每一列进行处理,具体的处理操作包括:异常值检测与处理、缺失值处理和数据归一化处理。
22.进一步地,所述步骤(1-2)中的异常值检测可以选择但不限于以下两种方法:
23.箱型图和3-sigma原则;
24.在箱型图中,小于ql-1.5iqr或大于qu+1.5iqr的值被视为异常值;其中ql称为下四分数,表示全部样本数据中有四分之一的数据取值比它小;qu称为上四分数,表示全部样本数据中有四分之一的数据取值比它大;iqr称为四分位数间距,是qu和ql之差,包含了全部样本数据的一半;
25.对于服从正态分布的数据,选择3-sigma原则,在正态分布的假设下,距离平均值μ相差三倍标准差3σ的值x出现的概率为p(|x-μ|>3σ)≤0.003,属于极个别的小概率事件,因此一组数据中若测定值与平均值的偏差超过3倍的标准差,将被视为异常值;对检测出的异常值设为空值后与缺失值一起进行下一步处理。
26.箱型图识别异常值的结果比较客观,在识别方面具有一定的优越性;而3-sigma原则更适用于服从正态分布的数据。
27.进一步地,所述步骤(1-2)中的缺失值处理可以选择但不限于以下三种方式:
28.删除缺失值;
29.采用平均值、众数、中位数对缺失值进行填充;
30.基于现有数据建立预测模型,使用结果对缺失值进行填充。
31.进一步地,所述步骤(1-2)中的数据归一化处理为以下两种方式之一:
32.标准归一化和最大最小值归一化;
33.标准归一化处理是将样本数据处理成符合正态分布即均值为0,方差为1的标准正态分布形式,标准归一化方法的公式为:
[0034][0035]
式中,x'为归一化处理后的数据,为所有样本数据的均值,s为所有样本数据的标准差;
[0036]
最大最小值归一化利用样本数据的两个最值对所有数据进行缩放操作,将所有数据归一化为0到1之间,最大最小值归一化的公式为:
[0037][0038]
式中,x为原始样本数据,max和min分别为样本数据的最大值和最小值。
[0039]
这两种方法各有优劣,其中标准归一化法只有在样本数据越接近正态分布才能得到最佳结果,而最大最小值归一化法容易受到离群点的影响。在本方法中,因在归一化操作前已经对数据集进行了异常值的检测与处理,消除了离群点对最大最小值归一化结果的影响,故可以采用最大最小值归一化的方法。
[0040]
进一步地,所述步骤(2)中采用fcbf#算法对预处理后的数据集进行特征选择,得到最优特征子集,并对最优特征子集进行划分,得到训练集、验证集和测试集,具体包括:
[0041]
(2-1)得到相关特征子集s
list
:
[0042]
根据经验熵、条件熵和信息增益计算每个特征与标签的对称不确定度,即su值;当某一特征与标签的su值大于提前设定的阈值时,认为该特征是相关特征,将该特征加入相关特征子集s
list
中,并根据su值的大小降序排序;其中,经验熵的计算公式为:
[0043][0044]
式中,h(x)为经验熵,p(xi)为x所有可能取值的先验概率;
[0045]
条件熵的计算公式为:
[0046][0047]
式中,h(x|y)为条件熵,p(yj)为y所有可能取值的先验概率,p(xi|yj)为在x的值给定时,y的后验概率;
[0048]
信息增益的计算公式为:
[0049]
ig(x|y)=h(x)-h(x|y)
[0050]
式中,ig(x|y)为信息增益,表示得知特征x的信息后使得类别y的信息的不确定性减少的程度;
[0051]
对称不确定度的计算公式为:
[0052][0053]
式中,su(x,y)代表x,y之间的对称不确定度;
[0054]
(2-2)得到最优特征子集s
best
:
[0055]
在相关特征子集s
list
中,若相关特征个数大于设定的最后所需特征个数k,则取出
相关特征子集中的第一个特征f
p
和最后一个特征fq,计算两者之间的对称不确定度su(f
p
,fq),若su(f
p
,fq)》su(fq,y),则认为fq为冗余特征,删去;继续比较f
p
与f
q-1
之间的对称不确定度大小,重复上述步骤,直到特征子集中的特征个数等于设置的所需特征数k,最后输出最优特征子集s
best
;
[0056]
(2-3)划分数据集:
[0057]
将输出的包含k个特征的最优特征子集划分为训练集,测试集和验证集,其中训练集占比70%,测试集占比20%,验证集占比10%,保证三个子数据集之间没有重复项。
[0058]
进一步地,所述步骤(3)中将训练集和验证集输入rf模型进行预训练,结合pso群体优化算法对rf模型进行参数优化,得到训练优化好的rf模型,保留分类器模型,具体包括:
[0059]
初始化pso算法中的粒子群参数,所述粒子群参数包括粒子群规模、粒子维度(即待优化参数个数)、最大迭代次数、惯性权重、学习因子、种群范围和迭代步长范围;
[0060]
随机初始化种群中每个粒子的位置和速度,计算个体历史最优位置和适应值、群体历史最优位置和适应值;其中,pso算法适应度函数fitness为:
[0061]
fitness=1-auc_score
[0062]
式中,auc_score为机器学习中常用的二分类模型评价指标auc(area under curve)值;auc(area under curve)是机器学习中一种常用的二分类模型评价指标。对于一个分类器模型来说,auc值越大,分类器性能越好。在迭代过程中,pso算法不断寻找使适应度函数fitness最小的解,也就是寻找使rf分类器auc值最大的解;
[0063]
开始迭代,迭代过程中更新每个粒子的速度和位置,计算每个粒子的适应值,粒子速度更新公式为:
[0064][0065]
式中,分别表示粒子下一时刻和当前时刻的速度,ω表示惯性权重,c1、c2分别表示个体学习因子和群体学习因子,r1、r2为[0,1)之间的随机数,表示当前时刻个体历史最优位置,表示当前时刻群体历史最优位置;
[0066]
粒子位置更新公式为:
[0067][0068]
式中,分别表示粒子下一时刻和当前时刻的位置;
[0069]
若当前时刻粒子的适应值小于粒子个体历史最优适应值,则更新粒子的个体历史最优适应值和位置;若当前粒子个体历史最优适应值的最小值小于群体历史最优适应值,则更新群体的历史最优适应值和位置;当达到最大迭代次数时,输出当前群体历史最优适应值和位置,即为最优解。
[0070]
在pso算法中,每个粒子的位置表示为一个1*dim大小的向量,维度dim的大小代表需要使用pso算法优化的rf模型参数个数,在每次迭代过程中更新粒子的位置向量也就是对参数寻优的过程,将最终的群体历史最优位置p
d,gbest
(t)=[p[0],p[1],p[2],p[3],p[4]]作为rf模型参数的最优解输出,其中p[0]代表rf框架参数中的最大弱学习器个数n_estimators、p[1]代表rf决策树参数中的最大深度max_depth、p[2]代表最大特征数max_
features、p[3]代表内部节点再划分所需最小样本数min_samples_split、p[4]代表叶节点最少样本数min_samples_leaf。
[0071]
进一步地,所述步骤(4)中将测试集输入预训练优化好的rf模型,输出晶圆良率分类结果,具体包括:
[0072]
将划分的测试集输入训练好的rf模型,使用auc指标评价模型的泛化能力。
[0073]
(三)有益效果
[0074]
本发明的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,采用fcbf#算法对通过wat测试预处理后的数据集进行特征选择,使用pso算法对rf分类模型进行优化;通过该方法,提高模型对晶圆良率的分类准确度和泛化能力,保留wat数据集特征维度高的特点的同时,删除无关特征和冗余特征,提高了数据集的数量,减少程序运行时间。
附图说明
[0075]
图1为本发明的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法的流程示意图;
[0076]
图2为基于python的粒子群算法优化随机森林法参数的流程示意图。
具体实施方式
[0077]
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
[0078]
如图1所示,一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,包括:
[0079]
首先,对wat数据集进行预览和预处理;
[0080]
使用python中的函数对wat数据集进行预览,可以获得数据集大小、均值、方差、缺失项个数等属性,其中缺失项可以归类为异常值,对其采用删除操作,然后对数据集使用最大最小值归一化的方法将所有数据缩放到(0,1)之间,公式如下:
[0081][0082]
然后,基于fcbf#算法对特征进行筛选;
[0083]
使用基于python编制的扩展的快速相关性滤波(fcbf,fast correlation-based filter)算法fcbf#对预处理后的数据集进行特征选择,得到最优特征子集,并对最优特征子集进行划分,得到训练集、验证集和测试集;
[0084]
fcbf#是一种基于快速相关性过滤的扩展方法,该方法可以人为设定最终筛选出的特征个数k。当输入特征强相关时,原始的fcbf算法可能会因为删除过多的特征从而导致最终模型拟合不足,而fcbf#算法可以在特征筛选和模型拟合中选择一个平衡点。
[0085]
fcbf#算法首先根据样本特征与标签之间的对称不确定度筛选出一个相关特征子集s
list
,然后在此基础上根据特征与特征之间的对称不确定度删除冗余特征,得到最优特征子集s
best
。其中,s
best
最优特征子集中的特征个数k可以人为设定。在这个方法中,对称不确定度su是信息增益ig归一化的一种形式,利用信息增益ig选择特征存在偏向于选择取值
较多的特征的问题,而使用su值则可以对这一问题进行校正,消除了样本不均衡对特征选择的影响。
[0086]
在本实例中,若将样本特征集合表示为{f1、f2、
……
、fn},将晶圆良率标签列表示为y,则样本特征与标签之间的对称不确定度可以根据经验熵、条件熵、信息增益求出:
[0087][0088][0089]
ig(y|fi)=h(y)-h(y|fi)
[0090][0091]
其中,fj为特征集合中的任意特征,h(y)为y的经验熵,h(y|fj)为在特征fj已知时y的条件熵,ig(y|fi)为特征fj与y之间的信息增益,su(y,fi)为特征fj与y之间的对称不确定度。
[0092]
在本实例中,当su(y,fi)大于阈值δ(本实例中,设置δ=0.01)时,认为该特征是相关特征,将该特征加入相关特征子集s
list
中,并根据su值的大小降序排序。
[0093]
进一步地,在相关特征子集s
list
中,若相关特征个数大于提前设定的所需特征个数k,则取出相关特征子集中的第一个特征f
p
和最后一个特征fq,计算两者之间的对称不确定度su(f
p
,fq),若su(f
p
,fq)》su(fq,y),则可以认为fq为冗余特征,删去;继续比较f
p
与f
q-1
之间的对称不确定度,重复上述步骤,直到特征子集中的个数等于人为设置的k的大小,最后输出最优特征子集s
best
。在本实例中,设置k=200。
[0094]
进一步地,将输出的最优特征子集划分为训练集,测试集和验证集,其中训练集占比70%,测试集占比20%,验证集占比10%,保证三个子数据集之间没有重复项。
[0095]
进一步地,使用训练集和验证集对rf模型进行预训练,结合pso群体优化算法优化rf模型超参数。其中,将良率高于50%的晶圆视为正类;良率低于50%的晶圆视为负类;
[0096]
基于python编制rf分类模型与pso群体优化算法:首先初始化pso算法的粒子群参数,其中包括粒子群规模sizepop=50、粒子维度(即待优化参数个数)dim=5、最大迭代次数maxgen=100、惯性权重ω=1、学习因子c1=c2=2,种群范围[2,500]和迭代步长范围(-0.5,0.5);
[0097]
然后,随机初始化种群中每个粒子的位置和速度,计算个体历史最优位置和适应值、群体历史最优位置和适应值;其中,将pso算法适应度函数fitness定义为:
[0098]
fitness=1-auc_score
[0099]
auc(area under curve)是机器学习中一种常用的二分类模型评价指标。对于一个分类器模型来说,auc值越大,分类器性能越好。在迭代过程中,pso算法不断寻找使适应度函数fitness最小的解,也就是寻找使rf分类器auc值最大的解。
[0100]
开始迭代,迭代过程中根据下式更新每个粒子的速度和位置,计算每个粒子的适应值,若当前时刻粒子的适应值小于粒子个体历史最优适应值,则更新粒子的个体历史最优适应值和位置。若当前粒子个体历史最优适应值的最小值小于群体历史最优适应值,则更新群体的历史最优适应值和位置。当达到最大迭代次数时,输出当前群体历史最优适应
值和位置,即为最优解。
[0101][0102]
式中,分别表示粒子下一时刻和当前时刻的速度,ω表示惯性权重,c1、c2分别表示个体学习因子和群体学习因子,r1、r2为[0,1)之间的随机数,表示当前时刻个体历史最优位置,表示当前时刻种群历史最优位置。
[0103][0104]
式中,分别表示粒子下一时刻和当前时刻的位置。
[0105]
在pso算法中,每个粒子的位置表示为一个1*dim大小的向量,维度dim的大小代表需要使用pso算法优化的rf模型参数个数,在每次迭代过程中更新粒子的位置向量也就是对参数寻优的过程,将最终的群体历史最优位置p
d,gbest
(t)=[p[0],p[1],p[2],p[3],p[4]]作为rf模型参数的最优解输出,其中p[0]代表rf框架参数中的最大弱学习器个数n_estimators、p[1]代表rf决策树参数中的最大深度max_depth、p[2]代表最大特征数max_features、p[3]代表内部节点再划分所需最小样本数min_samples_split、p[4]代表叶节点最少样本数min_samples_leaf。
[0106]
最后,将划分的测试集输入训练好的rf模型,使用auc指标评价模型的泛化能力。
[0107]
本实例采用一组真实wat数据作为样本数据,样本特征包括晶圆上各测试点芯片的漏源电流i
ds
、衬底电流i
sub
、阈值电压v
t
、接触电阻re等等,数据预览及预处理操作如表1所示。从表1中可以看出,该样本数据具有特征维度高的特点。
[0108][0109]
表1晶圆允收测试数据集
[0110]
使用默认参数的rf分类器,分别用于没有经过特征筛选的原始数据集与使用fcbf#筛选后的数据集,默认参数的rf分类器效果结果如表2所示。从表2可知,对数据集进行特征筛选后再使用模型对其分类预测,能够在一定程度上提高最终模型的泛化能力。
[0111][0112]
表2相同分类器处理未经筛选的数据集与经fcbf#筛选后的数据集结果对比
[0113]
*均使用rf分类器,默认参数
[0114]
分别使用未经优化的rf模型、pso-rf模型和fcbf#-pso-rf模型对wat数据集进行分类预测,结果如表3。表3展示了未经优化的rf模型、pso-rf模型与fbcf#-pso-rf模型对一
组真实的wat数据的分类预测能力对比。从表3中可以看出,fbcf#-pso-rf模型和pso-rf模型与原始的rf模型相比,模型的泛化能力分别提高了34.6%和31.7%,同时,在此基础上,使用fcbf#算法进行特征筛选后,fbcf#-pso-rf模型的运行时间比pso-rf模型缩短了71.1%。可以证明,本发明所述的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,能够有效提高晶圆良率分类预测模型的泛化能力、同时减少程序运行时间。
[0115][0116]
表3原始的rf、pso-rf与fbcf#-pso-rf性能指标对比
[0117]
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0118]
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连;可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0119]
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”,可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”,可以是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”,可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度低于第二特征。
[0120]
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0121]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行改动、修改、替换和变型。
技术特征:
1.一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,其特征在于,包括以下步骤:(1)对wat数据集进行预览和预处理;(2)采用fcbf#算法对预处理后的数据集进行特征选择,得到最优特征子集,并对最优特征子集进行划分,得到训练集、验证集和测试集;(3)将训练集和验证集输入rf模型进行预训练,结合pso群体优化算法对rf模型进行参数优化,得到训练优化好的rf模型,保留分类器模型;其中,将良率高于或等于50%的晶圆视为正类;良率低于50%的晶圆视为负类;(4)将测试集输入预训练优化好的rf模型,输出晶圆良率分类结果。2.如权利要求1所述的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,其特征在于,所述步骤(1)中的对wat数据集进行预览和预处理具体包括:(1-1)数据集预览:wat数据包括晶圆编号、测试点坐标、晶圆测试结果以及晶圆良率;所述晶圆测试结果包括传导电阻gm、漏极电流与栅极电压id-vg、漏极电流与漏极电压id-vd、输出导纳gds、电容-电压c-v、栅极漏电流igss、击穿电压、亚阈值斜率、噪声系数、输入和输出阻抗;(1-2)数据集预处理:数据集预处理操作使用python中的数据处理工具,具体的处理操作包括:异常值检测与处理、缺失值处理和数据归一化处理。3.如权利要求2所述的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,其特征在于,所述步骤(1-2)中的异常值检测采用以下两种方法之一:箱型图和3-sigma原则;在箱型图中,小于q
l-1.5iqr或大于q
u
+1.5iqr的值被视为异常值;其中q
l
称为下四分数,表示全部样本数据中有四分之一的数据取值比它小;q
u
称为上四分数,表示全部样本数据中有四分之一的数据取值比它大;iqr称为四分位数间距,是q
u
和q
l
之差,包含了全部样本数据的一半;对于服从正态分布的数据,选择3-sigma原则,在正态分布的假设下,距离平均值μ相差三倍标准差3σ的值x出现的概率为p(|x-μ|>3σ)≤0.003,属于极个别的小概率事件,因此一组数据中若测定值与平均值的偏差超过3倍的标准差,将被视为异常值;对检测出的异常值设为空值后与缺失值一起进行下一步处理。4.如权利要求2所述的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,其特征在于,所述步骤(1-2)中的缺失值处理采用以下三种方式之一:删除缺失值;采用平均值、众数、中位数对缺失值进行填充;基于现有数据建立预测模型,使用结果对缺失值进行填充。5.如权利要求2所述的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,其特征在于,所述步骤(1-2)中的数据归一化处理为以下两种方式之一:标准归一化和最大最小值归一化;标准归一化处理是将样本数据处理成符合正态分布即均值为0,方差为1的标准正态分布形式,标准归一化方法的公式为:
式中,x'为归一化处理后的数据,为所有样本数据的均值,s为所有样本数据的标准差;最大最小值归一化利用样本数据的两个最值对所有数据进行缩放操作,将所有数据归一化为0到1之间,最大最小值归一化的公式为:式中,x为原始样本数据,max和min分别为样本数据的最大值和最小值。6.如权利要求1所述的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,其特征在于,所述步骤(2)中采用fcbf#算法对预处理后的数据集进行特征选择,得到最优特征子集,并对最优特征子集进行划分,得到训练集、验证集和测试集,具体包括:(2-1)得到相关特征子集s
list
:根据经验熵、条件熵和信息增益计算每个特征与标签的对称不确定度,即su值;当某一特征与标签的su值大于提前设定的阈值时,认为该特征是相关特征,将该特征加入相关特征子集s
list
中,并根据su值的大小降序排序;其中,经验熵的计算公式为:式中,h(x)为经验熵,p(x
i
)为x所有可能取值的先验概率;条件熵的计算公式为:式中,h(x|y)为条件熵,p(y
j
)为y所有可能取值的先验概率,p(x
i
|y
j
)为在x的值给定时,y的后验概率;信息增益的计算公式为:ig(x|y)=h(x)-h(x|y)式中,ig(x|y)为信息增益,表示得知特征x的信息后使得类别y的信息的不确定性减少的程度;对称不确定度的计算公式为:式中,su(x,y)代表x,y之间的对称不确定度;(2-2)得到最优特征子集s
best
:在相关特征子集s
list
中,若相关特征个数大于设定的最后所需特征个数k,则取出相关特征子集中的第一个特征f
p
和最后一个特征f
q
,计算两者之间的对称不确定度su(f
p
,f
q
),若su(f
p
,f
q
)>su(f
q
,y),则认为f
q
为冗余特征,删去;继续比较f
p
与f
q-1
之间的对称不确定度大小,重复上述步骤,直到特征子集中的特征个数等于设置的所需特征数k,最后输出最优特征子集s
best
;(2-3)划分数据集:
将输出的包含k个特征的最优特征子集划分为训练集,测试集和验证集,其中训练集占比70%,测试集占比20%,验证集占比10%,保证三个子数据集之间没有重复项。7.如权利要求1所述的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,其特征在于,所述步骤(3)中将训练集和验证集输入rf模型进行预训练,结合pso群体优化算法对rf模型进行参数优化,得到训练优化好的rf模型,保留分类器模型,具体包括:初始化pso算法中的粒子群参数,所述粒子群参数包括粒子群规模、粒子维度、最大迭代次数、惯性权重、学习因子、种群范围和迭代步长范围;随机初始化种群中每个粒子的位置和速度,计算个体历史最优位置和适应值、群体历史最优位置和适应值;其中,pso算法适应度函数fitness为:fitness=1-auc_score式中,auc_scor为机器学习中常用的二分类模型评价指标auc值;开始迭代,迭代过程中更新每个粒子的速度和位置,计算每个粒子的适应值,粒子速度更新公式为:式中,分别表示粒子下一时刻和当前时刻的速度,ω表示惯性权重,c1、c2分别表示个体学习因子和群体学习因子,r1、r2为[0,1)之间的随机数,表示当前时刻个体历史最优位置,表示当前时刻群体历史最优位置;粒子位置更新公式为:式中,分别表示粒子下一时刻和当前时刻的位置;若当前时刻粒子的适应值小于粒子个体历史最优适应值,则更新粒子的个体历史最优适应值和位置;若当前粒子个体历史最优适应值的最小值小于群体历史最优适应值,则更新群体的历史最优适应值和位置;当达到最大迭代次数时,输出当前群体历史最优适应值和位置,即为最优解。8.如权利要求1所述的一种基于fcbf#-pso-rf模型的晶圆良率分类预测方法,其特征在于,所述步骤(4)中将测试集输入预训练优化好的rf模型,输出晶圆良率分类结果,具体包括:将划分的测试集输入训练好的rf模型,使用auc指标评价模型的泛化能力。
技术总结
本发明涉及一种基于FCBF#-PSO-RF模型的晶圆良率分类预测方法,所述方法对WAT数据集中的样本数据进行预处理;采用FCBF#算法对预处理后的数据集进行特征选择;使用RF模型进行预训练,结合PSO群体优化算法对RF模型进行参数优化;将测试集输入预训练优化好的RF模型,输出晶圆良率分类结果。通过该方法,可以提高模型对晶圆良率的分类准确度和泛化能力,同时提高数据集的质量,减少程序运行时间。减少程序运行时间。减少程序运行时间。
技术研发人员:陈一宁 王诗琪 蔡宇 高大为
受保护的技术使用者:浙江大学
技术研发日:2023.07.18
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/