硬盘故障预测方法、系统和计算机可读存储介质与流程

未命名 10-08 阅读:113 评论:0


1.本技术涉及硬盘技术,更具体地说,涉及一种硬盘故障预测方法、系统和计算机可读存储介质。


背景技术:

2.可靠性是e级超级计算系统面临的最大挑战之一,提高可靠性需要准确、及时的故障检测、预测、定位和隔离。故障预测有助于超级计算系统不易出错,并确保应用程序可以长时间不间断地运行。实践表明,与其他类型的故障相比,硬盘故障往往导致更大的损失。硬盘故障不仅会导致服务中断并使先前的计算无效,而且还会导致永久性数据丢失。因此,在硬盘发生故障之前启动纠正措施以确保系统的持续运行至关重要。
3.有两种类型的数据通常用于预测硬盘故障:系统或硬盘驱动器日志文件和硬盘驱动器的自我监测、分析及报告技术(s.m.a.r.t)数据。前者涉及使用基于规则或基于统计的方法从数据中提取关键特征,后者涉及使用机器学习技术来拟合历史数据。基于s.m.a.r.t数据的硬盘故障预测方法受到了更多关注。然而,目前这些方法主要应用于服务器级别,无法轻松适应超级计算系统。这是因为大规模、紧耦合系统中硬盘驱动器故障的原因尚不清楚。此外,大多数硬盘驱动器故障不会在受监控的s.m.a.r.t数据中表现出任何故障迹象。因此,基于细粒度监控数据的方法被认为是解决这些问题更有前途的方法。细粒度监控数据是指结合系统级和硬件级指标的高维数据,旨在构建更准确的故障表征空间(参见lu s,luo b,patel t,et al.making disk failure predictionssmarter!usenix conference on file and storage technologies(fast 20),santa clara,ca,usa,2020:151-167)。
4.正样本和负样本之间的不一致对硬盘驱动器的故障预测提出了重大挑战。解决该问题的一种方法是使用故障注入,这涉及通过模拟故障状态来增加故障数据。然而,这种方法的泛化能力有限。另一种方法则是数据重采样,常用的重采样方法包括随机过采样和欠采样、合成少数类过采样技术(syntheticminority oversampling technique,smote)等,但这些方法通常假设健康样本的分布是一致的。迄今为止,类似smote的方法被认为是不平衡学习中最有影响力的过采样算法之一。smote变体方法是否有效取决于它是否克服了过采样后的多类重叠、新生成数据的多样性或少数类的类内不平衡。
5.对少数类进行过采样可以解决数据集不平衡的问题,过采样技术主要依赖于随机过采样来增加实例数。然而,简单的复制样本只会增加样本的数量,并不会提高样本的质量,数据仍然不平衡,分类器只能重复学习相同的特征,这导致分类性能的提高有限。smote是一种高级抽样方法,通过创建相邻实例的凸组合来生成少数类的合成样本。smote算法的合成策略是对每个少数类样本x,从它的k个最近邻中随机选择m个样本y,然后针对每一个随机选出的最邻近y,分别按照如下公式在x、y之间的连线上随机选一点作为新合成的少数类样本x
new

6.x
new
=x+rang(0,1)*|x-y|
7.smote算法目前面临两个挑战:1)k值的确定,k的下限由m值确定,即m《k。m的值可
以根据负样本的数量、正样本的数量和数据集的最终平衡率来确定。但是,没有确定k上限的方法,必须在特定数据集上反复测试。2)当少数类实例位于其分布的边缘,如果使用其最近邻生成新样本时,这些新样本也将位于分布的边缘,进一步模糊了少数类和多数类之间的界限。虽然这可以改善数据集的平衡,但可能生成噪声数据。
8.cnn(卷积神经网络,convolutional neural networks)可以从输入数据中提取空间特征,而lstm(长短期记忆网络,long short-term memory)可以捕捉不同时间之间的依赖关系。将cnn和lstm结合成统一的模型,即cnn+lstm,是一个在空间和时间维度上分析序列数据的强大工具,可以用于硬盘故障的预测。如图1所示,cnn+lstm模型的一般构建过程如下:首先,将输入数据输入cnn,cnn由多个卷积层和池化层组成,在卷积层中,卷积核在输入数据上滑动并提取局部特征,池化层用于在保留重要信息的同时降低数据的维数;然后,将cnn的输出输入lstm;最后,使用全连接层对lstm的输出进行分类。但随着网络层数的增加,cnn也面临着一些挑战,如梯度消失、过拟合和信息丢失等,会影响硬盘故障预测的准确性。


技术实现要素:

9.本技术要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能改善数据集的不平衡并能提高对不平衡故障数据的故障识别性能的硬盘故障预测方法、系统和计算机可读存储介质。
10.本技术为解决其技术问题在第一方面提出一种硬盘故障预测方法,所述方法包括如下步骤:s1、将收集的细粒度监控数据分为训练集和测试集;s2、使用基于支持向量机svm的smote算法对训练集中的故障数据样本进行过采样以合成新的故障数据样本,合并原始训练集得到数据增强的训练集;s3、通过所述数据增强的训练集训练具有非线性跳跃连接的cnn+lstm模型,再使用训练好的所述具有非线性跳跃连接的cnn+lstm模型对测试集进行故障预测;其中,所述具有非线性跳跃连接的cnn+lstm模型将多个卷积层的输出进行线性特征融合,再利用非线性激活函数对融合后的特征进行非线性映射,作为池化层的输入。
11.根据本技术第一方面所述的硬盘故障预测方法的一个实施例中,所述步骤s2中使用基于支持向量机svm的smote算法对训练集中的故障数据样本进行过采样以合成新的故障数据样本进一步包括:s21、使用所述训练集训练svm分类器,从而获得支持向量集;s22、使用训练好的svm分类器对所述支持向量集进行分类,丢弃分类不正确的支持向量;s23、根据步骤s22中得到的新的支持向量集执行svm-smote操作,合成新的故障数据样本。
12.根据本技术第一方面所述的硬盘故障预测方法的一个实施例中,所述步骤s23进一步包括:s231、从少数类的支持向量集中随机选择一个支持向量样本;s232、找到所述支持向量样本的k个最近邻;s233、在所述支持向量样本和其最近邻之间的连线上随机选择一个点作为合成样本,若所述k个最近邻中少于一半是多数类的样本,则所述合成样本为合成的少数类样本,否则为合成的多数类样本;s234、重复步骤s231-s233,直到生成足够数量的合成少数类样本。
13.根据本技术第一方面所述的硬盘故障预测方法的一个实施例中,所述具有非线性跳跃连接的cnn+lstm模型采用的非线性激活函数为relu函数。
14.本技术为解决其技术问题在第二方面提出一种硬盘故障预测系统,包括:数据划
分模块,用于将收集的细粒度监控数据分为训练集和测试集;数据增强模块,用于使用基于支持向量机svm的smote算法对训练集中的故障数据样本进行过采样以合成新的故障数据样本,合并原始训练集得到数据增强的训练集;训练和预测模块,用于通过所述数据增强的训练集训练具有非线性跳跃连接的cnn+lstm模型,再使用训练好的所述具有非线性跳跃连接的cnn+lstm模型对测试集进行故障预测;其中,所述具有非线性跳跃连接的cnn+lstm模型将多个卷积层的输出进行线性特征融合,再利用非线性激活函数对融合后的特征进行非线性映射,作为池化层的输入。
15.根据本技术第二方面所述的硬盘故障预测系统的一个实施例中,所述数据增强模块进一步包括:训练单元,用于使用所述训练集训练svm分类器,从而获得支持向量集;分类单元,用于使用训练好的svm分类器对所述支持向量集进行分类,丢弃分类不正确的支持向量;过采样单元,用于根据所述分类单元得到的新的支持向量集执行svm-smote操作,合成新的故障数据样本。
16.根据本技术第二方面所述的硬盘故障预测系统的一个实施例中,所述过采样单元执行svm-smote操作进一步包括:从少数类的支持向量集中随机选择一个支持向量样本;找到所述支持向量样本的k个最近邻;在所述支持向量样本和其最近邻之间的连线上随机选择一个点作为合成样本,若所述k个最近邻中少于一半是多数类的样本,则所述合成样本为合成的少数类样本,否则为合成的多数类样本;重复上述步骤,直到生成足够数量的合成少数类样本。
17.根据本技术第二方面所述的硬盘故障预测系统的一个实施例中,所述具有非线性跳跃连接的cnn+lstm模型采用的非线性激活函数为relu函数。
18.本技术为解决其技术问题在第三方面提出一种硬盘故障预测系统,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的硬盘故障预测方法的步骤。
19.本技术为解决其技术问题在第四方面提出一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现前所述的硬盘故障预测方法的步骤。
20.实施本技术的硬盘故障预测方法、系统和计算机可读存储介质,具有以下有益效果:根据本技术实施例的硬盘故障预测方法在数据层面采用改进的svm-smote过采样算法来进行数据增强,通过对支持向量过采样,可以有效缓解其类内和类间的不平衡问题,同时一定程度上缓解增强后数据的特征空间重叠;在模型层面采用改进的cnn+lstm模型,设计了新的跳跃连接模式,使cnn+lstm模型能够学习到更具代表性的特征,使用该改进的cnn+lstm模型可以有效提高硬盘故障预测的准确性。
附图说明
21.下面将结合附图及实施例对本技术作进一步说明,附图中:
22.图1是现有技术中cnn+lstm模型的一般构建过程的示意图;
23.图2是本技术一个实施例的硬盘故障预测方法的流程图;
24.图3是根据本技术一个实施例的具有非线性跳跃连接的cnn+lstm模型的示意图;
25.图4是本技术一个实施例的硬盘故障预测系统的逻辑结构图;
26.图5是本技术一个实施例中的数据增强模块的逻辑结构图;
27.图6是本技术另一实施例的硬盘故障预测系统的逻辑结构图。
具体实施方式
28.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。并且,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
29.本技术提出一种硬盘故障预测方法,采用改进的svm-smote过采样算法来进行数据增强,采用改进的cnn+lstm模型来提高硬盘故障预测的准确性。图2示出了根据本技术一个实施例的硬盘故障预测方法100的流程图。如图2所示,该硬盘故障预测方法100包括如下步骤:
30.步骤s110中,将收集的细粒度监控数据分为训练集和测试集。细粒度监控数据为现有技术中已被采用的硬盘的多维度指标组成的数据,该数据具有更准确的故障表征空间,从而能够提高硬盘故障预测的准确性。训练集和测试集可以基于一定的比例来划分,一般来说训练集和测试集的比例是6:4或者7:3。
31.然后步骤s120中,使用基于支持向量机svm的smote算法对训练集中的故障数据样本进行过采样以合成新的故障数据样本,合并原始训练集得到数据增强的训练集。
32.传统smote是一种基于k近邻原则的随机线性插值算法,虽然该算法能在一定程度上避免分类器的过拟合问题,但是其未考虑邻近样本点的分布。svm-smote是基于支持向量机(svm)合成少数类过采样,其实质是基于支持向量的过采样,在支持向量近似的分类边界附近,根据决策机制生成少数类样本,将少数群体扩大到多数类样本密度不高的地区,从而提高分类的准确性。本技术的硬盘故障预测方法100提出一种改进的svm-smote算法来进行数据增强,因而上述步骤s120的具体操作流程如下:
33.步骤s121中,使用前述步骤s110得到的训练集训练svm分类器,从而获得支持向量集。
34.然后步骤s122中,使用训练好的svm分类器对所述支持向量集进行分类,丢弃分类不正确的支持向量。为了消除随机性,本技术优选多次进行svm训练和分类,只保留每次都分类正确的支持向量。
35.然后步骤s123中,根据步骤s122中得到的新的支持向量集执行svm-smote操作,合成新的故障数据样本。
36.进一步地具体实施例中,上述步骤s123中的svm-smote操作的流程如下:
37.首先步骤s1231中,从少数类的支持向量集(即步骤s122中得到的新的支持向量集)中随机选择一个支持向量样本。
38.然后步骤s1232中,找到所述支持向量样本的k个最近邻,该k个最近邻可以是任何类别的样本。
39.然后步骤s1233中,在所述支持向量样本和其每个最近邻之间的连线上随机选择一个点作为合成样本,若所述k个最近邻中少于一半是多数类的样本,则所述合成样本为合成的少数类样本(即合成的故障样本),否则为合成的多数类样本。
40.然后步骤s1234中,重复上述步骤s1231-s1233,直到生成足够数量的合成少数类
样本,使少数类样本和多数类样本数量平衡(或者一样)。然后将合成的少数类样本与原始训练集合并,得到数据增强的训练集。
41.接着步骤s130中,通过所述数据增强的训练集训练具有非线性跳跃连接的cnn+lstm模型,再使用训练好的所述具有非线性跳跃连接的cnn+lstm模型对测试集进行故障预测。
42.本技术提出一种改进的cnn+lstm模型,设计了非线性跳跃连接模式,将多个卷积层的输出进行线性特征融合,再利用非线性激活函数对融合后的特征进行非线性映射,作为池化层的输入。图3示出了根据本技术一个实施例的具有非线性跳跃连接的cnn+lstm模型的示意图。如图3所示,该cnn+lstm模型在两个卷积层和池化层之间增加了特征融合层和激活函数层,将前面两个卷积层的输出均输入特征融合层进行线性特征融合,得到不同尺度下的输出信息,然后利用激活函数层的非线性激活函数对融合后的特征进行非线性映射,使融合后的输出能够表示更加抽象和复杂的特征。图3中的y1表示第一个卷积层的输出特征,y2表示第二个卷积层的输出特征,将它们的非线性组合作为池化层的输入,即输入为:
43.y
output
=h(w1y1+2y2+b)
44.其中,h(
·
)表示某一非线性函数,可以是常见的激活函数,例如relu;w1和w2分别是y1和y2的特征权重,它们可以随模型的学习而更新;为了降低训练的参数量,w1和w2可以是标量;参数b是偏置向量。
45.图3所示的cnn+lstm模型中的其它各层乃为现有技术,本技术中便不再详述。该改进的cnn+lstm通过上述非线性跳跃连接设计能够学习到更具代表性的特征,可以有效提高硬盘故障预测的准确性。
46.基于本技术上述实施例的硬盘故障预测方法100,本技术还提出一种硬盘故障预测系统。图4示出了根据本技术一个实施例的硬盘故障预测系统200的逻辑结构示意图。如图4所示,该硬盘故障预测系统200包括数据划分模块210、数据增强模块220以及训练和预测模块230。数据划分模块210用于将收集的细粒度监控数据分为训练集和测试集。数据增强模块220用于使用基于支持向量机svm的smote算法对训练集中的故障数据样本进行过采样以合成新的故障数据样本,合并原始训练集得到数据增强的训练集。训练和预测模块230用于通过所述数据增强的训练集训练具有非线性跳跃连接的cnn+lstm模型,再使用训练好的所述具有非线性跳跃连接的cnn+lstm模型对测试集进行故障预测。所述具有非线性跳跃连接的cnn+lstm模型在多个卷积层和池化层之间增加特征融合层和激活函数层,并设计了非线性跳跃连接模式,将多个卷积层的输出进行线性特征融合,再利用非线性激活函数对融合后的特征进行非线性映射,作为池化层的输入,从而能够学习到更具代表性的特征,有效提高硬盘故障预测的准确性。
47.根据本技术的具体实施例中,如图5所示,数据增强模块220进一步包括训练单元221、分类单元222和过采样单元223。训练单元221用于使用训练集训练svm分类器,从而获得支持向量集。分类单元222用于使用训练好的svm分类器对所述支持向量集进行分类,丢弃分类不正确的支持向量。过采样单元223用于根据所述分类单元得到的新的支持向量集执行svm-smote操作,合成新的故障数据样本。过采样单元223执行svm-smote的具体操作包括:从少数类的支持向量集中随机选择一个支持向量样本;找到所述支持向量样本的k个最
近邻;在所述支持向量样本和其最近邻之间的连线上随机选择一个点作为合成样本,若所述k个最近邻中少于一半是多数类的样本,则所述合成样本为合成的少数类样本,否则为合成的多数类样本;重复上述步骤,直到生成足够数量的合成少数类样本。数据增强模块220采用改进的svm-smote过采样算法来进行数据增强,通过对支持向量过采样,可以有效缓解其类内和类间的不平衡问题,同时一定程度上缓解增强后数据的特征空间重叠。
48.有关硬盘故障预测系统200的各个模块的进一步具体实现,可参见前述对硬盘故障预测方法100的各个步骤的详细描述。
49.图6示出了根据本技术另一示实施例的硬盘故障预测系统300的逻辑结构图。参见图6所示,硬盘故障预测系统300包括处理器310和存储器320,处理器310和存储器320通信连接。存储器320存储有计算机程序,所述计算机程序被处理器310执行时使处理器310实现本技术前述实施例的硬盘故障预测方法100的步骤。
50.本技术还提出一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现本技术前述实施例的硬盘故障预测方法100的步骤。
51.以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种硬盘故障预测方法,其特征在于,所述方法包括如下步骤:s1、将收集的细粒度监控数据分为训练集和测试集;s2、使用基于支持向量机svm的smote算法对训练集中的故障数据样本进行过采样以合成新的故障数据样本,合并原始训练集得到数据增强的训练集;s3、通过所述数据增强的训练集训练具有非线性跳跃连接的cnn+lstm模型,再使用训练好的所述具有非线性跳跃连接的cnn+lstm模型对测试集进行故障预测;其中,所述具有非线性跳跃连接的cnn+lstm模型将多个卷积层的输出进行线性特征融合,再利用非线性激活函数对融合后的特征进行非线性映射,作为池化层的输入。2.根据权利要求1所述的硬盘故障预测方法,其特征在于,所述步骤s2中使用基于支持向量机svm的smote算法对训练集中的故障数据样本进行过采样以合成新的故障数据样本进一步包括:s21、使用所述训练集训练svm分类器,从而获得支持向量集;s22、使用训练好的svm分类器对所述支持向量集进行分类,丢弃分类不正确的支持向量;s23、根据步骤s22中得到的新的支持向量集执行svm-smote操作,合成新的故障数据样本。3.根据权利要求2所述的硬盘故障预测方法,其特征在于,所述步骤s23进一步包括:s231、从少数类的支持向量集中随机选择一个支持向量样本;s232、找到所述支持向量样本的k个最近邻;s233、在所述支持向量样本和其最近邻之间的连线上随机选择一个点作为合成样本,若所述k个最近邻中少于一半是多数类的样本,则所述合成样本为合成的少数类样本,否则为合成的多数类样本;s234、重复步骤s231-s233,直到生成足够数量的合成少数类样本。4.根据权利要求1所述的硬盘故障预测方法,其特征在于,所述具有非线性跳跃连接的cnn+lstm模型采用的非线性激活函数为relu函数。5.一种硬盘故障预测系统,其特征在于,包括:数据划分模块,用于将收集的细粒度监控数据分为训练集和测试集;数据增强模块,用于使用基于支持向量机svm的smote算法对训练集中的故障数据样本进行过采样以合成新的故障数据样本,合并原始训练集得到数据增强的训练集;训练和预测模块,用于通过所述数据增强的训练集训练具有非线性跳跃连接的cnn+lstm模型,再使用训练好的所述具有非线性跳跃连接的cnn+lstm模型对测试集进行故障预测;其中,所述具有非线性跳跃连接的cnn+lstm模型将多个卷积层的输出进行线性特征融合,再利用非线性激活函数对融合后的特征进行非线性映射,作为池化层的输入。6.根据权利要求5所述的硬盘故障预测系统,其特征在于,所述数据增强模块进一步包括:训练单元,用于使用所述训练集训练svm分类器,从而获得支持向量集;分类单元,用于使用训练好的svm分类器对所述支持向量集进行分类,丢弃分类不正确的支持向量;
过采样单元,用于根据所述分类单元得到的新的支持向量集执行svm-smote操作,合成新的故障数据样本。7.根据权利要求6所述的硬盘故障预测系统,其特征在于,所述过采样单元执行svm-smote操作进一步包括:从少数类的支持向量集中随机选择一个支持向量样本;找到所述支持向量样本的k个最近邻;在所述支持向量样本和其最近邻之间的连线上随机选择一个点作为合成样本,若所述k个最近邻中少于一半是多数类的样本,则所述合成样本为合成的少数类样本,否则为合成的多数类样本;重复上述步骤,直到生成足够数量的合成少数类样本。8.根据权利要求5所述的硬盘故障预测系统,其特征在于,所述具有非线性跳跃连接的cnn+lstm模型采用的非线性激活函数为relu函数。9.一种硬盘故障预测系统,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的硬盘故障预测方法的步骤。10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的硬盘故障预测方法的步骤。

技术总结
本申请涉及一种硬盘故障预测方法、系统和计算机可读存储介质。所述硬盘故障预测方法包括:S1、将收集的细粒度监控数据分为训练集和测试集;S2、使用基于支持向量机SVM的SMOTE算法对训练集中的故障数据样本进行过采样以合成新的故障数据样本,合并原始训练集得到数据增强的训练集;S3、通过数据增强的训练集训练具有非线性跳跃连接的CNN+LSTM模型,再使用训练好的具有非线性跳跃连接的CNN+LSTM模型对测试集进行故障预测;其中,所述具有非线性跳跃连接的CNN+LSTM模型将多个卷积层的输出进行线性特征融合,再利用非线性激活函数对融合后的特征进行非线性映射,作为池化层的输入。本申请能有效缓解类内和类间不平衡问题并提高硬盘故障预测的准确性。高硬盘故障预测的准确性。高硬盘故障预测的准确性。


技术研发人员:何露雪 黄颖坤 黄典 冯圣中
受保护的技术使用者:国家超级计算深圳中心(深圳云计算中心)
技术研发日:2023.07.03
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐