一种磁盘使用健康状态监控管理方法与流程
未命名
08-02
阅读:115
评论:0

1.本发明涉及数据处理技术领域,具体涉及一种磁盘使用健康状态监控管理方法。
背景技术:
2.通过记录磁盘运行时的各项指标,例如磁盘温度、磁头垂直位移、寻道时间等等,可以得到一个关于磁盘当前状态的全面而准确的评估,进而实现对磁盘使用健康状态的监测。同时,通过长期记录各项指标,可以建立一个磁盘状态的历史指标数据库,通过比对历史指标数据和当前指标数据,可以给磁盘提供状态评估、预警报警和优化建议;因此,磁盘的历史指标数据对于磁盘使用健康状态的监测和管理至关重要。
3.随着磁盘使用时间的增加,磁盘的历史指标数据的数据量越来越大,为了在根据磁盘的历史指标数据对磁盘使用健康状态进行监测和管理的同时,尽可能地不影响磁盘的使用,需要使存储在磁盘中的历史指标数据的数据量尽可能小,这就需要对磁盘的历史指标数据进行压缩,较少磁盘的历史指标数据占用的存储空间小,进而降低存储磁盘的历史指标数据对使用磁盘的影响。
4.霍夫曼编码是常用的数据压缩方法,利用霍夫曼编码对数据进行压缩具有局限性,即如果所有种数据的概率分布不服从是2负n次方的形式,则数据压缩的结果无法达到熵极限,即数据的压缩效果没有达到最好;同时,当数据的概率分布服从2负n次方的形式时,数据压缩的结果达到熵极限,也就意味着达到熵极限是通过霍夫曼编码对数据进行压缩时的极限,无法再提高;综上,通过霍夫曼编码对数据进行压缩的压缩效果存在极限。
5.因此,如果使所有种数据的概率分布尽可能服从是2负n次方的形式,使数据压缩的结果达到熵极限,在此基础上,对霍夫曼编码进行改进使数据压缩结果突破熵极限,是提高数据压缩效果,减少磁盘的历史指标数据占用的存储空间,进而降低存储磁盘的历史指标数据对使用磁盘的影响的关键。
技术实现要素:
6.本发明提供一种磁盘使用健康状态监控管理方法,以解决现有的问题。
7.本发明的一种磁盘使用健康状态监控管理方法采用如下技术方案:本发明一个实施例提供了一种磁盘使用健康状态监控管理方法,该方法包括以下步骤:将预设时间段内的磁盘数据按照顺序组成的序列记为磁盘历史数据序列,将磁盘历史数据序列转换为二值数据序列;构建每个分组长度对应的理想频率序列,根据每个分组长度对二值数据序列进行划分获得每个分组长度对应的所有分组,根据每个分组长度对应的所有种分组的实际频率序列和理想频率序列计算每个分组长度的适用程度;将适用程度最大的分组长度记为适用长度,根据适用长度获得数据序列和所有适用分组组成的适用分组序列,根据适用分组序列获得霍夫曼编码总表;
将除实际频率最大的适用分组外的任意一种适用分组记为目标适用分组,对目标适用分组对应的分组序列进行处理,获得目标适用分组的霍夫曼编码分表,包括:k1,根据目标适用分组对应的分组序列构建范式霍夫曼树,根据范式霍夫曼树获得目标适用分组对应的目标霍夫曼编码表;k2,根据霍夫曼编码总表和目标适用分组对应的目标霍夫曼编码表,计算每种适用分组的优先排除度,将优先排除度大于等于0且优先排除度最大的适用分组从目标适用分组对应的分组序列中去除;k3,重复k1到k2,直至目标适用分组对应的分组序列中所有适用分组的优先排除度均小于0,将根据目标适用分组对应的分组序列构建的目标霍夫曼编码表作为目标适用分组对应的霍夫曼编码分表;对所有适用分组对应的分组序列进行处理,获得所有适用分组的霍夫曼编码分表;根据霍夫曼编码总表和所有适用分组的霍夫曼编码分表,对磁盘指标序列进行压缩,获得磁盘指标序列的压缩结果。
8.进一步地,所述构建每个分组长度对应的理想频率序列,包括的具体步骤如下:将分组长度取值范围内的任意一个整数作为分组长度f,获得长度等于的长度的理想概率序列,记为分组长度f对应的理想概率序列,理想概率序列中的最后一个理想概率为,除最后一个理想概率以外,理想概率序列中第i个理想概率为。
9.进一步地,所述根据每个分组长度对二值数据序列进行划分获得每个分组长度对应的所有分组,根据每个分组长度对应的所有种分组的实际频率序列和理想频率序列计算每个分组长度的适用程度,包括的具体步骤如下:将分组长度取值范围内的任意一个整数作为分组长度f,根据分组长度将二值数据序列划分为若干个子序列,将相同的若干个子序列划分为一种分组,获得所有种分组的实际频率,将所有种分组的实际频率按照从大到小的顺序排列组成的序列记为分组长度对应的实际频率序列;分组长度f的适用程度的计算公式为:式中,表示分组长度f的适用程度,n表示所有分组的数量,表示实际频率序列中的第i个实际概率,表示理想频率序列中的第i个理想概率,表示累加长度。
10.进一步地,所述根据适用长度获得数据序列和所有适用分组组成的适用分组序列,包括的具体步骤如下:根据适用长度将二值数据序列划分为若干个子序列,将每个子序列记为数据,将所有数据按照顺序组成的序列记为数据序列,将适用长度对应的所有种分组,记为适用分组;将所有适用分组按照实际频率从大到小的顺序排序组成的序列记为适用分组序列。
11.进一步地,所述根据适用分组序列获得霍夫曼编码总表,包括的具体步骤如下:构建n层的二叉树,要求二叉树中所有层的左节点以及最后一层的右节点均为叶
子节点,二叉树中的其他节点均为父节点,其中,n为适用分组序列中的所有种适用分组的数量;将所有层的左节点以及最后一层的右节点记为目标节点,按照从上到下的顺序,将适用分组序列中的每个分组依次分配给每个目标节点,按照左0右1方式给二叉树分配编码,将获得的二叉树记为范式霍夫曼树,进而获得霍夫曼编码表,记为霍夫曼编码总表。
12.进一步地,所述目标适用分组对应的分组序列具体为:获得数据序列中属于目标适用分组的所有数据,记为目标数据,将每个目标数据在数据序列中的后一个数据记为目标后近邻数据,获得所有目标后近邻数据,统计所有目标后近邻数据中每种适用分组的频率,记为目标适用分组对应的每种适用分组的目标频率,将所有适用分组按照目标频率从大到小的顺序排序组成的序列记为目标适用分组对应的分组序列。
13.进一步地,所述根据目标适用分组对应的分组序列构建范式霍夫曼树,包括的具体步骤如下:构建t+1层的二叉树,要求二叉树中所有层的左节点以及最后一层的右节点均为叶子节点,二叉树中的其他节点均为父节点,其中,t为目标适用分组对应的分组序列的长度;将除前两层外所有层的左节点以及最后一层的右节点(共t个节点)记为目标节点,按照从上到下的顺序,将目标适用分组对应的分组序列中的每个适用分组依次分配给每个目标节点,按照左0右1方式给二叉树分配编码,将获得的二叉树记为范式霍夫曼树。
14.进一步地,所述计算每种适用分组的优先排除度,包括的具体步骤如下:将每种适用分组在霍夫曼编码总表中对应的编码的长度记为每种适用分组的第一长度,将每种适用分组在目标适用分组对应的目标霍夫曼编码表中对应的编码的长度记为每种适用分组的第二长度,将每种适用分组的第二长度加1后与每种适用分组的第一长度的差值记为每种适用分组的增加程度,将每种适用分组的增加程度与每种适用分组的目标频率的乘积记为。
15.进一步地,所述对磁盘指标序列进行压缩,获得磁盘指标序列的压缩结果,包括的具体步骤如下:将采集的磁盘运行时刻的所有指标数据组成的序列记为磁盘指标序列,通过gb2312编码方式对磁盘指标序列进行编码,获得磁盘二值序列,根据适用长度对磁盘二值序列进行划分获得磁盘数据序列,按照顺序对磁盘数据序列中的所有数据进行压缩,获得磁盘指标序列的压缩结果,包括:将任意一个数据记为当前数据,将磁盘数据序列中当前数据的前一个数据记为前近邻数据,判断当前数据是否能够用前近邻数据对应的霍夫曼编码分表进行压缩,如果能够进行压缩,则根据前近邻数据对应的霍夫曼编码分表对当前数据进行压缩,且在获得的编码结果前加一个标识符,如果不能够进行压缩,则根据霍夫曼编码总表对当前数据进行压缩。
16.本发明的技术方案的有益效果是:达到熵极限是通过现有的霍夫曼编码对磁盘指标序列进行压缩时的极限,导致通过现有霍夫曼编码对磁盘指标序列进行压缩的压缩效率有限,本发明通过将磁盘历史数据序列转换为二值数据序列,通过每个分组长度对应的所有种分组的频率和理想频率的差异构建每个分组长度的适用程度,获得使数据压缩的结果尽可能达到熵极限的适用长度,根据所有分组的实际频率构建范式霍夫曼总树,在此基础上,通过目标分组对应的目标数据的目标后邻接数据获得目标分组对应的每种分组的目标
频率,根据目标分组对应的目标频率序列构建范式霍夫曼分树,判断每种分组在范式霍夫曼总树和范式霍夫曼分树中编码结果的长度,保留在范式霍夫曼分树中编码结果的长度小于在范式霍夫曼总树中编码结果的长度的分组,进而根据范式霍夫曼分树对保留的分组对应的数据进行编码,使磁盘指标序列的压缩结果尽可能达到熵极限的基础上,进一步通过对霍夫曼编码进行改进使磁盘指标序列的压缩结果突破熵极限,减少磁盘指标序列的压缩结果的数据量,提高磁盘指标序列的压缩效果,减少磁盘的历史指标数据占用的存储空间,进而降低存储磁盘的历史指标数据对使用磁盘的影响。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1为本发明的一种磁盘使用健康状态监控管理方法的步骤流程图;图2为根据适用分组序列构建的范式霍夫曼树;图3为霍夫曼编码总表;图4为根据适用分组111对应的分组序列构建的范式霍夫曼树;图5为适用分组111对应的霍夫曼编码分表;图6为根据适用分组100对应的分组序列构建的范式霍夫曼树;图7为适用分组100对应的霍夫曼编码分表。
具体实施方式
19.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种磁盘使用健康状态监控管理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
20.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
21.下面结合附图具体的说明本发明所提供的一种磁盘使用健康状态监控管理方法的具体方案。
22.请参阅图1,其示出了本发明一个实施例提供的一种磁盘使用健康状态监控管理方法的步骤流程图,该方法包括以下步骤:s001.获得磁盘历史数据序列,将磁盘历史数据序列转换为二值数据序列。
23.需要说明的是,通过记录磁盘运行时的各项指标,例如磁盘温度、磁头垂直位移、寻道时间等等,可以得到一个关于磁盘当前状态的全面而准确的评估,进而实现对磁盘使用健康状态的监测。同时,通过长期记录各项指标,可以建立一个磁盘状态的历史指标数据库,通过比对历史指标数据和当前指标数据,可以给磁盘提供状态评估、预警报警和优化建议,包括:通过比对历史数据和当前数据,可以发现磁盘是否存在异常状态,当预警条件和
报警条件的达到时可以第一时间提醒管理员进行处理和维护,为磁盘提供预警和报警;通过历史数据的分析,可以得到磁盘的整体利用率、寿命等情况并进行更加准确的健康状态评估;通过分析历史数据,可以获得对磁盘运行的更深入的理解,进而提出工作量或存储优化、磁盘数量扩充或培训方案等建议。因此,磁盘的历史指标数据对于磁盘使用健康状态的监测和管理至关重要,需要建立一个磁盘的历史指标数据库。
24.进一步需要说明的是,随着磁盘使用时间的增加,磁盘的历史指标数据的数据量越来越大,为了在根据磁盘的历史指标数据对磁盘使用健康状态进行监测和管理的同时,尽可能地不影响磁盘的使用,需要使存储在磁盘中的历史指标数据的数据量尽可能小,这就需要对磁盘的历史指标数据进行压缩,较少磁盘的历史指标数据占用的存储空间,进而降低使用磁盘的影响。本实施例通过对霍夫曼编码进行改进,提高霍夫曼编码的压缩效率,减少通过霍夫曼编码对数据进行压缩后的数据量,以此使得缓存器中能够暂存更多的数据。磁盘数据包括磁盘位置数据和磁盘运行时刻的指标数据,数据类型较多,为了能够通过霍夫曼编码对磁盘数据进行编码压缩,需要统一数据格式,因此,需要对磁盘数据进行转换。
25.在本实施例中,磁盘数据包括磁盘位置数据和磁盘运行时刻的指标数据,其中,磁盘位置数据包括服务器所在的机房信息和机柜信息、服务器的产品序列号信息和磁盘槽位信息,指标数据包括磁盘温度、磁头垂直位移、寻道时间等。
26.将预设时间段内的磁盘数据按照顺序组成的序列记为磁盘历史数据序列。在本实施例中,预设时间段为一周,在其他实施例中,实施人员可根据实际实施情况和经验设置预设时间段。
27.考虑到磁盘历史数据序列包含汉字、英文字母、阿拉伯数字以及各种符号,为了统一数据格式,本实施例通过编码方式对磁盘历史数据序列进行编码,将所有数据的编码结果按照顺序组成的序列,记为二值数据序列。
28.常见编码方式包括:ansi编码方式、ascii编码方式、utf8编码方式、unicode编码方式、gb2312编码方式、ucs-2编码方式和utf16编码方式等,本实施例中使用的编码方式为gb2312编码方式。
29.s002.根据分组长度对二值数据序列进行划分,计算分组长度取值范围中每个分组长度的适用程度,获得适用程度最大的适用长度,根据适用长度获得霍夫曼编码总表。
30.需要说明的是,利用霍夫曼编码对数据进行压缩具有局限性,即如果所有种数据的概率分布不服从是2负n次方的形式,则数据压缩的结果无法达到熵极限,即数据的压缩效果没有达到最好,因此,本实施例通过每个分组长度对应的所有种分组的频率和理想频率的差异构建每个分组长度的适用程度,获得使数据压缩的结果尽可能达到熵极限的适用长度,根据所有分组的实际频率构建范式霍夫曼总树,提高霍夫曼编码的压缩效率,减少通过霍夫曼编码对数据进行压缩后的数据量,以此使得缓存器中能够暂存更多的数据。
31.1.根据分组长度对二值数据序列进行划分,计算分组长度取值范围中每个分组长度的适用程度。
32.在本实施例中,将分组长度取值范围内的任意一个整数作为分组长度f,根据分组长度将二值数据序列划分为若干个子序列,将相同的若干个子序列划分为一种分组,获得所有种分组的频率,记为每种分组的实际频率;将所有种分组的实际频率按照从大
到小的顺序排列组成的序列记为分组长度f对应的实际频率序列,将所有种分组按照实际频率从大到小的顺序排列组成的序列记为分组长度f对应的分组顺序序列,实际频率序列中第i个实际频率是分组顺序序列中的i个分组的实际频率。
33.在本实施例中,=3,=10,在其他实施例中,实施人员可根据实际实施情况和经验设置和。
34.要求获得的所有种分组的概率分布尽可能服从2负n次方的形式,根据概率分布尽可能服从2负n次方的形式的所有种分组构建的范式霍夫曼树,根据该范式霍夫曼树对数据进行压缩的压缩结果尽可能达到熵极限,能够达到最好的压缩效果;因此,获得长度等于的理想概率序列,记为分组长度f对应的理想概率序列,理想概率序列中的最后一个理想概率为,除最后一个理想概率以外,理想概率序列中第i个理想概率为,其中,n表示分组顺序序列的长度,也是分组长度f对应的分组的数量,f表示分组长度。
35.根据分组长度f对应的实际频率序列和理想概率序列,计算分组长度f的适用程度,具体为:式中,表示分组长度f的适用程度,n表示所有分组的数量,表示实际频率序列中的第i个实际概率,表示理想频率序列中的第i个理想概率,表示累加长度。
36.对于霍夫曼编码,分组的实际概率越大,则该分组的编码结果的数据量越小,例如,第种分组的编码结果的数据量为,则比第种分组的实际频率大的分组即分组顺序序列中的前种分组的编码结果的数据量均小于等于,因此,前个分组的实际频率之和越大,则编码结果的数据量小于等于的分组越多,相应的压缩后的数据量越小;理想频率序列中的前个理想概率之和表示达到熵极限时,前个分组的实际频率之和的期望值,越接近,甚至比大时,前个分组的实际频率之和越接近期望值,此时越能够达到熵极限;作为前个分组的实际频率之和与期望值的差异的权值,对于越高频率的前个分组的实际频率之和,越期望该值越接近期望值甚至超过期望值,因此,对应的权值越大。
37.计算分组长度取值范围内的所有分组长度的适用程度。
38.2.获得适用程度最大的适用长度,根据适用长度获得霍夫曼编码总表。
39.在其他实施例中,将适用程度最大的分组长度记为适用长度,根据适用长度将二值数据序列划分为若干个子序列,将每个子序列记为数据,将所有数据按照顺序组成的序列记为数据序列,将适用长度对应的所有种分组,记为适用分组;将所有适用分组按照实际频率从大到小的顺序排序组成的序列记为适用分组序列。
40.构建n层的二叉树,要求二叉树中所有层的左节点以及最后一层的右节点均为叶子节点,二叉树中的其他节点均为父节点,其中,n为适用分组序列中的所有种适用分组的
数量;将所有层的左节点以及最后一层的右节点(共n个节点)记为目标节点,按照从上到下的顺序,将适用分组序列中的每个分组依次分配给每个目标节点,按照左0右1方式给二叉树分配编码,将获得的二叉树记为范式霍夫曼树,进而获得霍夫曼编码表,记为霍夫曼编码总表,霍夫曼编码总表包括所有适用分组的编码结果。
41.在其他实施例中,可以采用左1右0的方式给二叉树分配编码,进而获得霍夫曼编码总表。
42.例如,适用长度为3,则共有8种适用分组,分别为000,001,010,011,100,101,110,111,按照实际频率从大到小的顺序排序组成的适用分组序列为{011,111,100,000,101,011,110,010},根据适用分组序列构建的范式霍夫曼树如图2所示,则获得霍夫曼编码总表如图3所示。
43.s003.根据优先排除度对适用分组对应的分组序列进行处理,进而获得适用分组对应的霍夫曼编码分表。
44.需要说明的是,当数据的概率分布服从2负n次方的形式时,数据压缩的结果达到熵极限,也就意味着达到熵极限是通过霍夫曼编码对数据进行压缩时的极限,无法再提高,导致通过现有霍夫曼编码对磁盘指标序列进行压缩的压缩效率有限。步骤s002使所有种数据的概率分布尽可能服从是2负n次方的形式,使数据压缩的结果达到熵极限,在此基础上,对霍夫曼编码进行改进使数据压缩结果突破熵极限,是提高数据压缩效果,减少磁盘的历史指标数据占用的存储空间,进而降低存储磁盘的历史指标数据对使用磁盘的影响的关键。因此,本实施例通过目标分组对应的目标数据的目标后邻接数据获得目标分组对应的每种分组的目标频率,根据目标分组对应的目标频率序列构建范式霍夫曼分树,判断每种分组在范式霍夫曼总树和范式霍夫曼分树中编码结果的长度,保留在范式霍夫曼分树中编码结果的长度小于在范式霍夫曼总树中编码结果的长度的分组,进而根据范式霍夫曼分树对保留的分组对应的数据进行编码,使磁盘指标序列的压缩结果尽可能达到熵极限的基础上,进一步通过对霍夫曼编码进行改进使磁盘指标序列的压缩结果突破熵极限,减少磁盘指标序列的压缩结果的数据量,提高磁盘指标序列的压缩效果,减少磁盘的历史指标数据占用的存储空间,进而降低存储磁盘的历史指标数据对使用磁盘的影响。
45.在本实施例中,将实际频率最大的适用分组记为默认适用分组,将除默认适用分组外的任意一种适用分组记为目标适用分组,获得数据序列中属于目标适用分组的所有数据,记为目标数据,将每个目标数据在数据序列中的后一个数据记为目标后近邻数据,获得所有目标后近邻数据,统计所有目标后近邻数据中每种适用分组的频率,记为目标适用分组对应的每种适用分组的目标频率,将所有适用分组按照目标频率从大到小的顺序排序组成的序列记为目标适用分组对应的分组序列。
46.对目标适用分组对应的分组序列进行处理,获得目标适用分组对应的霍夫曼编码分表,包括:k1,根据目标适用分组对应的分组序列构建范式霍夫曼树,包括:构建t+1层的二叉树,要求二叉树中所有层的左节点以及最后一层的右节点均为叶子节点,二叉树中的其他节点均为父节点,其中,t为目标适用分组对应的分组序列的长度;将除前两层外所有层的左节点以及最后一层的右节点(共t个节点)记为目标节点,按照从上到下的顺序,将目标适用分组对应的分组序列中的每个适用分组依次分配给每个目标节点,按照左0右1方式给
二叉树分配编码,将获得的二叉树记为范式霍夫曼树,根据范式霍夫曼树获得霍夫曼编码表,记为目标适用分组对应的目标霍夫曼编码表,目标霍夫曼编码表包括目标适用分组对应的分组序列中的所有适用分组的编码结果。
47.在其他实施例中,可以采用左1右0的方式给二叉树分配编码,进而获得目标适用分组对应的目标霍夫曼编码表,需要注意的是,目标适用分组对应的目标霍夫曼编码表对应的二叉树的分配编码方式,需要和霍夫曼编码总表对应的二叉树的分配编码方式相同。
48.k2,将每种适用分组在霍夫曼编码总表中对应的编码的长度记为每种适用分组的第一长度,将每种适用分组在目标适用分组对应的目标霍夫曼编码表中对应的编码的长度记为每种适用分组的第二长度,将每种适用分组的第二长度加1后与每种适用分组的第一长度的差值记为每种适用分组的增加程度,将每种适用分组的增加程度与每种适用分组的目标频率的乘积记为每种适用分组的优先排除度,将优先排除度大于等于0且优先排除度最大的适用分组从目标适用分组对应的分组序列中去除;需要说明的是,后续需要根据霍夫曼编码总表以及所有适用分组对应的目标霍夫曼编码表对数据序列进行压缩,为了使压缩结果具有可解压性,需要对编码结果进行区分,即在目标霍夫曼编码表对应的编码结果前加一个标识符,因此,将每种适用分组的第二长度加1作为将每种适用分组的编码结果的长度。
49.k3,重复k1到k2,直至目标适用分组对应的分组序列中所有适用分组的优先排除度均小于0,将根据目标适用分组对应的分组序列构建的目标霍夫曼编码表作为目标适用分组对应的霍夫曼编码分表。
50.根据上述方法,获得所有适用分组的霍夫曼编码分表。
51.例如,适用分组111对应的分组序列为{001,101,110,010},根据适用分组111对应的分组序列构建的范式霍夫曼树如图4所示,则适用分组111对应的霍夫曼编码分表如图5所示;适用分组100对应的分组序列为{000,110},根据适用分组100对应的分组序列构建的范式霍夫曼树如图6所示,则适用分组100对应的霍夫曼编码分表如图7所示。
52.s004.根据霍夫曼编码总表和所有适用分组的霍夫曼编码分表对磁盘指标序列进行压缩,获得磁盘指标序列的压缩结果。
53.在对磁盘使用健康状态进行监测时,需要采集磁盘运行时刻的指标数据,将所有指标数据组成的序列记为磁盘指标序列,根据霍夫曼编码总表和所有适用分组的霍夫曼编码分表,对磁盘指标序列进行压缩,获得磁盘指标序列的压缩结果,具体为:通过gb2312编码方式对磁盘指标序列进行编码,获得磁盘二值序列,根据适用长度对磁盘二值序列进行划分获得磁盘数据序列,按照顺序对磁盘数据序列中的所有数据进行压缩,获得磁盘指标序列的压缩结果,包括:将任意一个数据记为当前数据,将磁盘数据序列中当前数据的前一个数据记为前近邻数据,判断当前数据是否能够用前近邻数据对应的霍夫曼编码分表进行压缩,如果能够进行压缩,则根据前近邻数据对应的霍夫曼编码分表对当前数据进行压缩,且在获得的编码结果前加一个标识符,如果不能够进行压缩,则根据霍夫曼编码总表对当前数据进行压缩。
54.在本实施例中,由于采用左0右1的方式给二叉树分配编码,进而获得霍夫曼编码总表和所有适用分组的霍夫曼编码分表,因此,标识符为0;在其他实施例中,如果采用左1右0的方式给二叉树分配编码,进而获得霍夫曼编码总表和所有适用分组的霍夫曼编码分
表,此时标识符为1。
55.例如,根据霍夫曼编码总表获得的适用分组001,101,110,010的编码结果的长度分别为6,5,7,7,而根据适用分组111对应的霍夫曼编码分表获得的适用分组001,101,110,010的编码结果的长度分别为2,3,4,5,加上标识符后适用分组001,101,110,010的编码结果的长度分别为3,4,5,6,相较于根据霍夫曼编码总表获得的适用分组001,101,110,010的编码结果的长度更短,降低压缩后的数据量,提高了压缩效率;根据霍夫曼编码总表获得的适用分组000,110的编码结果的长度分别为4,7,而根据适用分组100对应的霍夫曼编码分表获得的适用分组000,1100的编码结果的长度分别为2,3,加上标识符后适用分组000,110的编码结果的长度分别为3,4,相较于根据霍夫曼编码总表获得的适用分组000,110的编码结果的长度更短,降低压缩后的数据量,提高了压缩效率。
56.s005.对磁盘指标序列的压缩结果进行解压,获得磁盘指标序列。
57.按照顺序对磁盘指标序列的压缩结果进行解压,包括:根据霍夫曼编码总表对磁盘指标序列的压缩结果进行第一次解压:如果第一次解压结果对应的适用分组是默认适用分组,则根据霍夫曼编码总表对磁盘指标序列剩余的压缩结果进行第二次解压,如果第一次解压结果不属于默认适用分组,则判断磁盘指标序列剩余的压缩结果中的第一个元素是否为标识符:如果是,则根据第一次解压结果对应的适用分组的霍夫曼编码分表对磁盘指标序列剩余的压缩结果进行第二次解压,如果不是,则根据霍夫曼编码总表对磁盘指标序列剩余的压缩结果进行第二次解压;如果第二次解压结果对应的适用分组是默认适用分组,则根据霍夫曼编码总表对磁盘指标序列剩余的压缩结果进行第三次解压,如果第二次解压结果不属于默认适用分组,则判断磁盘指标序列剩余的压缩结果中的第一个元素是否为0:如果是,则根据第二次解压结果对应的适用分组的霍夫曼编码分表对磁盘指标序列剩余的压缩结果进行第三次解压,如果不是,则根据霍夫曼编码总表对磁盘指标序列剩余的压缩结果进行第三次解压;以此类推,直至完成对磁盘指标序列的压缩结果进行解压,获得磁盘指标序列。
58.达到熵极限是通过现有的霍夫曼编码对磁盘指标序列进行压缩时的极限,导致通过现有霍夫曼编码对磁盘指标序列进行压缩的压缩效率有限,本发明通过将磁盘历史数据序列转换为二值数据序列,通过每个分组长度对应的所有种分组的频率和理想频率的差异构建每个分组长度的适用程度,获得使数据压缩的结果尽可能达到熵极限的适用长度,根据所有分组的实际频率构建范式霍夫曼总树,在此基础上,通过目标分组对应的目标数据的目标后邻接数据获得目标分组对应的每种分组的目标频率,根据目标分组对应的目标频率序列构建范式霍夫曼分树,判断每种分组在范式霍夫曼总树和范式霍夫曼分树中编码结果的长度,保留在范式霍夫曼分树中编码结果的长度小于在范式霍夫曼总树中编码结果的长度的分组,进而根据范式霍夫曼分树对保留的分组对应的数据进行编码,使磁盘指标序列的压缩结果尽可能达到熵极限的基础上,进一步通过对霍夫曼编码进行改进使磁盘指标序列的压缩结果突破熵极限,减少磁盘指标序列的压缩结果的数据量,提高磁盘指标序列的压缩效果,减少磁盘的历史指标数据占用的存储空间,进而降低存储磁盘的历史指标数据对使用磁盘的影响。
59.需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某
些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
60.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
技术特征:
1.一种磁盘使用健康状态监控管理方法,其特征在于,该方法包括以下步骤:将预设时间段内的磁盘数据按照顺序组成的序列记为磁盘历史数据序列,将磁盘历史数据序列转换为二值数据序列;构建每个分组长度对应的理想频率序列,根据每个分组长度对二值数据序列进行划分获得每个分组长度对应的所有分组,根据每个分组长度对应的所有种分组的实际频率序列和理想频率序列计算每个分组长度的适用程度;将适用程度最大的分组长度记为适用长度,根据适用长度获得数据序列和所有适用分组组成的适用分组序列,根据适用分组序列获得霍夫曼编码总表;将除实际频率最大的适用分组外的任意一种适用分组记为目标适用分组,对目标适用分组对应的分组序列进行处理,获得目标适用分组的霍夫曼编码分表,包括:k1,根据目标适用分组对应的分组序列构建范式霍夫曼树,根据范式霍夫曼树获得目标适用分组对应的目标霍夫曼编码表;k2,根据霍夫曼编码总表和目标适用分组对应的目标霍夫曼编码表,计算每种适用分组的优先排除度,将优先排除度大于等于0且优先排除度最大的适用分组从目标适用分组对应的分组序列中去除;k3,重复k1到k2,直至目标适用分组对应的分组序列中所有适用分组的优先排除度均小于0,将根据目标适用分组对应的分组序列构建的目标霍夫曼编码表作为目标适用分组对应的霍夫曼编码分表;对所有适用分组对应的分组序列进行处理,获得所有适用分组的霍夫曼编码分表;根据霍夫曼编码总表和所有适用分组的霍夫曼编码分表,对磁盘指标序列进行压缩,获得磁盘指标序列的压缩结果。2.根据权利要求1所述的一种磁盘使用健康状态监控管理方法,其特征在于,所述构建每个分组长度对应的理想频率序列,包括的具体步骤如下:将分组长度取值范围内的任意一个整数作为分组长度f,获得长度等于的长度的理想概率序列,记为分组长度f对应的理想概率序列,理想概率序列中的最后一个理想概率为,除最后一个理想概率以外,理想概率序列中第i个理想概率为。3.根据权利要求1所述的一种磁盘使用健康状态监控管理方法,其特征在于,所述根据每个分组长度对二值数据序列进行划分获得每个分组长度对应的所有分组,根据每个分组长度对应的所有种分组的实际频率序列和理想频率序列计算每个分组长度的适用程度,包括的具体步骤如下:将分组长度取值范围内的任意一个整数作为分组长度f,根据分组长度将二值数据序列划分为若干个子序列,将相同的若干个子序列划分为一种分组,获得所有种分组的实际频率,将所有种分组的实际频率按照从大到小的顺序排列组成的序列记为分组长度对应的实际频率序列;分组长度f的适用程度的计算公式为:
式中,表示分组长度f的适用程度,n表示所有分组的数量,表示实际频率序列中的第i个实际概率,表示理想频率序列中的第i个理想概率,表示累加长度。4.根据权利要求1所述的一种磁盘使用健康状态监控管理方法,其特征在于,所述根据适用长度获得数据序列和所有适用分组组成的适用分组序列,包括的具体步骤如下:根据适用长度将二值数据序列划分为若干个子序列,将每个子序列记为数据,将所有数据按照顺序组成的序列记为数据序列,将适用长度对应的所有种分组,记为适用分组;将所有适用分组按照实际频率从大到小的顺序排序组成的序列记为适用分组序列。5.根据权利要求1所述的一种磁盘使用健康状态监控管理方法,其特征在于,所述根据适用分组序列获得霍夫曼编码总表,包括的具体步骤如下:构建n层的二叉树,要求二叉树中所有层的左节点以及最后一层的右节点均为叶子节点,二叉树中的其他节点均为父节点,其中,n为适用分组序列中的所有种适用分组的数量;将所有层的左节点以及最后一层的右节点记为目标节点,按照从上到下的顺序,将适用分组序列中的每个分组依次分配给每个目标节点,按照左0右1方式给二叉树分配编码,将获得的二叉树记为范式霍夫曼树,进而获得霍夫曼编码表,记为霍夫曼编码总表。6.根据权利要求1所述的一种磁盘使用健康状态监控管理方法,其特征在于,所述目标适用分组对应的分组序列具体为:获得数据序列中属于目标适用分组的所有数据,记为目标数据,将每个目标数据在数据序列中的后一个数据记为目标后近邻数据,获得所有目标后近邻数据,统计所有目标后近邻数据中每种适用分组的频率,记为目标适用分组对应的每种适用分组的目标频率,将所有适用分组按照目标频率从大到小的顺序排序组成的序列记为目标适用分组对应的分组序列。7.根据权利要求1所述的一种磁盘使用健康状态监控管理方法,其特征在于,所述根据目标适用分组对应的分组序列构建范式霍夫曼树,包括的具体步骤如下:构建t+1层的二叉树,要求二叉树中所有层的左节点以及最后一层的右节点均为叶子节点,二叉树中的其他节点均为父节点,其中,t为目标适用分组对应的分组序列的长度;将除前两层外所有层的左节点以及最后一层的右节点(共t个节点)记为目标节点,按照从上到下的顺序,将目标适用分组对应的分组序列中的每个适用分组依次分配给每个目标节点,按照左0右1方式给二叉树分配编码,将获得的二叉树记为范式霍夫曼树。8.根据权利要求1所述的一种磁盘使用健康状态监控管理方法,其特征在于,所述计算每种适用分组的优先排除度,包括的具体步骤如下:将每种适用分组在霍夫曼编码总表中对应的编码的长度记为每种适用分组的第一长度,将每种适用分组在目标适用分组对应的目标霍夫曼编码表中对应的编码的长度记为每种适用分组的第二长度,将每种适用分组的第二长度加1后与每种适用分组的第一长度的差值记为每种适用分组的增加程度,将每种适用分组的增加程度与每种适用分组的目标频率的乘积记为。9.根据权利要求1所述的一种磁盘使用健康状态监控管理方法,其特征在于,所述对磁盘指标序列进行压缩,获得磁盘指标序列的压缩结果,包括的具体步骤如下:将采集的磁盘运行时刻的所有指标数据组成的序列记为磁盘指标序列,通过gb2312编
码方式对磁盘指标序列进行编码,获得磁盘二值序列,根据适用长度对磁盘二值序列进行划分获得磁盘数据序列,按照顺序对磁盘数据序列中的所有数据进行压缩,获得磁盘指标序列的压缩结果,包括:将任意一个数据记为当前数据,将磁盘数据序列中当前数据的前一个数据记为前近邻数据,判断当前数据是否能够用前近邻数据对应的霍夫曼编码分表进行压缩,如果能够进行压缩,则根据前近邻数据对应的霍夫曼编码分表对当前数据进行压缩,且在获得的编码结果前加一个标识符,如果不能够进行压缩,则根据霍夫曼编码总表对当前数据进行压缩。
技术总结
本发明涉及数据处理技术领域,具体涉及一种磁盘使用健康状态监控管理方法,包括:将磁盘历史数据序列转换为二值数据序列,根据分组长度对二值数据序列划分,计算分组长度取值范围中每个分组长度的适用程度,获得适用程度最大的适用长度,根据适用长度获得霍夫曼编码总表,根据优先排除度对适用分组对应的分组序列进行处理,进而获得适用分组对应的霍夫曼编码分表,根据霍夫曼编码总表和所有适用分组的霍夫曼编码分表对磁盘指标序列进行压缩,获得磁盘指标序列的压缩结果。本发明通使磁盘指标序列的压缩结果尽可能达到熵极限的基础上,进一步通过对霍夫曼编码进行改进使磁盘指标序列的压缩结果突破熵极限,降低历史指标数据对使用磁盘的影响。用磁盘的影响。用磁盘的影响。
技术研发人员:唐吉斌 王伟
受保护的技术使用者:深圳市思拓通信系统有限公司
技术研发日:2023.06.30
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种穿刺系统 下一篇:一种图像超分辨率重建方法、装置和设备