集群修复方法、装置、电子设备和存储介质与流程

未命名 09-01 阅读:93 评论:0


1.本技术涉及金融科技领域,尤其涉及一种集群修复方法、装置、电子设备和存储介质。


背景技术:

2.随着互联网的快速发展和信息数据的井喷式增长,应对大量数据存储和大规模计算任务的分布式集群技术也应运而生。
3.上述分布式集群由多个节点组成,当分布式集群发生故障时,需要运维人员人工检测集群中的异常节点并完成异常节点的修复,上述对集群中异常节点进行修复的时效性受运维人员影响,可能存在耗时较长的现象,这降低了集群修复的效率。


技术实现要素:

4.本技术提供一种集群修复方法、装置、电子设备和存储介质,用以解决由运维人员人工进行集群修复,进而降低集群修复效率的问题。
5.第一方面,本技术提供一种集群修复方法,包括:
6.获取目标集群中每个节点在预设的历史时间区间内对应的性能指标数据;
7.根据各所述性能指标数据,确定所述目标集群中的m个目标节点;所述目标节点为性能指标数据异常的节点,m为大于或等于1的正整数;
8.根据各目标节点对应的性能指标数据的平均值确定各目标节点在当前采样点对应的异常因子;
9.根据所述各目标节点在当前采样点对应的异常因子,确定所述m个目标节点中的n个节点为异常节点,n为小于或等于m的正整数;
10.根据所述目标集群的集群信息及n个异常节点,对所述目标集群执行修复处理。
11.第二方面,本技术提供一种集群修复装置,包括:
12.获取模块,用于获取目标集群中每个节点在预设的历史时间区间内对应的性能指标数据;
13.第一确定模块,用于根据各所述性能指标数据,确定所述目标集群中的m个目标节点;所述目标节点为性能指标数据异常的节点,m为大于或等于1的正整数;
14.第二确定模块,用于根据各目标节点对应的性能指标数据的平均值确定所述各目标节点在当前采样点对应的异常因子;
15.第三确定模块,用于根据所述各目标节点在当前采样点对应的异常因子,确定所述m个目标节点中的n个节点为异常节点;n为小于或等于m的正整数;
16.处理模块,用于根据所述目标集群的集群信息及n个异常节点,对所述目标集群执行修复处理。
17.第三方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
18.所述存储器存储计算机执行指令;
19.所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。
20.第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
21.第五方面,本技术提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面所述方法。
22.本技术提供的集群修复方法、装置、电子设备和存储介质,根据集群中每个节点对应的性能指标数据,确定集群中性能指标数据异常的m个目标节点,根据各目标节点在当前采样点对应的异常因子确定n个异常节点,进而实现对目标集群的修复。上述集群修复方法不需要运维人员人工进行集群修复,整个集群修复的方式为修复耗时较低的自动化过程,实现了提高集群修复效率的技术效果。
附图说明
23.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
24.图1为本技术实施例提供的集群修复方法的应用场景图;
25.图2为本技术实施例提供的集群修复方法的流程示意图;
26.图3为本技术实施例提供的功能模块的结构示意图;
27.图4为本技术实施例提供集群修复方法的应用流程示意图;
28.图5为本技术提供的集群修复装置的结构示意图;
29.图6为本技术实施例提供的电子设备的结构示意图。
30.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
31.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
32.需要说明的是,本技术提供的集群修复方法和装置可用于金融科技领域,也可用于除金融科技之外的任意领域,本技术提供的集群修复方法和装置的应用领域不作限定。
33.随着信息数据的爆炸式增长和业务数量的增加,越来越多的公司和企业应用分布式集群技术应对大量数据存储和大规模计算任务。例如,银行系统部署分布式集群处理数据量较大的银行业务。
34.然而分布式集群的运行过程中,不可避免会出现响应失败和集群宕机等故障现象。现有技术中,当分布式集群发生故障时,需要运维人员人工检测集群中的异常节点并完
成异常节点的修复,在异常节点修复完后完成分布式集群的修复。所以上述集群修复的过程受运维人员影响,修复集群异常节点的过程耗时较长,进而降低了集群修复的效率。
35.所以在面对现有技术中的技术问题时,为了提高集群修复的效率,可以根据集群中各节点对应的节点信息,确定集群中的异常节点,也就不需要运维人员人工检测集群中的异常节点。进一步的,集群依据包括的异常节点,自动的完成自身的修复,也就不需要运维人员人工修复异常节点。
36.图1为本技术实施例提供的集群修复方法的应用场景图,如图1所示,本技术实施例提供的集群修复方法可以应用于集群修复装置1,上述集群修复装置1与目标集群2通信连接。集群修复装置1获取目标集群2中每个节点在预设的历史时间区间内对应的性能指标数据;集群修复装置1根据各性能指标数据,确定目标集群2中的m个目标节点;集群修复装置1根据各目标节点对应的性能指标数据的平均值确定各目标节点在当前采样点对应的异常因子;集群修复装置1根据各目标节点在当前采样点对应的异常因子,确定m个目标节点中的n个节点为异常节点;集群修复装置1根据目标集群2的集群信息及n个异常节点,对目标集群2执行修复处理。
37.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
38.请参阅图2,图2为本技术实施例提供的集群修复方法的流程示意图,如图2所示,本实施例的执行主体为集群修复装置,该集群修复装置可以位于电子设备中,则上述集群修复方法包括:
39.s201,获取目标集群中每个节点在预设的历史时间区间内对应的性能指标数据。
40.需要说明的是,上述目标集群为发生故障的分布式集群,上述目标集群包括多个节点。在一可选地实施方式中,可以将节点理解为服务器。
41.上述性能指标数据包括多种性能指标,其中,上述性能指标数据包括但不限于:中央处理器性能指标、内存性能指标、磁盘读写速率性能指标和网络接口性能指标。
42.上述历史时间区间为自定义的已经发送的时间区间。可选地,步骤s201的一种具体的实施方式为:在集群修复装置与目标集群建立通信连接之后,获取目标集群中各节点在历史时间区间内对应的性能指标数据。例如,获取目标集群中每个节点在最近10分钟内对应的性能指标数据。
43.s202,根据各性能指标数据,确定目标集群中的m个目标节点。
44.本步骤中,在获取到各节点对应的性能指标数据之后,可以根据各节点对应的性能指标数据,确定目标集群中的性能指标数据异常的节点,应理解,可以将上述性能指标数据异常的节点称为目标节点。
45.可选地,可以根据各节点在历史时间区间对应的两种性能指标的平均值,确定各节点在历史时间区间内是否发生数据漂移现象,将在历史时间区间内发生数据漂移现象的节点确定为目标节点。
46.其中,上述m为大于或等于1的正整数。
47.s203,根据各目标节点对应的性能指标数据的平均值确定各目标节点在当前采样点对应的异常因子。
48.需要说明的是,异常因子用于表征第一性能指标和第二性能指标之间的异常相关性,上述第一性能指标和第二指性能标为从性能指标数据中随机选择的两种指标。
49.本步骤中,可以通过以下公式,确定各目标节点在当前采样点对应的异常因子。
[0050][0051]
其中,r表示目标节点当前采样点对应的异常因子,xi表示目标节点在当前采用点对应的第一性能指标,表示目标节点在目标时间区间对应的第一性能指标的平均值,yi表示目标节点在当前采用点对应的第二性能指标,表示目标节点在目标时间区间对应的第二性能指标的平均值,t表示目标时间区间。当前采样点为在t中的终止采样点
[0052]
其中,上述目标时间区间为目标节点在历史时间区间内,未发生数据漂移现象的时间区间。
[0053]
s204,根据各目标节点在当前采样点对应的异常因子,确定m个目标节点中的n个节点为异常节点。
[0054]
本步骤中,在确定各目标节点在当前采样点对应的异常因子之后,可以根据各目标节点在当前采样点对应的异常因子,确定目标集群中的n个异常节点。
[0055]
可选地,可以通过比较各目标节点在当前采样点对应的异常因子与预设因子阈值之间的大小关系,确定各目标节点中的异常节点。
[0056]
需要说明的是,根据各目标节点在当前采样点对应的异常因子,确定m个目标节点中的n个节点为异常节点的方式还可以为其他方式,本实施例中对此不做限定。
[0057]
其中,上述n个异常节点为m各目标节点中的至少部分目标节点,即n为小于或等于m的正整数。
[0058]
s205,根据目标集群的集群信息及n个异常节点,对目标集群执行修复处理。
[0059]
需要说明的是,上述集群信息可以表征目标集群包括的节点的数量,也可以表征目标集群的主从属性关系,即目标集群是否包括主节点和从节点,也可以表征目标集群部署的地域信息,也可以表征目标集群部署的园区信息,也可以表征目标集群的其他信息,在此不做具体限定。
[0060]
本步骤中,可以根据目标集群的集群信息和n个异常节点,在目标集群中排除上述n个异常节点,或者在目标集群中替换上述n个异常节点。应理解,步骤s205的具体实施方式也可以是其他方式,在此不做具体限定。
[0061]
本技术提供的集群修复方法,根据集群中每个节点对应的性能指标数据,确定集群中性能指标数据异常的m个目标节点,根据各目标节点在当前采样点对应的异常因子确定n个异常节点,进而实现对目标集群的修复。上述集群修复方法不需要运维人员人工进行集群修复,整个集群修复的方式为修复耗时较低的自动化过程,进而提高了集群修复效率。
[0062]
可选地,根据目标集群的集群信息及n个异常节点,对目标集群执行修复处理,包括:
[0063]
根据集群信息表征的节点的数量和n个异常节点,替换目标集群中的n个异常节点
或者排除目标集群中的n个异常节点。
[0064]
一种可选地实施方式为,根据目标集群的集群信息及n个异常节点,替换目标集群中的n个异常节点,实现对目标集群的修复。
[0065]
这种实施方式下,需要在目标集群中排除n各异常节点,并将其他集群中的n个节点添加至目标集群。
[0066]
另一种可选地实施方式为,根据目标集群的集群信息及n个异常节点,排除目标集群中的n个异常节点。
[0067]
本实施例中,根据集群信息表征的节点的数量和n个异常节点,确定对目标集群执行修复处理的具体方式,即替换目标集群中的n个异常节点或者排除目标集群中的n个异常节点,以此扩展了修复目标集群的方式,可以通过多种实施方式对目标集群进行修复,并且在对目标集群进行修复时,直接替换或排除异常节点,而不是对异常节点进行修复的方式进行,可以进一步提高集群修复效率。
[0068]
可选地,根据集群信息表征的节点的数量和n个异常节点,替换目标集群中的n个异常节点或者排除目标集群中的n个异常节点,包括:
[0069]
若集群信息表征的节点的数量与n之间的差值小于或等于预设数量阈值,则应用第一集群中的n个节点替换n个异常节点;第一集群与目标集群部署于相同区域,且第一集群与目标集群部署于相同或不同的园区。
[0070]
若集群信息表征的节点的数量与n之间的差值大于预设数量阈值,则在目标集群中排除n个异常节点或者应用第二集群中的n个节点替换n个异常节点;第二集群为与目标集群部署于同一地域不同园区的多个集群中包括的节点数量最少的集群。
[0071]
如上,集群信息可以表征目标节点包括的节点的数量。
[0072]
本实施例中,计算集群信息表征的节点的数量与n之间的差值,若上述差值小于或等于预设数量阈值,表示目标集群在排除n个异常节点之后包括的节点数量小于或等于预设数量阈值,排除n个异常节点之后的目标集群的性能达不到要求。这种情况下,应用第一集群中的n个节点替换目标集群中的n个异常节点,其中,上述第一集群与目标集群部署于相同区域,且第一集群与目标集群部署于相同或不同的园区。
[0073]
应理解,由于第一集群与目标集群部署于相同区域,可以直接将部署于同一区域的健康节点替换目标集群中的异常节点,不需要消耗额外的调用时间跨区域调用健康节点,因此减少了集群修复的耗时,进而提高了集群修复的效率。
[0074]
例如,目标集群部署的区域为“a省份”,部署的园区为“a省份园区1”,目标集群包括的节点的数量为1100,目标集群中异常节点的数量为200,预设数量阈值为1000,则目标集群排除异常节点之后包括的节点数量为900。这种情况下,从部署在“a省份”区域的多个集群中选择第一集群,并应用第一集群中的200个节点替换目标集群中的200个异常节点,其中,第一集群的部署园区可以是“a省份园区1”,也可以是其他园区。
[0075]
若集群信息表征的节点的数量与n之间的差值大于预设数量阈值,表示目标集群在排除n个异常节点之后包括的节点数量大于预设数量阈值,即排除n个异常节点之后的目标集群的性能仍然可以达到要求。
[0076]
这种情况下,一种可选地实施方式为,在目标集群中排除n个异常节点。例如,目标集群包括的节点的数量为1100,目标集群中异常节点的数量为50,预设数量阈值为1000,目
标集群排除异常节点之后包括的节点数量为1050,则直接在目标集群中排除50个异常节点。
[0077]
另一种可选地实施方式为,应用第二集群中的n个节点替换目标集群中的n个异常节点,其中,第二集群为与目标集群部署于同一地域不同园区的多个集群中包括的节点数量最少的集群。
[0078]
例如,目标集群部署的区域为“a省份”,部署的园区为“a省份园区1”,目标集群包括的节点的数量为1100,目标集群中异常节点的数量为50,预设数量阈值为1000,则目标集群排除异常节点之后包括的节点数量为1050。这种情况下,从部署在“a省份”区域且部署园区不为“a省份园区1”的多个集群中,选择节点数量最少的集群,将该集群确定为第二集群,并应用第二集群中的50个节点替换目标集群中的50个异常节点。
[0079]
本实施例中,通过集群信息表征的节点的数量与n之间的差值与预设数量阈值之间的大小关系,在集群信息表征的节点的数量与n之间的差值大于预设数量阈值时,表示排除n个异常节点之后的目标集群的性能仍然可以达到要求,则直接在目标集群中排除n个异常节点。在集群信息表征的节点的数量与n之间的差值小于或等于预设数量阈值时,表示排除n个异常节点之后的目标集群的性能不可以达到要求,则替换目标集群中的n个异常节点。通过确定最适合目标集群的修复方式,以此确保目标集群能够成功修复。
[0080]
可选地,响应于集群信息表征目标集群存在节点主从关系,对目标集群执行修复处理之后,方法还包括:
[0081]
若确定n个异常节包括第一主节点,则确定目标集群的第二主节点。
[0082]
其中,第一主节点为对目标集群执行修复处理之前,目标集群的主节点;第二主节点为对目标集群执行修复处理之后,目标集群的主节点。
[0083]
本实施例中,在对目标集群执行修复处理之后,还可以基于集群信息表征的节点主从关系,重新确定修复处理之后的目标集群中的主节点。
[0084]
具体而言,若目标集群的集群信息表征目标集群存在节点主从关系,即目标集群包括主节点和从节点,且目标集群在修复处理之前的第一主节点为异常节点,则在对目标集群执行修复处理之后,重新确定目标集群的第二主节点。
[0085]
本实施例中,若目标集群在执行修复处理之前的第一主节点为异常节点,则修复处理之后的目标集群不包括主节点,为保证修复处理之后的目标集群仍处于正常的工作状态,重新确定修复处理之后的目标集群中的第二主节点。
[0086]
在其他实施例中,若目标集群的集群信息表征目标集群存在节点主从关系,且目标集群在修复处理之前的第一主节点为不为异常节点,则无需在对目标集群执行修复处理之后重新确定目标集群的主节点。
[0087]
可选地,确定目标集群的第二主节点,包括:
[0088]
从目标集群包括的除n个异常节点之外的至少一个节点中确定第二主节点。
[0089]
一种可选地实施方式为,在目标集群原有的健康节点随机选择一个节点作为第二主节点。其中,上述健康节点为目标集群包括的除n个异常节点之外的节点。
[0090]
另一种可选地实施方式为,将目标集群原有的健康节点中节点性能最强的节点,确定为第二主节点。
[0091]
应理解,本实施例还可以通过其他方式确定第二主节点,在此不做具体限定。
[0092]
本实施例中,可以在目标集群原有的健康节点中,确定第二主节点,以此保证修复处理之后的目标集群仍然可以正常运行。
[0093]
可选地,历史时间区间包括第一时间区间和第二时间区间;根据各性能指标数据,确定目标集群中的m个目标节点,包括:
[0094]
对于各节点,根据节点在第一时间区间内对应的性能指标数据的平均值和节点在第二时间区间内对应的性能指标数据的平均值,确定节点对应的漂移偏差率。
[0095]
根据各节点对应的漂移偏差率,确定各节点对应的目标时间区间;目标时间区间为历史时间区间中节点未发生数据漂移现象的时间区间。
[0096]
根据各节点在目标时间区间内对应的性能指标数据,确定第一基线阈值和第二基线阈值;第一基线阈值小于第二基线阈值。
[0097]
响应于存在至少一个节点在当前采样点的性能指标数据对应的数值大于第二基线阈值,或者小于第一基线阈值,将至少一个节点确定为目标节点。
[0098]
可选地,可以设定历史时间区间为[t-n1,t],第一时间区间为[t-n1,t-n2],第二时间区间为[t-n2,t],其中,t表示当前采样点,t-n1表示第一时间区间的起始采样点,t-n2表示第二时间区间的起始采样点。
[0099]
本实施例中,可以通过以下公式确定各节点对应的漂移偏差率:
[0100][0101]
其中,m1表示节点在第一时间区间内对应的性能指标数据的平均值,m2表示节点在第二时间区间内对应的性能指标数据的平均值,m表示节点在历史时间区间内对应的性能指标数据的平均值,a表示节点对应的漂移偏差率。
[0102]
应理解,上述漂移偏差率可用于判断节点在当前采样点的性能指标数据是否发生漂移。
[0103]
可选地,可以通过以下公式确定节点在各个时间区间对应的性能指标数据的平均:
[0104][0105][0106][0107]
其中,[t-n1,t-n2]表示第一时间区间,∑p
[t-n1,t-n2]
表示节点在第一时间区间内对应的性能指标数据的和值,[t-n2,t]表示第二时间区间,∑p
[t-n2,t]
表示节点在第二时间区间内对应的性能指标数据的和值,[t-n1,t]表示历史时间区间,∑p
[t-n1,t]
表示节点在历史时间区间内对应的性能指标数据的和值。
[0108]
本实施例中,在确定节点对应的漂移偏差率之后,可以根据各节点对应的漂移偏差率,确定各节点对应的目标时间区间,其中,上述目标时间区间为历史时间区间中节点未发生数据漂移现象的时间区间。
[0109]
可选地,通过比较各节点对应的漂移偏差率与预设偏差率阈值之间的大小关系,确定各节点对应的目标时间区间。也可以通过其他方式根据各节点对应的漂移偏差率,确定各节点对应的目标时间区间,在此不做具体限定。
[0110]
本实施例中,可以通过以下公式确定第一基线阈值和第二基线阈值:
[0111]
mad=h*med|x
i-med(x)|
[0112]
updeviation=med+i*mad
[0113]
lowdeviation=med-i*mad
[0114]
其中,lowdeviation表示第一基线阈值,updeviation表示第二基线阈值,xi表示节点在历史时间段内的第i个采样点对应的性能指标值,med(x)表示节点在历史时间区间的中位数采样点对应的性能指标值,med表示历史时间区间的中位数采样点数值,h表示正态分布场下的系数常量,可选地,上述h为1.5;i表示缩放系数,可选地,上述i为3。
[0115]
可选地,上述第一基线阈值又称为动态上基线阈值,上述第二基线阈值又称为动态下基线阈值。
[0116]
在确定第一基线阈值和第二基线阈值之后,若节点在当前采样点的性能指标数据对应的数值大于第二基线阈值,或者,节点在当前采样点的性能指标数据对应的数值小于第一基线阈值,表示该节点在当前采样点的性能指标数据异常,则将该节点确定为目标节点。
[0117]
可选地,根据各节点对应的漂移偏差率,确定各节点对应的目标时间区间,包括:
[0118]
响应于漂移偏差率大于预设偏差率阈值,将第二时间区间确定为目标时间区间,或者,响应于漂移偏差率小于或等于预设偏差率阈值,将历史时间区间确定为目标时间区间。
[0119]
本实施例中,预先设置有预设偏差率阈值,可选地,上述预设偏差率阈值为80%,或其他数值。比较漂移偏差率与预设偏差率阈值之间的大小,若漂移偏差率大于预设偏差率阈值,表示节点在第一时间区间已发生数据漂移现象,则将第二时间区间确定为节点未发生数据漂移现象的目标时间区间。
[0120]
若漂移偏差率小于或等于预设偏差率阈值,表示节点在历史时间区间未发生数据漂移现象,则将该历史时间区间确定为节点未发生数据漂移现象的目标时间区间。
[0121]
例如,预设偏差率阈值为80%,历史时间区间为[t-n1,t],第一时间区间为[t-n1,t-n2],第二时间区间为[t-n2,t],其中,t表示当前采样点,t-n1表示第一时间区间的起始采样点,t-n2表示第二时间区间的起始采样点。通过上述实施例计算得到节点对应的漂移偏差率之后,若漂移偏差率为85%,则确定第一时间区间为[t-n1,t-n2]为目标时间区间;若漂移偏差率为70%,则确定第一时间区间为[t-n1,t]为目标时间区间。
[0122]
本实施例中,通过比较节点对应的漂移偏差率与预设偏差率阈值之间的大小,在漂移偏差率小于或等于预设偏差率阈值时,表示节点在历史时间区间均未发生数据漂移现象,则确定节点对应的目标时间区间为历史时间区间。在漂移偏差率大于预设偏差率阈值时,表示节点在第一时间区间已发生数据漂移现象,则将第二时间区间确定为节点对应的目标时间区间。以此准确的确定节点未发生数据漂移现象的目标时间区间。
[0123]
可选地,根据各目标节点在当前采样点对应的异常因子,确定m个目标节点中的n个节点为异常节点,包括:
[0124]
获取各目标节点中当前采样点对应的异常因子大于第一预设因子阈值的第一目标节点,并确定第一目标节点为异常节点。
[0125]
获取各目标节点中当前采样点对应的异常因子小于或等于第一预设因子阈值,且大于第二预设因子阈值的第二目标节点,并确定第二目标节点中在预设时长内对应的多个异常因子均大于预设因子阈值的第三目标节点为异常节点。
[0126]
本实施例中,预先设置有第一预设因子阈值和第二预设因子阈值,可选地,上述第一预设因子阈值为0.8,上述第二预设因子阈值为0.5,或者第一预设因子阈值和第二预设因子阈值为其他数值,本实施例中对此不做限定。
[0127]
通过步骤s203中的相关公式可以确定各目标节点在当前采样点对应的异常因子。一种可选地实施方式为,若目标节点在当前采用点对应的异常因子大于第一预设因子阈值,表示该目标节点的第一性能指标和第二性能指标之间的异常相关性突出,则将该目标节点确定为第一目标节点,并将第一目标节点确定为异常节点。其中,上述第一性能指标和第二指性能标为从性能指标数据中随机选择的两种指标。
[0128]
另一种可选地实施方式为,若目标节点在当前采用点对应的异常因子小于或等于第一预设因子阈值,且大于第二预设因子阈值,表示该目标节点的第一性能指标和第二性能指标之间的异常相关性可能较高,则将上述目标节点确定为第二目标节点。进一步的确定第二目标节点在预设时长内对应的多个异常因子,将第二目标节点中在预设时长内对应的多个异常因子均大于预设因子阈值的第二目标节点确定为第三目标节点,其中,上述第三目标节点为异常节点。
[0129]
本实施例中,通过比较各目标节点中当前采样点对应的异常因子、第一预设因子阈值和第二预设因子阈值之间的大小关系,确定各目标节点不同性能指标之间的异常相关性,进而将不同性能指标之间的异常相关性突出的目标节点确定为异常节点,以此准确的筛选出目标集群中的异常节点。
[0130]
可选地,性能指标数据包括随机选择的第一性能指标和第二性能指标,确定第二目标节点中在预设时长内对应的多个异常因子均大于预设因子阈值的第三目标节点为异常节点之前,方法还包括:
[0131]
根据第二目标节点在预设时长的各采样点对应的第一性能指标和第二性能指标,以及第二目标节点在目标时间区间内各采样点对应的第一性能指标的平均值和第二性能指标的平均值,确定第二目标节点在预设时长内对应的多个异常因子;目标时间区间为历史时间区间中第二目标节点未发生数据漂移现象的时间区间。
[0132]
应理解,性能指标数据包括随机选择的第一性能指标和第二性能指标。例如,上述第一性能指标为中央处理器性能指标,上述第二性能指标为内存性能指标。
[0133]
本实施例中,可以将第二目标节点在预设时长的各采样点对应的第一性能指标、第二目标节点在预设时长的各采样点对应的第二性能指标、第二目标节点在目标时间区间内各采样点对应的第一性能指标的平均值和以及第二目标节点在目标时间区间内各采样点对应的第二性能指标的平均值通过步骤s203中的相关公式,获得第二目标节点在预设时长内对应的多个异常因子。可选地,上述预设时长为10分钟。
[0134]
本实施例中,基于第二目标节点在预设时长的各采样点对应的第一性能指标和第二性能指标,以及第二目标节点在目标时间区间内各采样点对应的第一性能指标的平均值
和第二性能指标的平均值,确定第二目标节点在预设时长内对应的多个异常因子,以此准确的反映第二目标节点在预设时长内是否发生数据漂移现象。
[0135]
可选地,请参阅图3,图3为本技术实施例提供的功能模块的结构示意图。通过图3示出的各个功能模块之间的交互工作,可以实现本技术提供的集群修复方法。
[0136]
具体而言,本技术实施例提供的功能模块包括集群数据中台、集群属性采集模块、动态阈值基线拦截模块、多维异常判断模块、决策分析模块和故障降级扩散模块。
[0137]
其中,上述集群数据中台存储有目标集群的性能指标数据和集群信息。
[0138]
上述集群属性采集模块,用于从集群数据中台存储的目标集群的性能指标数据和集群信息,上述集群信息包括但不限于主从关系信息、部署园区信息、部署地域信息和部署节点数量。
[0139]
上述动态阈值基线拦截模块,用于判断各节点是否存在性能数据漂移现象,并计算各节点对应的第一基线阈值和第二基线阈值。
[0140]
上述多维异常判断模块,用于根据动态阈值基线捕获异常指标场景,结合多维异常情况相关性确定异常节点。
[0141]
上述决策分析模块,用于根据集群信息和异常节点的数量,确定对目标集群的修复方式。
[0142]
上述故障降级扩缩模块,用于根据决策分析模块产出的分析结果,将异常节点剔除集群,以及确定是否添加其他集群的节点替换目标集群中的异常节点。
[0143]
为便于理解整体的技术方案,请参阅图4,如图4所示,本实施例中的具体方案如下:
[0144]
获取目标集群的集群信息和目标集群在历史时间区间内对应的性能指标数据;基于目标集群的在历史时间区间内对应的性能指标数据,对目标集群进行漂移检测,确定目标集群在历史时间区间中未发生性能指标数据漂移现象的目标时间区间;基于目标集群各节点在目标时间区间内对应的性能指标数据,确定第一基线阈值和第二基线阈值;根据上述第一基线阈值和第二基线阈值,确定目标集群中的异常节点;若目标集群不存在异常节点,则不对目标集群进行修复;若目标集群存在异常节点,则根据集群信息和异常节点的数量,确定对目标集群的修复方式;进而对目标集群进行修复。
[0145]
图5为本技术提供的集群修复装置的结构示意图,如图5所示,本实施例提供的集群修复装置500包括:
[0146]
获取模块501,用于获取目标集群中每个节点在预设的历史时间区间内对应的性能指标数据。第一确定模块502,用于根据各性能指标数据,确定目标集群中的m个目标节点;目标节点为性能指标数据异常的节点,m为大于或等于1的正整数。第二确定模块503,用于根据各目标节点对应的性能指标数据的平均值确定各目标节点在当前采样点对应的异常因子。第三确定模块504,用于根据各目标节点在当前采样点对应的异常因子,确定m个目标节点中的n个节点为异常节点;n为小于或等于m的正整数。处理模块505,用于根据目标集群的集群信息及n个异常节点,对目标集群执行修复处理。
[0147]
可选地,处理模块505,具体用于:
[0148]
根据集群信息表征的节点的数量和n个异常节点,替换目标集群中的n个异常节点或者排除目标集群中的n个异常节点。
[0149]
可选地,处理模块505,在根据集群信息表征的节点的数量和n个异常节点,替换目标集群中的n个异常节点或者排除目标集群中的n个异常节点时,具体用于:
[0150]
若集群信息表征的节点的数量与n之间的差值小于或等于预设数量阈值,则应用第一集群中的n个节点替换n个异常节点;第一集群与目标集群部署于相同区域,且第一集群与目标集群部署于相同或不同的园区;
[0151]
若集群信息表征的节点的数量与n之间的差值大于预设数量阈值,则在目标集群中排除n个异常节点或者应用第二集群中的n个节点替换n个异常节点;第二集群为与目标集群部署于同一地域不同园区的多个集群中包括的节点数量最少的集群。
[0152]
可选地,集群修复装置500还包括:
[0153]
第四确定模块,用于若确定n个异常节包括第一主节点,则确定目标集群的第二主节点;
[0154]
其中,第一主节点为对目标集群执行修复处理之前,目标集群的主节点;第二主节点为对目标集群执行修复处理之后,目标集群的主节点。
[0155]
可选地,第四确定模块,在确定目标集群的第二主节点时,具体用于:
[0156]
从目标集群包括的除n个异常节点之外的至少一个节点中确定第二主节点。
[0157]
可选地,历史时间区间包括第一时间区间和第二时间区间;第一确定模块502,具体用于:
[0158]
对于各节点,根据节点在第一时间区间内对应的性能指标数据的平均值和节点在第二时间区间内对应的性能指标数据的平均值,确定节点对应的漂移偏差率。根据各节点对应的漂移偏差率,确定各节点对应的目标时间区间;目标时间区间为历史时间区间中对应节点未发生数据漂移现象的时间区间。据各节点在目标时间区间内对应的性能指标数据,确定第一基线阈值和第二基线阈值;第一基线阈值小于第二基线阈值。响应于存在至少一个节点在当前采样点的性能指标数据对应的数值大于第二基线阈值,或者小于第一基线阈值,将至少一个节点确定为目标节点。
[0159]
可选地,第一确定模块502,在根据各节点对应的漂移偏差率,确定各节点对应的目标时间区间时,具体用于:
[0160]
响应于漂移偏差率大于预设偏差率阈值,将第二时间区间确定为目标时间区间;或者,响应于漂移偏差率小于或等于预设偏差率阈值,将历史时间区间确定为目标时间区间。
[0161]
可选地,第三确定模块504,具体用于:
[0162]
获取各目标节点中当前采样点对应的异常因子大于第一预设因子阈值的第一目标节点,并确定第一目标节点为异常节点。获取各目标节点中当前采样点对应的异常因子小于或等于第一预设因子阈值,且大于第二预设因子阈值的第二目标节点,并确定第二目标节点中在预设时长内对应的多个异常因子均大于预设因子阈值的第三目标节点为异常节点。
[0163]
可选地,性能指标数据包括随机选择的第一性能指标和第二性能指标,集群修复装置500还包括:
[0164]
第五确定模块,用于根据第二目标节点在预设时长的各采样点对应的第一性能指标和第二性能指标,以及第二目标节点在目标时间区间内各采样点对应的第一性能指标的
平均值和第二性能指标的平均值,确定第二目标节点在预设时长内对应的多个异常因子;目标时间区间为历史时间区间中第二目标节点未发生数据漂移现象的时间区间。
[0165]
图6为本技术实施例提供的电子设备的结构示意图之一,如图6所示,该电子设备600包括:存储器601及处理器602。
[0166]
处理器602及存储器601电路互联;
[0167]
存储器601存储计算机执行指令;
[0168]
处理器602执行存储器601存储的计算机执行指令,使得处理器602执行上述任意实施例提供的方法。
[0169]
在示例性实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行上述任意一个实施例中的方法。
[0170]
在示例性实施例中,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行上述任意一个实施例中的方法。
[0171]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
[0172]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。

技术特征:
1.一种集群修复方法,其特征在于,包括:获取目标集群中每个节点在预设的历史时间区间内对应的性能指标数据;根据各所述性能指标数据,确定所述目标集群中的m个目标节点;所述目标节点为性能指标数据异常的节点,m为大于或等于1的正整数;根据各目标节点对应的性能指标数据的平均值确定各目标节点在当前采样点对应的异常因子;根据所述各目标节点在当前采样点对应的异常因子,确定所述m个目标节点中的n个节点为异常节点,n为小于或等于m的正整数;根据所述目标集群的集群信息及n个异常节点,对所述目标集群执行修复处理。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标集群的集群信息及n个异常节点,对所述目标集群执行修复处理,包括:根据所述集群信息表征的节点的数量和所述n个异常节点,替换所述目标集群中的n个异常节点或者排除所述目标集群中的n个异常节点。3.根据权利要求2所述的方法,其特征在于,所述根据所述集群信息表征的节点的数量和所述n个异常节点,替换所述目标集群中的n个异常节点或者排除所述目标集群中的n个异常节点,包括:若所述集群信息表征的节点的数量与n之间的差值小于或等于预设数量阈值,则应用第一集群中的n个节点替换所述n个异常节点;所述第一集群与所述目标集群部署于相同区域,且所述第一集群与所述目标集群部署于相同或不同的园区;若所述集群信息表征的节点的数量与n之间的差值大于预设数量阈值,则在所述目标集群中排除所述n个异常节点或者应用第二集群中的n个节点替换所述n个异常节点;所述第二集群为与所述目标集群部署于同一地域不同园区的多个集群中包括的节点数量最少的集群。4.根据权利要求3所述的方法,其特征在于,响应于所述集群信息表征所述目标集群存在节点主从关系,对所述目标集群执行修复处理之后,所述方法还包括:若确定n个异常节包括第一主节点,则确定所述目标集群的第二主节点;其中,所述第一主节点为对所述目标集群执行修复处理之前,所述目标集群的主节点;所述第二主节点为对所述目标集群执行修复处理之后,所述目标集群的主节点。5.根据权利要求4所述的方法,其特征在于,所述确定所述目标集群的第二主节点,包括:从所述目标集群包括的除所述n个异常节点之外的至少一个节点中确定第二主节点。6.根据权利要求1所述的方法,其特征在于,所述历史时间区间包括第一时间区间和第二时间区间;所述根据各所述性能指标数据,确定所述目标集群中的m个目标节点,包括:对于各所述节点,根据所述节点在第一时间区间内对应的性能指标数据的平均值和所述节点在第二时间区间内对应的性能指标数据的平均值,确定所述节点对应的漂移偏差率;根据各所述节点对应的漂移偏差率,确定各所述节点对应的目标时间区间;所述目标时间区间为所述历史时间区间中对应节点未发生数据漂移现象的时间区间;根据各所述节点在所述目标时间区间内对应的性能指标数据,确定第一基线阈值和第
二基线阈值;所述第一基线阈值小于所述第二基线阈值;响应于存在至少一个节点在所述当前采样点的性能指标数据对应的数值大于所述第二基线阈值,或者小于所述第一基线阈值,将至少一个节点确定为目标节点。7.根据权利要求6所述的方法,其特征在于,所述根据各所述节点对应的漂移偏差率,确定各所述节点对应的目标时间区间,包括:响应于所述漂移偏差率大于预设偏差率阈值,将所述第二时间区间确定为所述目标时间区间;或者,响应于所述漂移偏差率小于或等于预设偏差率阈值,将所述历史时间区间确定为所述目标时间区间。8.根据权利要求1所述的方法,其特征在于,所述根据所述各目标节点在当前采样点对应的异常因子,确定所述m个目标节点中的n个节点为异常节点,包括:获取所述各目标节点中当前采样点对应的异常因子大于第一预设因子阈值的第一目标节点,并确定所述第一目标节点为异常节点;获取所述各目标节点中当前采样点对应的异常因子小于或等于第一预设因子阈值,且大于第二预设因子阈值的第二目标节点,并确定所述第二目标节点中在预设时长内对应的多个异常因子均大于预设因子阈值的第三目标节点为异常节点。9.根据权利要求8所述的方法,其特征在于,所述性能指标数据包括随机选择的第一性能指标和第二性能指标,所述确定所述第二目标节点中在预设时长内对应的多个异常因子均大于预设因子阈值的第三目标节点为异常节点之前,所述方法还包括:根据所述第二目标节点在预设时长的各采样点对应的第一性能指标和第二性能指标,以及所述第二目标节点在目标时间区间内各采样点对应的第一性能指标的平均值和第二性能指标的平均值,确定所述第二目标节点在预设时长内对应的多个异常因子;所述目标时间区间为所述历史时间区间中第二目标节点未发生数据漂移现象的时间区间。10.一种集群修复装置,其特征在于,包括:获取模块,用于获取目标集群中每个节点在预设的历史时间区间内对应的性能指标数据;第一确定模块,用于根据各所述性能指标数据,确定所述目标集群中的m个目标节点;所述目标节点为性能指标数据异常的节点,m为大于或等于1的正整数;第二确定模块,用于根据各目标节点对应的性能指标数据的平均值确定所述各目标节点在当前采样点对应的异常因子;第三确定模块,用于根据所述各目标节点在当前采样点对应的异常因子,确定所述m个目标节点中的n个节点为异常节点;n为小于或等于m的正整数;处理模块,用于根据所述目标集群的集群信息及n个异常节点,对所述目标集群执行修复处理。11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至9任一项所述的方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机
执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的方法。

技术总结
本申请提供一种集群修复方法、装置、电子设备和存储介质,涉及金融科技领域或其他领域。该方法包括:获取目标集群中每个节点在预设的历史时间区间内对应的性能指标数据;根据各性能指标数据,确定目标集群中的M个目标节点;目标节点为性能指标数据异常的节点,M为大于或等于1的正整数;根据各目标节点对应的性能指标数据的平均值确定各目标节点在当前采样点对应的异常因子;根据各目标节点在当前采样点对应的异常因子,确定M个目标节点中的N个节点为异常节点,N为小于或等于M的正整数;根据目标集群的集群信息及N个异常节点,对目标集群执行修复处理。本申请的方法,降低了集群修复时长,提高了集群修复的效率。提高了集群修复的效率。提高了集群修复的效率。


技术研发人员:薛嘉锐 陈凌云 畅彤 潘跃辉
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.05.25
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐