一种高性能计算集群的联网与管理装置及其使用方法与流程

未命名 08-02 阅读:118 评论:0


1.本发明涉及一种高性能计算集群的联网与管理装置及其使用方法,属于高性能计算集群技术领域。


背景技术:

2.计算机集群系统简称集群,是一种计算机系统,它通过一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作,在某种意义上,他们可以被看作是一台计算机。
3.在公开号为cn113934540a的中国专利申请公开了一种高性能计算集群的联网与管理装置及其使用方法,该联网与管理装置,应用于高性能计算集群,包括中央处理器、存储器、外接接口以及网络适配器,中央处理器分别与存储器、外接接口以及网络适配器通信连接,网络适配器与高性能计算集群的服务器通信连接,且网络适配器通信连接有路由器,路由器通信连接有外部的互联网,外接接口通信连接有外部的外接设备。
4.上述现有集群系统的管理系统和方法,大多将单一的计算机集群资源进行单一化的管理,然而通过单一的集群管理机制很难实现集群系统的协同优化,造成管理中的灵活性差、自主性低、可扩展性差以及复杂性低等问题。


技术实现要素:

5.本发明要解决的技术问题是:提供一种高性能计算集群的联网与管理装置及其使用方法,灵活性好、自主性高、可扩展性优异,解决现有技术中存在的技术问题。
6.本发明采取的技术方案为:一种高性能计算集群的联网与管理装置,包括柜体、计算集群系统、管理系统以及联网系统;
7.计算集群系统、管理系统以及联网系统均包括多个个体,且每个个体设置在一个柜体中,计算集群系统连接联网系统以及管理系统,联网系统连接管理系统;
8.其中,管理系统用于管理计算集群系统,管理系统包括:
9.集群选择模块,用于对计算集群进行筛选,得到若干最优计算集群;
10.计算集群管理模块,用于储存管理模型;
11.管理模型包括集群健康模型、集群资源模型以及残留pod模型;
12.集群资源模型如下:
[0013][0014][0015][0016]
式中,j1表示集群资源使用的目标量,表示第t个管理期第n个计算机的资源使
用量,n表示集群中计算机的数量,t表示管理期的总数,q
min
以及q
max
是计算机资源使用量的最小与最大约束值,q
cons
表示计算机资源使用过程中所需资源的最小值;
[0017]
残留pod模型如下所示:
[0018]
j2=[(pod
end-pod
ini
)/pod
ini
]
×
100%
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0019][0020]
式中,j2表示集群系统中terminating pod的残留率,pod
ini
表示初始状态下集群系统中的terminating pod的残留量,pod
end
表示管理期末集群系统中的terminating pod的残留量,表示第t个管理期末第i个监测点的占用应用容量值,c
max
表示监测点占用应用容量最大约束值;
[0021]
其中,pod的全称为terminating pod,在集群系统工作的过程中,残留的pod的数量是大量的,这些残留的pod会占用大量的容量,也必须通过衡量残留的pod来评测管理系统的优越性;
[0022]
管理调度模块,用于获取集群系统的load值,并预测计算集群系统负荷;
[0023]
管理调度模块存储有集群管理训练优化模型;
[0024]
集群管理训练优化模型包括资源占用优化模型、资源利用率优化模型和资源损耗优化模型;
[0025]
集群管理训练优化模型接收到计算集群系统负荷后,输出管理调度优化方案;
[0026]
管理调度模块接收管理系统预设的策略,执行管理调度优化方案,得出最优管理调度优化方案,并将管理调度优化方案送入计算集群系统中执行。
[0027]
其中,本发明首先通过对计算集群进行筛选,得到若干最优计算集群,并在此基础上,提出了三种集群的管理模型,分别是集群健康模型、集群资源模型以及残留pod模型,以实现提高集群健康度,优化使用集群资源,减少pod残留量的目标,同时,提出了逐步达到四个目标协同实现的方法,并在集群管理训练优化中,提出了三种集群管理训练优化模型,实现了集群资源分配与利用集群个体之间的相互耦合,以达到提高灵活性和自主性,优化可扩展性,以及达到更复杂的集群关系。
[0028]
进一步地,上述柜体上设置有柜门,柜门上触控板;
[0029]
其中,触控板连接管理系统,能够通过触控板对管理系统进行简单的操控。
[0030]
进一步地,上述集群健康模型如下:
[0031][0032][0033]wt
x=log(p
odd
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0034][0035]
式中,h1表示集群系统健康率,h表示集群系统的健康状态是正常状态的概率,1-h表示集群系统的健康状态是不正常状态的概率,y表示计算机状态,x(x1,x2,x3,...,xn)表
示状态参数变量,p
odd
表示发生比,其中w=(w1,w2,w3,...,wn)为模型参数,n为状态参数x(x1,x2,...,xi,...,x
n)
的个数;p表示概率系数。
[0036]
其中,集群健康度现有healthy/warning/fatal三个值来描述,warning和fatal对应着告警体系,比如p2告警发生,那集群就是warning;如果p0告警发生,那集群就是fatal,必须进行处理,healthy则是对应集群系统的健康度。
[0037]
管理系统还包括:
[0038]
管理模型模,用于基于构建的管理模型,在决策变量空间生成初始训练样本并训练替代模型;
[0039]
多目标优化模块,用于基于自适应替代模型的多目标进化算法搜索决策变量空间,通过管理模型评价子代种群;
[0040]
局部搜索优选pareto解模块,用于判断是否进行局部搜索,对局部搜索后的pareto解采用数值模型重新评价;
[0041]
自适应训练模块,用于更新训练数据集并重新训练替代模型;
[0042]
其中,在多目标优化过程中依据超体积改善指标与拥挤度指标优选pareto解并更新训练数据集以适应性训练替代模型,提升了替代模型在pareto最优解附近的预测精度,避免替代模型的预测误差对pareto解最优性的影响。
[0043]
进一步地,上述替代模型的精度如下:
[0044][0045][0046]
式中,y
f,i
与y
o,i
分别是表示替代模型与管理模型的第i个样本的计算值;y
fm
与y
om
分别表示替代模型与管理模型的所有计算值的均值;n表示样本数量。
[0047]
进一步地,上述资源占用优化模型如下:
[0048][0049]
式中,j3表示资源占用量;
[0050]
其中,参数参数分别如下:
[0051][0052][0053]
式中,以及表示正系数,表示第i个集群中的个体在t时刻所占用的cpu资源,表示第i个集群中的个体在t时刻所占用的内存资源,表示第i个集群中的个体在t时刻所占用的存储资源,表示第i
个集群中的个体存储的资源,表示第i个集群中的个体在t时刻的内存量,表示第i个集群中的个体在t时刻的存储量;
[0054]
进一步地,上述资源利用率优化模型如下:
[0055][0056]
式中,j4表示集群系统对于资源的利用率,λ1表示系数;表示为集群系统需求的资源类型;表示第i个集群中的个体的资源供应量;表示第i个集群中的个体的资源占用量。
[0057]
进一步地,上述资源损耗优化模型如下:
[0058][0059]
式中,j5表示资源损耗,与表示集群系统之间个体的资源交换,即个体之间发生资源交换,才有资源损耗;
[0060]
一种高性能计算集群的联网与管理装置的使用方法,包括以下步骤:
[0061]
对计算集群进行筛选,得到若干最优计算集群;
[0062]
获取集群系统的load值,并预测计算集群系统负荷;
[0063]
采用管理调度模块存储有集群管理训练优化模型;集群管理训练优化模型包括资源占用优化模型、资源利用率优化模型、资源损耗优化模型、资源质量优化模型;
[0064]
集群管理训练优化模型接收到计算集群系统负荷后,输出管理调度优化方案;
[0065]
采用管理调度模块接收管理系统预设的策略,执行管理调度优化方案,得出最优管理调度优化方案,并将管理调度优化方案送入计算集群系统中执行。
[0066]
本发明的有益效果:与现有技术相比,本发明首先通过对计算集群进行筛选,得到若干最优计算集群,并在此基础上,提出了三种集群的管理模型,分别是集群健康模型、集群资源模型以及残留pod模型,以实现提高集群健康度,优化使用集群资源,减少pod残留量的目标,同时,提出了逐步达到四个目标协同实现的方法,并在集群管理训练优化中,提出了三种集群管理训练优化模型,实现了集群资源分配与利用集群个体之间的相互耦合,以达到提高灵活性和自主性,优化可扩展性,以及达到更复杂的集群关系。
附图说明
[0067]
图1为一种高性能计算集群的联网与管理装置的立体结构示意图;
[0068]
图2为一种高性能计算集群的联网与管理装置的正视结构示意图;
[0069]
图3为一种高性能计算集群的联网与管理装置的后视结构示意图;
[0070]
图4为一种高性能计算集群的联网与管理装置的管理系统框图;
[0071]
图5为一种高性能计算集群的联网与管理装置的使用方法流程图。
[0072]
图中:110、柜体;120、计算集群系统;130、管理系统;1301、集群选择模块;1302、计算集群管理模块;1303、管理调度模块;1304、管理模型模块;1305、多目标优化模块;1306、局部搜索优选pareto解模块;1307、自适应训练模块;140、联网系统;210、柜门;220、触控
板。
具体实施方式
[0073]
下面结合附图及具体的实施例对本发明进行进一步介绍。
[0074]
实施例1:如图1-5所示,一种高性能计算集群的联网与管理装置,包括柜体110、计算集群系统120、管理系统130以及联网系统140;
[0075]
计算集群系统120、管理系统130以及联网系统140均包括多个个体,且每个个体设置在一个柜体110中,计算集群系统120连接联网系统140以及管理系统130,联网系统140连接管理系统130;
[0076]
其中,管理系统130用于管理计算集群系统120,管理系统130包括:
[0077]
集群选择模块1301,用于对计算集群进行筛选,得到若干最优计算集群;
[0078]
计算集群管理模块1302,用于储存管理模型;
[0079]
其中,管理模型包括集群健康模型、集群资源模型以及残留pod模型;
[0080]
集群资源模型如下:
[0081][0082][0083][0084]
式中,j1表示集群资源使用的目标量,表示第t个管理期第n个计算机的资源使用量,n表示集群中计算机的数量,t表示管理期的总数,q
min
以及q
max
是计算机资源使用量的最小与最大约束值,q
cons
表示计算机资源使用过程中所需资源的最小值;
[0085]
残留pod模型如下:
[0086]
j2=[(pod
end-pod
ini
)/pod
ini
]
×
100%
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0087][0088]
式中,j2表示集群系统中terminating pod的残留率,pod
ini
表示初始状态下集群系统中的terminating pod的残留量,pod
end
表示管理期末集群系统中的terminating pod的残留量,表示第t个管理期末第i个监测点的占用应用容量值,cmax表示监测点占用应用容量最大约束值;
[0089]
其中,pod的全称为terminating pod,在集群系统工作的过程中,残留的pod的数量是大量的,这些残留的pod会占用大量的容量,也必须通过衡量残留的pod来评测管理系统130的优越性;
[0090]
管理调度模块1303,用于获取集群系统的load值,并预测计算集群系统120负荷;
[0091]
管理调度模块1303存储有集群管理训练优化模型;
[0092]
其中,集群管理训练优化模型包括资源占用优化模型、资源利用率优化模型、资源损耗优化模型;
[0093]
集群管理训练优化模型接收到计算集群系统120负荷后,输出管理调度优化方案;
[0094]
管理调度模块1303接收管理系统130预设的策略,执行管理调度优化方案,得出最优管理调度优化方案,并将管理调度优化方案送入计算集群系统120中执行。
[0095]
上述柜体110上设置有柜门210,柜门210上触控板220;
[0096]
其中,触控板220连接管理系统130,能够通过触控板220对管理系统130进行简单的操控。
[0097]
集群健康模型如下:
[0098][0099][0100]wt
x=log(p
odd
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0101][0102]
式中,h1表示集群系统健康率,h表示集群系统的健康状态是正常状态的概率,1-h表示集群系统的健康状态是不正常状态的概率,y表示计算机状态,x(x1,x2,x3,...,xn)表示状态参数变量,p
odd
表示发生比,其中w=(w1,w2,w3,...,wn)为模型参数,n为状态参数x(x1,x2,...,xi,...,x
n)
的个数;
[0103]
其中,集群健康度现有healthy/warning/fatal三个值来描述,warning和fatal对应着告警体系,比如p2告警发生,那集群就是warning;如果p0告警发生,那集群就是fatal,必须进行处理,healthy则是对应集群系统的健康度。
[0104]
管理系统还包括:
[0105]
管理模型模块1304,用于基于构建的管理模型,在决策变量空间生成初始训练样本并训练替代模型;
[0106]
多目标优化模块1305,用于基于自适应替代模型的多目标进化算法搜索决策变量空间,通过管理模型评价子代种群;
[0107]
局部搜索优选pareto解模块1306,用于判断是否进行局部搜索,对局部搜索后的pareto解采用数值模型重新评价;
[0108]
自适应训练模块1307,用于更新训练数据集并重新训练替代模型;
[0109]
其中,在多目标优化过程中依据超体积改善指标与拥挤度指标优选pareto解并更新训练数据集以适应性训练替代模型,提升了替代模型在pareto最优解附近的预测精度,避免替代模型的预测误差对pareto解最优性的影响。
[0110]
上述替代模型的精度如下:
[0111]
[0112][0113]
式中,y
f,i
与y
o,i
分别是表示替代模型与管理模型的第i个样本的计算值;y
fm
与y
om
分别表示替代模型与管理模型的所有计算值的均值;n表示样本数量。
[0114]
上述资源占用优化模型如下:
[0115][0116]
式中,j3表示资源占用量;
[0117]
其中,参数参数分别如下所示:
[0118][0119][0120]
式中,以及表示正系数,表示第i个集群中的个体在t时刻所占用的cpu资源,表示第i个集群中的个体在t时刻所占用的内存资源,表示第i个集群中的个体在t时刻所占用的存储资源,表示第i个集群中的个体存储的资源,表示第i个集群中的个体在t时刻的内存量,表示第i个集群中的个体在t时刻的存储量;
[0121]
其中,资源占用优化模型的约束条件如下所示:
[0122][0123][0124][0125][0126]
式中,以及分别表示第i个集群中的个体在t时刻的释放的资源量;以及分别表示第i个集群中的个体在t时刻的使用的资源量;以及分别表示第i个集群中的个体的资源负荷量以及个体量;以及分别表示第i个集群中的个体的资源供应
的不同类型;以及分别表示第i个集群中的个体所具有的不同资源量;分别表示集群系统需求的不同资源类型;表示为第i个集群中的个体的资源负荷总数,表示在第i个集群中的个体在t时刻的预计资源使用量、表示表示第i个集群中的个体在t时刻使用的不同资源种类;
[0127]
资源利用率优化模型如下:
[0128][0129]
式中,j4表示集群系统对于资源的利用率,λ1表示系数;表示为集群系统需求的资源类型;表示第i个集群中的个体的资源供应量;表示第i个集群中的个体的资源占用量。
[0130]
资源利用率优化模型如下所示:
[0131]
(14a)-(14d)
[0132][0133][0134][0135]
式中,常数ξi>0;参数ζi<0,和表示第i个集群中的个体能使用的不同资源量的最大值以及最小值;
[0136]
资源损耗优化模型如下:
[0137][0138]
式中,j5表示资源损耗,与表示集群系统之间个体的资源交换;
[0139]
实施例2:如图5所示,一种高性能计算集群的联网与管理装置的使用方法,包括以下步骤:
[0140]
对计算集群进行筛选,得到若干最优计算集群;
[0141]
获取集群系统的load值,并预测计算集群系统120负荷;
[0142]
采用管理调度模块1303存储集群管理训练优化模型;集群管理训练优化模型包括资源占用优化模型、资源利用率优化模型、资源损耗优化模型、资源质量优化模型;
[0143]
集群管理训练优化模型接收到计算集群系统120负荷后,输出管理调度优化方案;
[0144]
采用管理调度模块1303接收管理系统130预设的策略,执行管理调度优化方案,得出最优管理调度优化方案,并将管理调度优化方案送入计算集群系统120中执行。
[0145]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种高性能计算集群的联网与管理装置,其特征在于,包括柜体(110)、计算集群系统(120)、管理系统(130)以及联网系统(140);所述计算集群系统(120)、管理系统(130)以及联网系统(140)均包括多个个体,且每个个体设置在一个柜体(110)中,所述计算集群系统(120)连接联网系统(140)以及管理系统(130),所述联网系统(140)连接管理系统(130);所述管理系统(130)用于管理计算集群系统(120),所述管理系统(130)包括:集群选择模块(1301),用于对计算集群进行筛选,得到若干最优计算集群;计算集群管理模块(1302),用于储存管理模型;所述管理模型包括集群健康模型、集群资源模型以及残留pod模型;集群资源模型如下:集群资源模型如下:集群资源模型如下:式中,j1表示集群资源使用的目标量,表示第t个管理期第n个计算机的资源使用量,n表示集群中计算机的数量,t表示管理期的总数,q
min
以及q
max
是计算机资源使用量的最小与最大约束值,q
cons
表示计算机资源使用过程中所需资源的最小值;残留pod模型如下:j2=[(pod
end-pod
ini
)/pod
ini
]
×
100%
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)式中,j2表示集群系统中terminating pod的残留率,pod
ini
表示初始状态下集群系统中的terminating pod的残留量,pod
end
表示管理期末集群系统中的terminating pod的残留量,表示第t个管理期末第i个监测点的占用应用容量值,c
max
表示监测点占用应用容量最大约束值;管理调度模块(1303),用于获取集群系统的load值,并预测计算集群系统(120)负荷;所述管理调度模块(1303)存储有集群管理训练优化模型;集群管理训练优化模型包括资源占用优化模型、资源利用率优化模型和资源损耗优化模型;所述集群管理训练优化模型接收到计算集群系统(120)负荷后,输出管理调度优化方案;所述管理调度模块(1303)接收管理系统(130)预设的策略,执行管理调度优化方案,得出最优管理调度优化方案,并将管理调度优化方案送入计算集群系统(120)中执行。2.根据权利要求1所述的一种高性能计算集群的联网与管理装置,其特征在于:所示柜体(110)上设置有柜门(210),所述柜门(210)上触控板(220)。3.根据权利要求1所述的一种高性能计算集群的联网与管理装置,其特征在于:所述集群健康模型如下:
w
t
x=log(p
odd
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)式中,h1表示集群系统健康率,h表示集群系统的健康状态是正常状态的概率,1-h表示集群系统的健康状态是不正常状态的概率,y表示计算机状态,x(x1,x2,x3,...,x
n
)表示状态参数变量,p
odd
表示发生比,其中w=(w1,w2,w3,...,w
n
)为模型参数,n为状态参数x(x1,x2,...,x
i
,...,x
n)
的个数;p表示概率系数。4.根据权利要求1所述的一种高性能计算集群的联网与管理装置,其特征在于:所述管理系统还包括:管理模型模块(1304),用于基于构建的管理模型,在决策变量空间生成初始训练样本并训练替代模型;多目标优化模块(1305),用于基于自适应替代模型的多目标进化算法搜索决策变量空间,通过管理模型评价子代种群;局部搜索优选pareto解模块(1306),用于判断是否进行局部搜索,对局部搜索后的pareto解采用数值模型重新评价;自适应训练模块(1307),用于更新训练数据集并重新训练替代模型。5.根据权利要求1所述的一种高性能计算集群的联网与管理装置,其特征在于:所述替代模型的精度如下:代模型的精度如下:式中,y
f,i
与y
o,i
分别是表示替代模型与管理模型的第i个样本的计算值;y
fm
与y
om
分别表示替代模型与管理模型的所有计算值的均值;n表示样本数量。6.根据权利要求1或5所述的一种高性能计算集群的联网与管理装置,其特征在于:所述资源占用优化模型如下:式中,j3表示资源占用量;其中,参数参数分别如下:
式中,以及表示正系数,表示第i个集群中的个体在t时刻所占用的cpu资源,表示第i个集群中的个体在t时刻所占用的内存资源,表示第i个集群中的个体在t时刻所占用的存储资源,表示第i个集群中的个体存储的资源,表示第i个集群中的个体在t时刻的内存量,表示第i个集群中的个体在t时刻的存储量;资源利用率优化模型如下:式中,j4表示集群系统对于资源的利用率,λ1表示系数;表示为集群系统需求的资源类型;表示第i个集群中的个体的资源供应量;表示第i个集群中的个体的资源占用量。7.根据权利要求1或5所述的一种高性能计算集群的联网与管理装置,其特征在于:资源损耗优化模型如下:式中,j5表示资源损耗,与表示集群系统之间个体的资源交换。8.一种高性能计算集群的联网与管理装置的使用方法,其特征在于:包括以下步骤:对计算集群进行筛选,得到若干最优计算集群;获取集群系统的load值,并预测计算集群系统(120)负荷;采用管理调度模块(1303)存储集群管理训练优化模型;集群管理训练优化模型包括资源占用优化模型、资源利用率优化模型、资源损耗优化模型、资源质量优化模型;所述集群管理训练优化模型接收到计算集群系统(120)负荷后,输出管理调度优化方案;采用管理调度模块(1303)接收管理系统(130)预设的策略,执行管理调度优化方案,得出最优管理调度优化方案,并将管理调度优化方案送入计算集群系统(120)中执行。

技术总结
本发明公开了一种高性能计算集群的联网与管理装置及其使用方法,涉及高性能计算系统可靠性评估领域,包括柜体、计算集群系统、管理系统以及联网系统,通过对计算集群进行筛选,得到若干最优计算集群,并在此基础上,提出了三种集群的管理模型,分别是集群健康模型、集群资源模型以及残留Pod模型,以实现提高集群健康度,优化使用集群资源,减少Pod残留量的目标,同时,提出了逐步达到四个目标协同实现的方法,并在集群管理训练优化中,提出了三种集群管理训练优化模型,实现了集群资源分配与利用集群个体之间的相互耦合,以达到提高灵活性和自主性,优化可扩展性,以及达到更复杂的集群关系。群关系。群关系。


技术研发人员:王策 甘润东 卫薇 龙玉江 王杰峰 李洵 钟掖 龙娜 吴忠
受保护的技术使用者:贵州电网有限责任公司
技术研发日:2023.05.08
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐