一种业务系统的异常处理方法、电子装置、设备及存储介质与流程
未命名
10-22
阅读:57
评论:0
1.本发明属于风控技术领域,尤其涉及一种业务系统的异常处理方法、电子装置、设备及存储介质。
背景技术:
2.随着业务系统的应用功能越来越复杂,很多业务流程的异动都有可能引发预期外的故障,技术人员在不断补充业务自定义监控的同时,也造成了监控对象日益增多而带来诸多弊端。比如,由于应用的复杂程度提高,导致人工难以梳理同一应用下的监控关系,且根因分析十分困难;再比如,随着监控数的增多,很容易发生告警风暴,导致人工处理不过来,即低效又浪费资源。
3.为此,当前亟需一种应用于业务系统的由机器自动化执行的异常处理方案。
技术实现要素:
4.本说明书实施例提供了一种业务系统的异常处理方法、电子装置、设备及存储介质,能够代替人工对业务系统中各监控项导致异常的因果关系进行分析,并有针对性地对异常根因或者对异常有重要影响的高价值监控项执行异常处理策略。
5.为上述发明目的,本说明书实施例是这样实现的:
6.第一方面,提出了一种业务系统的异常处理方法,包括:
7.对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,其中,所述异常检测样本包含有监控项的异常检测数据;
8.基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,其中,所述有向关系图的节点表示监控项,所述有向关系图的有向边表示监控项之间的因果关系指向;
9.基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度;
10.从所述多个监控项中选取出异常影响度达到预设标准的目标监控项,并对所述业务系统的目标监控项执行预设异常处理决策。
11.第二方面,提出了一种业务系统的异常处理装置,包括:
12.检测模块,对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,其中,所述异常检测样本包含有监控项的异常检测数据;
13.构图模块,基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项
与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,其中,所述有向关系图的节点表示监控项,所述有向关系图的有向边表示监控项之间的因果关系指向;
14.计算模块,基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度;
15.执行模块,从所述多个监控项中选取出异常影响度达到预设标准的目标监控项,并对所述业务系统的目标监控项执行预设异常处理决策。
16.本说明书实施例的方法能够使机器代替人工对业务系统中各监控项导致异常的因果关系进行分析,并有针对性地对异常根因或者对异常有重要影响的高价值监控项执行异常处理策略。具体地,方案首先对业务系统的多个监控项进行异常检测,收集得到异常检测样本集;之后,基于因果推理算法,确定目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,从而构建以监控项为节点、以因果关系指向为边的有向关系图。接下来,再进一步根据预先设置的有向关系图中每个节点到指向的其他节点的转移概率,构建有向关系图对应的节点分布函数,并对节点分布函数进行多轮迭代,以将有向关系图中每个节点在迭代后的分布函数中对应的分布概率确定为该节点的异常影响度;应理解,这种迭代方式考虑到了节点之间导致异常的因果关系,使得迭代后,不属于根因的节点对应有相对较低的分布概率,而属于根因的节点则对应有相对较高分布概率;进而,再以节点的分布概率作为异常影响度进行监控项筛选时,可以挖掘出异常根因或者对异常有重要影响的目标监控项,从而重点地对目标监控项执行相应的异常处理决策。比如,将业务系统的目标监控项作为异常防控对象进行推荐;或者,对业务系统中属于目标监控项下的多个待发起的异常告警进行聚合,并在聚合后统一进行发起,以减少告警风暴的产生。
附图说明
17.此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附
18.图中:
19.图1为本说明书实施例的异常处理方法的第一种流程示意图。
20.图2是本说明书实施例的异常处理方法所使用的有向关系图示例。
21.图3为本说明书实施例的异常处理方法部署在业务系统的架构示意图。
22.图4是本说明书实施例的异常处理方法的第二种流程示意图
23.图5为本说明书实施例的异常处理装置的结构示意图。
24.图6为本说明书实施例的电子设备的结构示意图。
具体实施方式
25.为使本文件的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例
及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本文件一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文件保护的范围。
26.如前所述,随着业务系统的应用功能越来越复杂,很多业务流程的异动都有可能引发预期外的故障,技术人员在不断补充业务自定义监控的同时,也造成了监控对象日益增多而带来诸多弊端。
27.比如,由于应用的复杂程度提高,导致人工难以梳理同一应用下的监控关系,且根因分析十分困难;再比如,随着监控数的增多,很容易发生告警风暴,导致人工处理不过来,即低效又浪费资源。
28.针对上述问题,本文件旨在提出一种应用于业务系统的由机器自动化执行的异常处理方案,能够代替人工对业务系统中各监控项导致异常的因果关系进行分析,并有针对性地对异常根因或者对异常有重要影响的高价值监控项执行异常处理策略。
29.一方面,本说明书一个实施例提供一种业务系统的异常处理方法。其中,图1是异常处理方法的流程示意图,具体包括如下步骤:
30.s102,对业务系统的多个监控项进行异常检测,得到多个监控项对应的异常检测样本集,并从多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,其中,异常检测样本包含有监控项的异常检测数据。
31.本实施例中,一个监控项可以对有一个监控维度,监控项可以包括其对应监控维度下细分的多种监控指标;比如,针对业务系统的处理资源的监控项,对应的监控指标可以包括业务系统的处理器资源、内存资源、硬盘资源等,这里本文作具体限定;
32.或者,一个监控项可以对有一个业务流程,监控项可以包括其对应业务流程中按步骤细分的监控指标;比如,针对业务系统的工费报销流程,对应的监控指标包括提交工费报销信息的步骤、审核工费报销信息的步骤以及结算工费的步骤。
33.应理解,监控项与监控指标的设定取决于业务系统的具体监控需求,这里本文不作具体限定。
34.具体地,本实施例可以针对监控项的每个监控指标部署埋点,以用于对相应的监控指标的时序数据进行采集。这里,本文将埋点采集得到的时序数据定义为埋点时序数据,本步骤可以根据多个监控项的埋点时序数据,从多个监控项中确定出异常的监控项(后文统称异常监控项);之后,将每个异常监控项的埋点时序数据作为一个属于异常的异常检测样本,以构建目标异常检测样本集。
35.显然,一个监控项是否异常,应根据其对应的各个监控指标来确定。这里,本实施例采用建立基线的方式,来评估监控指标是否异常,从而根据一个监控项中的监控指标异常占比,来该确定监控项是否异常。
36.在具体实施时,由于一个埋点即可代表一个监控指标,因此可以将每个监控项下超出历史基线(包括高于上限的历史基线或低于下限的历史基线)时长达到预设时长阈值的埋点时序数据确定为异常埋点时序数据;之后,将异常埋点时序数据占比超出预设占比阈值的监控项确定为异常监控项。
37.应理解,一些埋点时序数据可能在某一极短的时刻超出历史基线,但又瞬间恢复正常水平,这种数据“突刺”情况一般视作噪声,本实施例引入预设时长阈值的判定,可以有
效过滤掉噪声的影响。
38.s104,基于因果推理算法,确定目标异常检测样本集对应的每个监控项与目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到目标异常检测样本对应的有向关系图。
39.本实施例根据构建得到的有向关系图,来挖掘监控项的异常影响度。其中,有向关系图的节点表示监控项,有向关系图的有向边表示监控项之间的因果关系指向。
40.作为示例性介绍,参考图2所示的有向关系图,该有向关系图包括三个节点,即监控项1、2、3。其中,监控项1与监控项2之间的有向边由监控项2指向监控项1,说明了监控项2如果异常,则会导致监控项1也一起异常;监控项3与监控项2之间的有向边由监控项3指向监控项2,说明了监控项3如果异常,则会导致监控项2也一起异常。
41.显然,在收集到的异常检测样本集后,通过有向关系图的因果关系指向,可以提供根因挖掘的支持。
42.这里,本文采用因果推理算法来挖掘监控项之间的关系。下面对因果推理算法进行详细介绍。
43.具体地,本实施例采用pc算法来生成目标异常检测样本对应的有向关系图。pc算法是由peter spirtes和clark glymour一起提出的一种因果推理算法。pc算法的大致流程是先确定节点间的依赖关系(但不确定依赖关系的方向),从而生成一个无向关系图,然后再确定依赖关系的方向,把无向关系图扩展为有向关系图。
44.对于本实施例而言,可以将目标异常检测样本集对应的监控项作为有向关系图中节点,并通过pc算法中的条件独立性检验,来定目标异常检测样本集对应的每个节点与其他节点之间是否存在导致异常的因果关系。之后,基于因果推理算法中的d分隔,确定无向关系图中无向边对应的因果关系指向,以将无向关系图转换为有向关系图。
45.作为示例性介绍,pc算法有以下步骤:
46.步骤一、依赖关系确立
47.假设v是目标异常检测样本集对应的监控项的点集,在v上生成完全无向图g;
48.对于g中的两个相邻点i和j,如果i和j能在给定节点k时条件独立,则删除i和j之间的边,这样会得到一个对边进行初步过滤的无向图。
49.为了进行后续d分隔,需要对任意两个节点进行条件独立性检验。
50.其中,pc算法采用费舍尔测试fisher z tes作为条件独立性检验方法。fisher z test是一种相关性检验方法,pc算法中认为相关性检验这一堆随机变量整体上服从多元高斯分布,这时变量条件独立与变量之间的偏相关系数为0等价,所以可以用fisher z test进行条件独立性检验。
51.其中,偏相关系数指校正其它变量后某一变量与另一变量的相关关系,校正的意思可以理解为假定其它变量都取值为均数。任意两个变量i和j的h阶偏相关系数为:
[0052][0053]
为了判断ρ是否为0,需要将ρ通过fisher z变换转换成正态分布:
[0054][0055]
进一步,定义:
[0056]
零假设:ρ
i,j|k
≠0
[0057]
对立假设:ρ
i,j|k
=0
[0058]
然后给定一个显著性水平α∈(0,1),那么检验的规则为,如果有:
[0059]
则拒绝零假设,i和j关于k条件独立。其中,为累积分布函数。
[0060]
步骤二、d分隔
[0061]
对于有向关系图e,有两个节点x、y,和一个点集o,为了判断x和y是否关于o条件独立,考虑e中所有x和y之间的无向路径,对于其中一条路径,如果它满足以下两个条件中的任意一条,则称这条路径是阻塞的:
[0062]
条件1:路径中存在某个节点z是head-to-tial或tail-to-tail节点,且z包含在o中;
[0063]
其中,head-to-tial是指x
→z→
y或y
→z→
x这两种路径情况;tail-to-tail是指x
←z→
y这种路径情况;
[0064]
条件2:路径中存在某个节点z是head-to-head节点,且z没有被包含在o中;
[0065]
其中,head-to-head是指x
→z←
y这种路径情况。
[0066]
如果x和y间所有的路径都是阻塞的,那么x与y关于o条件独立;否则,x与y不关于o条件独立。
[0067]
由于已经记录了d分隔x和y的点集o,因此可以由d分隔的结论反推出贝叶斯网络中边的方向,方向的判断方法可以转换成以下三条规则:
[0068]
规则1:如果存在x
→
y-z,把其中的y-z变为y
→
z;
[0069]
规则2:如果存在x
→z→
y,把其中的x-y变为x
→
y;
[0070]
规则3:如果存在x-z1
→
y,x-z2
→
y,且z1与z2不相邻,把其中的x-y变为x
→
y。
[0071]
通过上述d分隔的三条规则,即可将目标异常检测样本集对应的无向关系图转换为有向关系图。
[0072]
应理解,生成的有向关系图因尽量避免双向边出现,双向边会导致因果关系的指向无效。这里,如果向关系图中存在双向边,则本实施例可以基于逻辑归回算法确定对双向边的两个方向各自的重要性,并移除相对次要的一个方向以将双向边转换为单向边。即,基于逻辑归回算法对双向边的两个节点进行二值化拟合,以确定双向边的两个节点各自的权重,其中,双向边的两个节点中,其中一个节点的二值化拟合结果与另一个节点的权重相关联。之后,移除双向边中低权重节点指向高权重节点的方向,从而使双向边转换为单向边。
[0073]
作为是示例性介绍,假设有一个节点di,其父节点有a1,a2,......,an。本实施例可以父节点a1,a2,......,an构建逻辑回归拟合节点di。其中,di的拟合公式如下:
[0074]di
=sigmoid(ω1ai+ω2a2…
+ω
nan
)。
[0075]
其中,ω为权重,ω1表示父节点a1对节点di造成的影响,ω2表示父节点a2对节点di造成的影响(其他以此类推)。对于双向边而言,其两个节点分别互为另一方的父节点。
[0076]
进一步假设一个双向边的两个节点为da和db。其中,da相对db的权重为ωa,db相对da的权重为ωb。
[0077]
若ωa》ωb,则保留双向边da到db的方向;反之,则保留双向边db到da的方向。
[0078]
s106,基于预先设置的有向关系图中每个节点到指向的其他节点的转移概率,构建有向关系图对应的节点分布函数,并对节点分布函数进行多轮迭代,以将有向关系图中每个节点在迭代后的分布函数中对应的分布概率确定为该节点的异常影响度。
[0079]
本步骤采用的是网页排名pagerank算法的原理,来计算有向关系图中每个节点的异常影响度。
[0080]
pagerank算法的基本思想是在有向图上定义一个随机游走模型,即一阶马尔可夫链,描述随机游走者沿着有向图随机访问各个节点的行为。在一定条件下,极限情况访问每个节点的概率收敛到平稳分布,这时各个节点的平稳概率值就是其pagerank值,表示节点的重要度。其主要思路如下:
[0081]
对于上述学习得到的有向关系图g*=(v,b),其中v和b分别表示节点和有向边的集合。在该向关系图g*定义一个一般的随机游走模型,即一阶马尔可夫链。其转移概率矩阵为有向图的基本转移矩阵m,表示从有向关系图中每个节点到指向的所有其他节点的转移概率相等,这个一般随机游走的马尔可夫链存在平稳分布,记作r。平稳节点分布函数r为这个有向图的一般pagerank。
[0082]
本实施例采用基于有向关系图的节点随机游走方式,对r进行多轮迭代
[0083]
其中,r由公式决定。
[0084]
上式中,d是阻尼因子;r是n维向量;1是所有分量为1的n维向量。一般pagerank的定义意味着按照以下方法在节点随机游走:
[0085]
任意一个节点上,以概率d进行节点跳转下一个节点,这是进一步以等概率选择指向的下一节点;或者以概率(1-d)决定完全随机跳转,这时以等概率1/n选择指向的下一节点该机制可以保证平稳分布。
[0086]
这里,将t定位迭代轮数,如果r
t
与r
t+1
满足预设的充分接近标准,则结束对r迭代。
[0087]
对于本实施例而言,有向关系图中每个节点在迭代后的所述平稳分布函数中对应的平稳分布概率即为该节点的pagerank值,节点的pagerank值视为其对应的异常影响度。
[0088]
应理解,上述迭代过程中,随机游走是按照有向边的方向来跳转到下一节点,因此计算的pagerank值考虑了节点之间导致异常的因果关系。即,不属于根因的节点,其对应的平稳分布概率相对较低,进而导致异常影响度也偏低;反之,属于根因的节点,其对应的平稳分布概率相对较高,进而导致异常影响度也偏高。
[0089]
此外,本实施例还可以在生成无向关系图的过程中,引入先验知识。先验知识提前确定有哪些节点(监控项)之间存在因果关系,可是基于数据的读写逻辑、计算逻辑、计算结果输出逻辑和业务逻辑等确定得到。即,在预先设置的节点之间是否可以存在因果关系的先验知识的约束下,根据条件独立性检验的判定结果,生成目标异常检测样本集对应的无向关系图。
[0090]
s108,从多个监控项中选取出异常影响度达到预设标准的目标监控项,并对业务系统的目标监控项执行预设异常处理决策。
[0091]
具体地,本步骤根据异常影响度由大到小的优先级顺序,从有向关系图中选取出
指定数量的监控项以作为目标监控项。
[0092]
如前所述,本实施例通过pagerank算法来计算有向关系图中各个节点的异常影响度,考虑到了节点之间导致异常的因果关系,因此挖掘出来的往往是异常根因或者对异常有重要影响的目标监控项。
[0093]
对于本实施例而言,对业务系统的目标监控项执行预设异常处理决策可以包括:
[0094]
1)将业务系统的目标监控项作为异常防控对象进行推荐;也就是提醒对目标监控项进行异常处理的重点布控,起到了机器学习高价值监控项以及机器预警的效果。
[0095]
2)对业务系统中属于目标监控项下的多个待发起的异常告警进行聚合,并在聚合后统一进行发起;通常情况下,业务系统中某个监控指标发生异常就会触发异常告警,而目标监控项下的监控指标其发起异常告警的频率相对较高,本实施例对属于目标监控项下的多个待发起的异常告警进行聚合可有效改善报警风暴的发生。
[0096]
基于上述内容可知:本说明书实施例的方法能够使机器代替人工对业务系统中各监控项导致异常的因果关系进行分析,并有针对性地对异常根因或者对异常有重要影响的高价值监控项执行异常处理策略。具体地,本说明书实施例的方法首先对业务系统的多个监控项进行异常检测,收集得到异常检测样本集;之后,基于因果推理算法,确定目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,从而构建以监控项为节点、以因果关系指向为边的有向关系图。接下来,再进一步根据预先设置的有向关系图中每个节点到指向的其他节点的转移概率,构建有向关系图对应的节点分布函数,并对节点分布函数进行多轮迭代,以将有向关系图中每个节点在迭代后的分布函数中对应的分布概率确定为该节点的异常影响度;应理解,这种迭代方式考虑到了节点之间导致异常的因果关系,使得迭代后,不属于根因的节点对应有相对较低的分布概率,而属于根因的节点则对应有相对较高分布概率;进而,再以节点的分布概率作为异常影响度进行监控项筛选时,可以挖掘出异常根因或者对异常有重要影响的目标监控项,从而重点地对目标监控项执行相应的异常处理决策。
[0097]
下面结合实际的应用场景,对本实施例方法在业务系统的实施方案进行介绍。
[0098]
本应用场景旨在以数据驱动算法自动化的学习监控关联关系,基于监控指标的时序数据,学习异常监控项,并基于监控项的异动情况,学习监控项之间的因果关系,进而根据因果关系实现监控项的推荐布防以及监控项告警聚合的效果。
[0099]
本应用场景主要包括三个主要组成部分:
[0100]
(1)对监控项的每个监控指标下挂metric(埋点)逐条进行异常检测,这里考虑到时效性和数据稀疏性要需求,采用建立异常基线的方式和一些辅助异常识别的方式解决。并对每条埋点时序数据的异常检测结果按监控项维度进行聚合。
[0101]
(2)利用监控项维度的异常聚合结果通过pc算法习得存在双向边的关系图,再通过业务沉淀的知识进行约束对边进行增删调整,最后通过逻辑回归的方法进行双向边去除。最终即可监控项之间的有向关系图。
[0102]
(3)利用(2)中获得的监控项间的有向关系图结合pagerank算法学习得每个监控项在图中的重要程度。
[0103]
最终(2)与(3)结合,即可输出节点为监控项的排障图,此排障图包含监控项间的有向关系及每个监控项的重要性,此图辅助后续巡检布防,告警聚合,根因定位等业务。
[0104]
对应地,参考图3所示,本应用场景的流程包括:
[0105]
阶段一,逐指标异常检测及聚合
[0106]
本阶段参考图4所示,首先对每个埋点时序数据进行异常检测,包括:
[0107]
对埋点时序数据进行稀疏性判断;其中,稀疏数据是指在数据集中绝大多数数值缺失或者为零的数据。应理解,缺失或者为零的稀疏数据并非无用数据,只是一种表达方式。
[0108]
如果埋点时序数据属于稀疏性数据,则根据非零值的历史埋点时序数据构建历史基线,也就是排除零值、缺失值这类历史埋点时序数据对历史基线造成的影响;如果埋点时序数据不属于稀疏性数据,则根据除去异常值的历史埋点时序数据构建历史基线。
[0109]
其中,作为一种可行的实现方式,可以根据监控指标的历史埋点时序数据的分位数,来确定该监控指标下埋点时序数据的历史基线。
[0110]
比如:
[0111]
历史基线上限=max(max(正常历史数据),percentile(f,98)),也就是将98分位数作为历史基线上限;
[0112]
基线阈值下限=min(min(正常历史数据),percentile(f,2)),也就是将2分位数作为历史基线下限。
[0113]
接下来,根据构建的历史基线,对埋点时序数据上涨下跌进行异常判断,并确定超出历史基线的异常持续时间;如果异常持续时间达到一定标准,则判断埋点时序数据异常,也就是该埋点时序数据对应的metric异常。
[0114]
需要说明是,在对埋点时序数据的上涨下跌异常进行判断时,持续时间极短的“突刺”通常应被视作噪声,故添加对异常持续时间的判断,只有连续“突刺”的数目达到了业务要求的持续“突刺”数量,和/或“突刺”达到持续时间的埋点时序数据视作异常c。
[0115]
通过上述的异常检测逻辑,可以输出单个metric在每个时间点的异常判断结果。之后,按照监控项维度对各metric的异常判断结果进行聚合,并将同一时段metric异常占比达到一定标准的监控项确定为异常监控项。
[0116]
这里,以图3中的监控项1为例。图3中监控项1挂n个metric指标,若时段t其下n个指标均发生异常,,则t时段监控项1的异常状态可以表示为:
[0117]
监控项
[0118]
上式中,0表示监控项1在时段正常,1表示监控项1在时段异常。
[0119]
可以看出,本阶段可以得到的异常点准确率更高,并有效防止监控项由于下挂metric过多而造成异常点被噪声淹没的情况。
[0120]
阶段二,监控项有向关系图学习
[0121]
本阶段针对异常监控项构建有向关系图;对应地,需要经过以下三个步骤:
[0122]
步骤1,利用异常监控项下的埋点时序数据,按照pc算法学习构建各异常监控项之间的双向边关系图。
[0123]
其中,pc算法是一种基于约束的因果学习算法。其具体流程是:
[0124]
将输入的埋点时序数据按照监控项进行归类,这样可以得到各监控项的点集。
[0125]
之后,再利用fisher z test对任意两个节点进行条件独立性检验,从而确定节点
间的依赖关系,进而构建一个无向图。
[0126]
接下来,在无向图中利用d分隔的原理来确定边的依赖方向,把无向图进一步扩展为完全部分有向无环图(completed partially directed acyclic graph,cpdag)。
[0127]
步骤2,在进行pc算法学习时,添加先验知识来帮助pc算法得到“符合业务预期”的关系图,以有意引导pc算法在一些边方向上的调整。
[0128]
本步骤引入先验知识为了避免在pc算法学习过程中,纯数据驱动会使监控指标少的监控项“更容易”指向监控指标多的监控项。
[0129]
其中,先验知识主要分为两种。一种为通用型知识,即为所有监控学习都需遵守和满足的通用型约束;另一种为业务可根据所负责应用独特的业务流程,来进行约束。
[0130]
针对通用型知识;所有的监控项按照类型都可以划分为数据层、计算层、引擎层、业务层。同时这四层也从上到下存在着影响的传递。比如,数据层负责基础数据或者缓存的读写,直接影响到计算层所使用的数据质量;计算层的计算效率以及返回结果直接影响到引擎层的执行逻辑;引擎层的执行逻辑直接影响到业务层的对外输出。
[0131]
基于这四大类分层,可以将以确定的异常监控项打标划分到这四层中,进行初次、成本最低的先验知识输入,辅助算法学习关联关系。
[0132]
针对业务流程知识;为了更加贴近业务预期,可以直接将业务流程作为先验知识进行输入。业务流程可以按照负责应用的处理逻辑进行构建,对于关键业务流程均可构建业务流程节点,业务流程天然有序,影响层层传递。业务流程构建好后,异常监控项按照所属业务流程节点进行打标即可,算法在学习监控项之间的关联关系时,即可基于业务流程知识对边的方向进行约束。
[0133]
需要说明的是,上述两项先验知识的约束交叉嵌套,且优先级上可以高于pc算法得到的关系图。
[0134]
步骤3,基于已经得到的异常监控项间的网络图关系,可以利用前文介绍逻辑回归的方式将有向关系图中双向边的转换为单向边;至此,即可得到异常监控项间的有向关系图。
[0135]
阶段三、监控项重要性学习
[0136]
本阶段在得到异常监控项间的有向关系图后,即可利用pagerank算法得到每个异常监控项节点的重要性大小,并根据重要性大小数值推荐有向关系图中的重要节点,以重点进行巡检布控。
[0137]
pagerank算法的基本想法是在有向图上定义一个随机游走模型,即一阶马尔可夫链,描述随机游走者沿着有向图随机访问各个结点的行为。在一定条件下,极限情况访问每个结点的概率收敛到平稳分布,这时各个结点的平稳概率值就是其pagerank值,表示结点的重要度。
[0138]
其中,监控项的pagerank值即反映了监控项的异常影响度;在将pagerank值导入至有向关系图后,有向关系图即刻视为异常监控项的排障图。
[0139]
应理解,在排障图中,通过pagerank值可以找到高价值的异常监控项,甚至是根因的异常监控项,这对于业务布控来讲具有较高的参考意义。
[0140]
综上所述,本应用场景的方案采用二值化方式来将指标下的异动情况进行代表,同时将监控下指标数据异动情况进行归并,直接计算出监控的异动情况,此过程中通过设
置一些异动占比来减弱监控下指标数过多带来的被影响程度增大的问题,该步骤直接将关联关系学习量级从指标数减少为监控数,决定性的提高了监控关联关系的学习的可能性。同时为了提高图的准确性,还支持人工先验知识的输入,提供了两种输入知识类型,提高了整体方案的可调整型以及结果的准确性,四层分层知识输入基本上是零经验即可上手,大大提高了易用性。此外,本应用场景的方案基于最终的监控关联关系图,可以快速筛选出业务输出监控以及根因监控,并对整张图利用pagerank算法计算节点在图中的重要性,快速将上述三种监控推荐布防;同时还支持添加未推荐布防的监控进行补充,达到充分布防的效果,避免了全量监控布防造成的资源不足的问题。显然,本实施例的方法对告警风暴的痛点,基于关联关系图,可直接通过节点查询关联监控项,将关联监控按照因果传播图顺序依次将告警进行排列聚合后对外统一输出,减少告警数量的同时,也为技术人员解决问题发现根因提供了帮助。
[0141]
对应于图1所示的方法,本说明书一个实施例提供一种业务系统的异常处理装置。其中,图5是异常处理装的结构示意图,包括:
[0142]
检测模块510,对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,其中,所述异常检测样本包含有监控项的异常检测数据。
[0143]
构图模块520,基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,其中,所述有向关系图的节点表示监控项,所述有向关系图的有向边表示监控项之间的因果关系指向。
[0144]
计算模块530,基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度。
[0145]
执行模块540,从所述多个监控项中选取出异常影响度达到预设标准的目标监控项,并对所述业务系统的目标监控项执行预设异常处理决策。
[0146]
本说明书实施例的装置能够使机器代替人工对业务系统中各监控项导致异常的因果关系进行分析,并有针对性地对异常根因或者对异常有重要影响的高价值监控项执行异常处理策略。具体地,本说明书实施例的装置首先对业务系统的多个监控项进行异常检测,收集得到异常检测样本集;之后,基于因果推理算法,确定目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,从而构建以监控项为节点、以因果关系指向为边的有向关系图。接下来,再进一步根据预先设置的有向关系图中每个节点到指向的其他节点的转移概率,构建有向关系图对应的节点分布函数,并对节点分布函数进行多轮迭代,以将有向关系图中每个节点在迭代后的分布函数中对应的分布概率确定为该节点的异常影响度;应理解,这种迭代方式考虑到了节点之间导致异常的因果关系,使得迭代后,不属于根因的节点对应有相对较低的分布概率,而属于根因的节点则对应有相对较高分布概率;进而,再以节点的分布概率作为异常影响度进行监控项筛选时,可以挖掘出异常根因或者对异常有重要影响的目标监控项,从而重点地对目标监控项执行相应的异常处理决策。
[0147]
可选地,检测模块510对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,包括:基于预先对业务系统中多个监控项设置的埋点,获取所述多个监控项的埋点时序数据,其中,每个监控项对应有至少一个埋点,且每个监控项下的一个埋点对应有所属监控项的一个监控指标;根据所述多个监控项的埋点时序数据,从所述多个监控项中确定出异常监控项;将每个异常监控项的埋点时序数据作为一个属于异常的异常检测样本,以构建目标异常检测样本集。
[0148]
进一步地,检测模块510根据所述多个监控项的埋点时序数据,从所述多个监控项中确定出异常监控项,包括:将每个监控项下超出历史基线时长达到预设时长阈值的埋点时序数据确定为异常埋点时序数据;在所述多个监控项中,将异常埋点时序数据占比超出预设占比阈值的监控项确定为异常监控项。
[0149]
其中,若所述多个监控项对应有稀疏性的埋点时序数据,则稀疏性的埋点时序数据的历史基线是基于对应的非零值的历史埋点时序数据所确定得到的。
[0150]
可选地,所述构算模块530基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度,包括:基于预先设置的所述向关系图的转移概率矩阵,构建所述有向关系图的平稳节点分布函数,其中,所述转移概率矩阵表示所述有向关系图中每个节点到指向的所有其他节点的转移概率相等;基于对所述有向关系图的节点随机游走,对所述平稳节点分布函数进行多轮迭代,并将所述有向关系图中每个节点在迭代后的所述平稳分布函数中对应的平稳分布概率确定为该节点的异常影响度。
[0151]
可选地,所述构图模块520基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,包括:基于因果推理算法中的条件独立性检验,判定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他节点监控项之间是否存在导致异常的因果关系;根据所述条件独立性检验的判定结果,生成所述目标异常检测样本集对应的无向关系图,其中,所述无向关系图的节点表示监控项,所述无向关系图的无向边表示监控项之间确定存在的因果关系;基于所述因果推理算法中的d分隔,确定所述无向关系图中无向边对应的因果关系指向,以将所述无向关系图转换为有向关系图。
[0152]
可选地,所述构图模块520根据每个节点与对应的其他节点之间是否存在因果关系的判定结果,生成所述目标异常检测样本集对应的无向关系图,包括:在预先设置的节点之间是否可以存在因果关系的先验知识的约束下,根据所述条件独立性检验的判定结果,生成所述目标异常检测样本集对应的无向关系图。
[0153]
其中,所述先验知识是基于以下至少一者逻辑确定得到的:
[0154]
数据的读写逻辑、计算逻辑、计算结果输出逻辑和业务逻辑。
[0155]
可选地,所述构图模块520在基于所述因果推理算法中的d分隔,确定所述无向关系图中无向边对应的因果关系指向,以将所述无向关系图转换为有向关系图后,还执行:若所述有向关系图中存在双向边,则基于逻辑归回算法对所述双向边的两个节点进行二值化
拟合,以确定所述双向边的两个节点各自的权重,其中,所述双向边的两个节点中,其中一个节点的二值化拟合结果与另一个节点的权重相关联;移除所述双向边中低权重节点指向高权重节点的方向,从而使所述双向边转换为单向边。
[0156]
可选地,执行模块540对所述业务系统的目标监控项执行预设异常处理决策,包括:将所述业务系统的目标监控项作为异常防控对象进行推荐;或者,对所述业务系统中属于目标监控项下的多个待发起的异常告警进行聚合,并在聚合后统一进行发起。
[0157]
应理解,本说明书实施例的业务系统的异常处理装置可以作为图1所示方法的执行主体,因此能够实现该方法中对应的步骤和功能,这里不再具体赘述。
[0158]
图6是本说明书的一个实施例提供的电子设备的结构示意图。请参考图6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(random-access memory,ram),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
[0159]
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0160]
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
[0161]
其中,处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成上述业务系统的异常处理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
[0162]
对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,其中,所述异常检测样本包含有监控项的异常检测数据。
[0163]
基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,其中,所述有向关系图的节点表示监控项,所述有向关系图的有向边表示监控项之间的因果关系指向。
[0164]
基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度。
[0165]
从所述多个监控项中选取出异常影响度达到预设标准的目标监控项,并对所述业务系统的目标监控项执行预设异常处理决策。
[0166]
本说明书实施例的电子设备能够使机器代替人工对业务系统中各监控项导致异常的因果关系进行分析,并有针对性地对异常根因或者对异常有重要影响的高价值监控项
执行异常处理策略。具体地,本说明书实施例的装置首先对业务系统的多个监控项进行异常检测,收集得到异常检测样本集;之后,基于因果推理算法,确定目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,从而构建以监控项为节点、以因果关系指向为边的有向关系图。接下来,再进一步根据预先设置的有向关系图中每个节点到指向的其他节点的转移概率,构建有向关系图对应的节点分布函数,并对节点分布函数进行多轮迭代,以将有向关系图中每个节点在迭代后的分布函数中对应的分布概率确定为该节点的异常影响度;应理解,这种迭代方式考虑到了节点之间导致异常的因果关系,使得迭代后,不属于根因的节点对应有相对较低的分布概率,而属于根因的节点则对应有相对较高分布概率;进而,再以节点的分布概率作为异常影响度进行监控项筛选时,可以挖掘出异常根因或者对异常有重要影响的目标监控项,从而重点地对目标监控项执行相应的异常处理决策。
[0167]
上述如本说明书图1所示实施例提示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0168]
该电子设备还可执行图1的联盟链中的状态备份方法,本说明书在此不再赘述。
[0169]
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
[0170]
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序。
[0171]
其中,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
[0172]
对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,其中,所述异常检测样本包含有监控项的异常检测数据。
[0173]
基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对
应的有向关系图,其中,所述有向关系图的节点表示监控项,所述有向关系图的有向边表示监控项之间的因果关系指向。
[0174]
基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度。
[0175]
从所述多个监控项中选取出异常影响度达到预设标准的目标监控项,并对所述业务系统的目标监控项执行预设异常处理决策。
[0176]
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
[0177]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0178]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0179]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0180]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
技术特征:
1.一种业务系统的异常处理方法,包括:对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,其中,所述异常检测样本包含有监控项的异常检测数据;基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,其中,所述有向关系图的节点表示监控项,所述有向关系图的有向边表示监控项之间的因果关系指向;基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度;从所述多个监控项中选取出异常影响度达到预设标准的目标监控项,并对所述业务系统的目标监控项执行预设异常处理决策。2.根据权利要求1所述的方法,对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,包括:基于预先对业务系统中多个监控项设置的埋点,获取所述多个监控项的埋点时序数据,其中,每个监控项对应有至少一个埋点,且每个监控项下的一个埋点对应有所属监控项的一个监控指标;根据所述多个监控项的埋点时序数据,从所述多个监控项中确定出异常监控项;将每个异常监控项的埋点时序数据作为一个属于异常的异常检测样本,以构建目标异常检测样本集。3.根据权利要求2所述的方法,根据所述多个监控项的埋点时序数据,从所述多个监控项中确定出异常监控项,包括:将每个监控项下超出历史基线时长达到预设时长阈值的埋点时序数据确定为异常埋点时序数据;在所述多个监控项中,将异常埋点时序数据占比超出预设占比阈值的监控项确定为异常监控项。4.根据权利要求3所述的方法,若所述多个监控项对应有稀疏性的埋点时序数据,则稀疏性的埋点时序数据的历史基线是基于对应的非零值的历史埋点时序数据所确定得到的。5.根据权利要求1所述的方法,基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度,包括:基于预先设置的所述向关系图的转移概率矩阵,构建所述有向关系图的平稳节点分布函数,其中,所述转移概率矩阵表示所述有向关系图中每个节点到指向的所有其他节点的
转移概率相等;基于对所述有向关系图的节点随机游走,对所述平稳节点分布函数进行多轮迭代,并将所述有向关系图中每个节点在迭代后的所述平稳分布函数中对应的平稳分布概率确定为该节点的异常影响度。6.根据权利要求1所述的方法,基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,包括:基于因果推理算法中的条件独立性检验,判定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他节点监控项之间是否存在导致异常的因果关系;根据所述条件独立性检验的判定结果,生成所述目标异常检测样本集对应的无向关系图,其中,所述无向关系图的节点表示监控项,所述无向关系图的无向边表示监控项之间确定存在的因果关系;基于所述因果推理算法中的d分隔,确定所述无向关系图中无向边对应的因果关系指向,以将所述无向关系图转换为有向关系图。7.根据权利要求6所述的方法,根据每个节点与对应的其他节点之间是否存在因果关系的判定结果,生成所述目标异常检测样本集对应的无向关系图,包括:在预先设置的节点之间是否可以存在因果关系的先验知识的约束下,根据所述条件独立性检验的判定结果,生成所述目标异常检测样本集对应的无向关系图;其中,所述先验知识是基于以下至少一者逻辑确定得到的:数据的读写逻辑、计算逻辑、计算结果输出逻辑和业务逻辑。8.根据权利要求6所述的方法,在基于所述因果推理算法中的d分隔,确定所述无向关系图中无向边对应的因果关系指向,以将所述无向关系图转换为有向关系图后,还包括:若所述有向关系图中存在双向边,则基于逻辑归回算法对所述双向边的两个节点进行二值化拟合,以确定所述双向边的两个节点各自的权重,其中,所述双向边的两个节点中,其中一个节点的二值化拟合结果与另一个节点的权重相关联;移除所述双向边中低权重节点指向高权重节点的方向,从而使所述双向边转换为单向边。9.根据权利要求1-8任一项所述的方法,对所述业务系统的目标监控项执行预设异常处理决策,包括:将所述业务系统的目标监控项作为异常防控对象进行推荐;或者,对所述业务系统中属于目标监控项下的多个待发起的异常告警进行聚合,并在聚合后统一进行发起。10.一种业务系统的异常处理装置,包括:检测模块,对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检
测样本集,其中,所述异常检测样本包含有监控项的异常检测数据;构图模块,基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,其中,所述有向关系图的节点表示监控项,所述有向关系图的有向边表示监控项之间的因果关系指向;计算模块,基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度;执行模块,从所述多个监控项中选取出异常影响度达到预设标准的目标监控项,并对所述业务系统的目标监控项执行预设异常处理决策。11.一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,其中,所述异常检测样本包含有监控项的异常检测数据;基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,其中,所述有向关系图的节点表示监控项,所述有向关系图的有向边表示监控项之间的因果关系指向;基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度;从所述多个监控项中选取出异常影响度达到预设标准的目标监控项,并对所述业务系统的目标监控项执行预设异常处理决策。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下操作:对业务系统的多个监控项进行异常检测,得到所述多个监控项对应的异常检测样本集,并从所述多个监控项对应的异常检测样本集中筛选出属于异常的目标异常检测样本集,其中,所述异常检测样本包含有监控项的异常检测数据;基于因果推理算法,确定所述目标异常检测样本集对应的每个监控项与所述目标异常检测样本集对应的其他监控项之间的因果关系,以构建得到所述目标异常检测样本对应的有向关系图,其中,所述有向关系图的节点表示监控项,所述有向关系图的有向边表示监控项之间的因果关系指向;基于预先设置的所述有向关系图中每个节点到指向的其他节点的转移概率,构建所述有向关系图对应的节点分布函数,并对所述节点分布函数进行多轮迭代,以将所述有向关系图中每个节点在迭代后的所述分布函数中对应的分布概率确定为该节点的异常影响度;从所述多个监控项中选取出异常影响度达到预设标准的目标监控项,并对所述业务系统的目标监控项执行预设异常处理决策。
技术总结
本说明书公开了一种业务系统的异常处理方法、电子装置、设备及存储介质。方法包括:对业务系统的多个监控项进行异常检测,得到属于异常的目标异常检测样本集,其中,异常检测样本包含有监控项的异常检测数据。基于因果推理算法,构建得到目标异常检测样本对应的有向关系图,其中,有向关系图的节点表示监控项,有向关系图的有向边表示监控项之间的因果关系指向。基于预先设置的有向关系图中每个节点到指向的其他节点的转移概率,构建有向关系图对应的节点分布函数,并对函数进行多轮迭代,以将每个节点对应的分布概率确定为该节点的异常影响度。选取出异常影响度达到预设标准的目标监控项,并对目标监控项执行预设异常处理决策。策。策。
技术研发人员:刘若兰 何家乐 余航 李建国 李耀东 张金秀
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.05.25
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/