数据监控告警方法、装置、设备及存储介质与流程
未命名
09-22
阅读:37
评论:0
1.本技术涉及但不限于数据监控技术领域,尤其涉及一种数据监控告警方法、装置、设备及存储介质。
背景技术:
2.随着信息技术的迅速发展,运维监控成为信息化建设不可缺少的一部分。相关数据监控方案为:对服务的若干性能指标进行采集,暴露给服务端,由服务端对性能指标进行入库,或直接根据指标进行阈值判断,从而生成告警内容,返回给客户端。而随着it系统软件架构逐渐向微服务化和云原生方向发展,软件系统的组成将也从单一化组件转变为多个微服务组件并行,因此服务之间的调用也会变得更为复杂,无法统一、有效地对服务间所产生的各类性能告警进行管理,导致系统的运维监控变得越来越困难。
技术实现要素:
3.有鉴于此,本技术实施例至少提供一种数据监控告警方法、装置、设备、存储介质。
4.本技术实施例的技术方案是这样实现的:
5.一方面,本技术实施例提供一种数据监控告警方法,所述方法包括:
6.采集微服务组的性能指标数据,并将性能指标数据存储于时序数据库中;
7.对所述时序数据库中的性能指标数据进行预处理;
8.基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果;所述分析告警策略基于告警模板和所述监控任务对应的配置数据生成;
9.在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息。
10.在一些实施例中,所述分析告警策略包括至少一个待分析参数和每一所述待分析参数对应的告警条件;所述基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果,包括:
11.针对每一所述待分析参数,在所述性能指标数据中确定所述待分析参数对应的待分析数据;
12.基于所述待分析参数对应的告警条件对所述待分析参数对应的待分析数据进行分析,得到所述待分析参数对应的分析结果。
13.在一些实施例中,所述告警条件包括至少一个告警级别和每一所述告警级别对应的级别阈值,所述基于所述待分析参数对应的告警条件对所述待分析参数对应的待分析数据进行分析,得到所述待分析参数对应的分析结果,包括:
14.针对每一所述告警级别,基于所述告警级别对应的级别阈值和所述待分析参数对应的待分析数据,确定所述告警级别对应的子分析结果;
15.基于每一所述告警级别对应的子分析结果,生成所述待分析参数对应的分析结果。
16.在一些实施例中,所述方法还包括:
17.获取所述监控任务对应的配置数据;所述配置数据包括所述至少一个待分析参数;
18.获取所述监控任务对应的告警模板,所述告警模板包括每一所述待分析参数对应的告警条件;
19.基于所述至少一个待分析参数和每一所述待分析参数对应的告警条件,生成所述分析告警策略。
20.在一些实施例中,所述方法还包括:
21.接收针对所述监控任务对应的告警模板的模板更新指令;
22.响应于所述模板更新指令,对所述监控任务对应的告警模板进行更新,得到更新后的告警模板;
23.基于更新后的告警模板,刷新所述监控任务。
24.在一些实施例中,所述对所述时序数据库中的性能指标数据进行预处理,包括以下任意之一:
25.对所述性能指标数据进行去噪处理;
26.对所述性能指标数据进行归一化处理;
27.对所述性能指标数据进行去噪处理和归一化处理。
28.在一些实施例中,所述方法还包括:
29.在所述分析结果表征所述预处理后的性能指标数据正常的情况下,将所述预处理后的性能指标数据作为样本数据存储至样本集合;
30.响应于满足预设条件,基于所述样本集合中存储的样本数据进行模型训练,得到异常预测模型;
31.基于所述异常预测模型对所述预处理后的性能指标数据进行分析,得到分析结果。
32.另一方面,本技术实施例提供一种数据监控告警装置,所述装置包括:
33.采集模块,用于采集微服务组的性能指标数据,并将性能指标数据存储于时序数据库中;
34.预处理模块,用于对所述时序数据库中的性能指标数据进行预处理;
35.分析模块,用于基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果;所述分析告警策略基于告警模板和所述监控任务对应的配置数据生成;
36.告警模块,用于在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息。
37.再一方面,本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
38.又一方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
39.本技术实施例中,通过采集微服务组的性能指标数据,并将性能指标数据存储于
时序数据库中。这样,通过对微服务中的各类性能指标进行采集,并且采样后直接输入至时序数据库,利用此类数据库的特性,极大提高了数据的处理能力,相对于关系型数据库,其存储空间减半,处理速度也更快;通过监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果;并在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息,进而能够快速地对性能指标异常与否进行判断和推送,增强性能告警的效率、及时率,降低人工处理成本。
40.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术的技术方案。
附图说明
41.此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本技术的实施例,并与说明书一起用于说明本技术的技术方案。
42.图1为本技术实施例提供的一种数据监控告警方法的实现流程示意图;
43.图2为本技术实施例提供的一种数据监控告警方法的实现流程示意图;
44.图3为本技术实施例提供的一种数据监控告警方法的实现流程示意图;
45.图4为本技术实施例提供的一种数据监控告警方法的实现流程示意图;
46.图5为本技术实施例提供的一种数据监控告警方法的实现流程示意图;
47.图6为本技术实施例提供的一种数据监控告警方法的实现流程示意图;
48.图7为本技术实施例提供的一种数据监控告警方法的实现流程示意图;
49.图8为本技术实施例提供的一种数据监控告警装置的组成结构示意图;
50.图9为本技术实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
51.为了使本技术的目的、技术方案和优点更加清楚,下面结合附图和实施例对本技术的技术方案进一步详细阐述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
52.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
53.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术的目的,不是旨在限制本技术。
54.在微服务领域,很早以来就形成了tracing(跟踪)、logging(记录)和metrics(指标)相辅相成,合力支撑多维度、多形态的监控体系。其中metrics即为性能指标。性能指标的特点是“可累加性”:它们通常是原子的,即每个都是一个逻辑计量单元,或者一个时间段
内的柱状图。例如:队列的当前深度可以被定义为一个计量单元,在写入或读取时被更新统计;输入http请求的数量可以被定义为一个计数器,用于简单累加;请求的执行时间可以被定义为一个柱状图,在指定时间片上更新和统计汇总。
55.针对性能采集以及告警监控,相关的技术方案为:根据用户需求,采用一些性能采集工具,例如prometheus、open-falcon,对服务的若干性能指标进行采集,暴露给服务端,由服务端对性能指标进行入库,或直接根据指标进行阈值判断,从而生成告警内容,返回给客户端。而随着it系统软件架构逐渐向微服务化和云原生方向发展,软件系统的组成将也从单一化组件转变为多个微服务组件并行,因此服务之间的调用也会变得更为复杂,无法统一、有效地对服务间所产生的各类性能告警进行管理,导致系统的运维监控变得越来越困难。比如:开发对应指标统计的业务逻辑,写入数据库或者其他存储介质中,业务逻辑定制化不方便统一管理,业务耦合性太高;告警规则制定后难以修改,或者存在修改后需要对应重启系统,影响生产效率并且存在安全隐患;监控项需要人工每天登入系统进行查看,存在不及时和浪费人工成本的问题。此时如果仅仅依靠单一的采集以及服务端配置告警规则,往往无法快速的对告警数据进行及时处理;而且,若告警规则发生调整,服务端需要定制化地修改告警逻辑,使得效率大打折扣。
56.经过发明人研究发现,相关技术中存在以下问题:
57.(1)监控服务开发定制化:各个服务通常需要根据自身业务的需要,定制化地开发告警监控功能,不具备通用性,且可移植性差,很难在短时间内批量地应用到其他服务上;
58.(2)人工依赖性大:通常的采集技术方案过于依靠人工,需要运维人员时常监控程序的运行状态、各项性能指标,这些耗费较高的人力成本且效率低下,未能达到智能化监控的要求;
59.(3)告警判断效果较差:现有的性能告警方案,只能根据单组数据进行告警判断,进而不能结合以往数据,更精准快速地对各项性能指标进行预判;
60.(4)监控告警不及时:监控指标数据存入关系型数据库中,指标数据量较大时,通表查询效率低下,告警触发不够及时;
61.(5)告警规则配置不灵活:通过程序内置的告警规则或者配置文件进行配置,修改或者增加配置需要修改程序或者重新启动程序才能生效;
62.(6)支持告警类型单一:目前往往仅支持操作系统、进程、端口的告警监控;
63.(7)运维成本高:需要运维人员人工定期登录系统进行查看,发现问题基本已经滞后很久,解决对策大部分情况下需要联系研发人员定位,问题处理效率低下;同类问题如果没作归档,二次发生时也很难高效处理。
64.本技术实施例提供一种数据监控告警方法,该方法可以由计算机设备的处理器执行。其中,计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。图1为本技术实施例提供的一种数据监控告警方法的实现流程示意图,如图1所示,该方法包括如下步骤s101至步骤s103:
65.步骤s101、采集微服务组的性能指标数据,并将性能指标数据存储于时序数据库中。
66.其中,微服务是一种开发软件的架构和组织方法,其中软件由通过明确定义的api
进行通信的小型独立服务组成。这些服务由各个小型独立团队负责。微服务架构使应用程序更易于扩展和更快地开发,从而加速创新并缩短新功能的上市时间。上述微服务组包括至少一个微服务。
67.在一些实施例中,可以通过telegraf来对微服务组中的各类性能指标数据进行采集。其中,可以在微服务组内所有需要监控的节点上安装telegraf组件,配置监控采集项、采集时间间隔、自定义采集脚本等,并启动telegraf服务。
68.在一些实施例中,上述时序数据库可以为influxdb。在将采集的性能指标数据存储至时序数据库的过程中,可以基于预设的存储间隔,按照将微服务组的性能指标数据存储到influxdb中。
69.在一些实施例中,在将该性能指标数据存储于时序数据库中之后,所述方法还包括:从所述时序数据库中读取所述性能指标数据,并通过可视化看板展示所述性能指标数据。其中,运维人员可以在grafana中通过配置可视化看板或是自定义influxql的方式对感兴趣的性能指标数据进行可视化展示。
70.步骤s102、对所述时序数据库中的性能指标数据进行预处理。
71.在一些实施例中,该预处理可以包括以下至少之一:去噪处理、归一化处理。
72.步骤s103、基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果;所述分析告警策略基于告警模板和所述监控任务对应的配置数据生成。
73.在一些实施例中,在启动该监控任务之前,可以基于告警模板和所述监控任务对应的配置数据生成监控任务对应的分析告警策略,进而,可以基于该监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果。其中,该分析告警策略用于分析所述预处理后的性能指标数据是否存在异常,并确定需要生成的告警信息的告警等级。
74.在一些实施例中,本技术实施例采用kapacitor以及其内置的tickscript语法来实现分析告警策略的配置。在tickscript中,可以通过将若干个不同的node节点进行组合,让性能指标数据在各个节点流动的过程中得到加工,如果符合最终的告警条件,则会发出指定的告警动作,例如:执行指定脚本、发送email、输出至kafka等。同时,tickscript能函数化的定义告警模板,来抽象一类功能相似,但判断参数不同的监控任务,且在告警模板变更时,能够自动刷新根据告警模板所创建出来的各个监控任务,从而大大缩小配置告警规则的时间。
75.步骤s104、在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息。
76.在一些实施例中,在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,基于该预处理后的性能指标数据生成告警信息,并将该告警信息推送至运维人员的终端设备中,以提示运维人员对出现的异常进行处理。
77.在另一些实施例中,上述分析结果还包括需要生成的告警信息的告警等级。进而,在将告警信息推送至运维人员的终端设备的过程中,可以基于该告警等级确定不同的推送方式。例如,在告警等级为普通告警等级的情况下,采用邮件的方式将告警信息推送至运维人员的终端设备;在告警等级为紧急告警等级的情况下,采用语音通话的方式将告警信息推送至运维人员的终端设备,等。
78.本技术实施例中,通过采集微服务组的性能指标数据,并将性能指标数据存储于时序数据库中。这样,通过对微服务中的各类性能指标进行采集,并且采样后直接输入至时序数据库,利用此类数据库的特性,极大提高了数据的处理能力,相对于关系型数据库,其存储空间减半,处理速度也更快;通过监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果;并在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息,进而能够快速地对性能指标异常与否进行判断和推送,增强性能告警的效率、及时率,降低人工处理成本。
79.图2是本技术实施例提供的数据监控告警方法的一个可选的流程示意图,该方法可以由计算机设备的处理器执行。基于图1,所述分析告警策略包括至少一个待分析参数和每一所述待分析参数对应的告警条件;图1中的s103可以更新为s201至s202,将结合图2示出的步骤进行说明。
80.步骤s201、针对每一所述待分析参数,在所述性能指标数据中确定所述待分析参数对应的待分析数据。
81.在一些实施例中,该待分析参数可以包括以下至少之一:处理器参数、磁盘参数和内存参数。相应的,上述性能指标数据也包括以下至少之一:处理器参数对应的处理器数据、磁盘参数对应的磁盘数据和内存参数对应的内存数据。
82.步骤s202、基于所述待分析参数对应的告警条件对所述待分析参数对应的待分析数据进行分析,得到所述待分析参数对应的分析结果。
83.其中,每一待分析参数对应至少一个告警条件,针对每一待分析参数,可以基于该待分析参数对应的至少一个告警条件,对该待分析参数对应的待分析数据进行分析,得到所述待分析参数对应的分析结果。
84.在一些实施例中,所述告警条件包括至少一个告警级别和每一所述告警级别对应的级别阈值,可以通过步骤s2021至步骤s2022实现上述基于所述待分析参数对应的告警条件对所述待分析参数对应的待分析数据进行分析,得到所述待分析参数对应的分析结果。
85.步骤s2021、针对每一所述告警级别,基于所述告警级别对应的级别阈值和所述待分析参数对应的待分析数据,确定所述告警级别对应的子分析结果。
86.其中,每一告警级别均对应一个级别阈值,该级别阈值可以表示为阈值区间的形式,针对每一告警级别,在该待分析参数对应的待分析数据位于该告警级别对应的阈值区间的情况下,即该待分析参数对应的待分析数据满足该告警级别对应的级别阈值的情况下,生成触发告警的子分析结果;在该待分析参数对应的待分析数据不位于该告警级别对应的阈值区间的情况下,即该待分析参数对应的待分析数据不满足该告警级别对应的级别阈值的情况下,生成不触发告警的子分析结果。
87.示例性的,该告警级别可以包括普通告警级别、紧急告警级别和严重告警级别,其中,普通告警级别对应的阈值区间为大于或等于第一级别阈值、紧急告警级别对应的阈值区间为大于或等于第二级别阈值、严重告警级别对应的阈值区间为大于或等于第三级别阈值,第一级别阈值小于该第二级别阈值,第二级别阈值小于该第三级别阈值。以该待分析参数对应的待分析数据大于第二级别阈值为例,该待分析参数对应的待分析数据满足了普通告警级别对应的阈值区间和紧急告警级别对应的阈值区间,但不满足严重告警级别对应的阈值区间。
88.步骤s2022、基于每一所述告警级别对应的子分析结果,生成所述待分析参数对应的分析结果。
89.基于上述示例,生成的分析结果包括:触发普通告警级别的告警的子分析结果、触发紧急告警级别的告警的子分析结果和不触发严重告警级别的告警的子分析结果。
90.图3是本技术实施例提供的数据监控告警方法的一个可选的流程示意图,该方法可以由计算机设备的处理器执行。基于图2,所述方法还可以包括步骤s301至s303,将结合图3示出的步骤进行说明。
91.步骤s301、获取所述监控任务对应的配置数据;所述配置数据包括所述至少一个待分析参数。
92.在一些实施例中,该配置数据为针对该监控任务预先设置的,即,在启动该监控任务之前,可以先设置该监控任务对应的配置数据,之后基于该配置数据和该告警模板生成该监控任务对应的分析告警策略。
93.其中,该配置数据包括上述至少一个待分析参数。
94.步骤s302、获取所述监控任务对应的告警模板,所述告警模板包括每一所述待分析参数对应的告警条件。
95.在一些实施例中,可以建立告警模板库,该告警模板库中包括多个预设类型中每一所述预设类型对应的告警模板,在生成当前的监控任务对应的分析告警策略的过程中,可以基于该监控任务对应的监控类型,在所述告警模板库中查询与该监控类型对应的告警模板。
96.在一些实施例中,该告警模板包括每一所述待分析参数对应的告警条件。示例性的,该告警模板可以包括处理器参数对应的处理器告警条件、也可以包括磁盘参数对应的磁盘告警条件、还可以包括内存参数对应的内存告警条件。
97.在一些实施例中,针对每一所述待分析参数,该待分析参数对应的告警条件用于判断该待分析参数对应的待分析数据是否需要执行对应的告警动作,并在待分析参数对应的待分析数据需要执行对应的告警动作的情况下,生成对应的告警信息。其中,该告警条件可以包括基于该待分析参数的条件表达式、和在待分析参数对应的待分析数据满足该条件表达式的情况下,生成告警信息。
98.步骤s303、基于所述至少一个待分析参数和每一所述待分析参数对应的告警条件,生成所述分析告警策略。
99.示例性的,以该至少一个待分析参数包括处理器参数和内存参数为例,生成的分析告警策略可以包括对处理器参数对应的处理器数据进行分析,生成处理器参数对应的分析结果,并对内存参数对应的内存数据进行分析,生成内存参数对应的分析结果。其中,处理器参数对应的告警条件为:在处理器参数对应的处理器数据满足预设条件表达式(如处理器使用率超过处理器阈值)的情况下,生成触发告警的分析结果;内存参数对应的告警条件为:在内存参数对应的内存数据满足预设条件表达式(如内存使用率超过内存阈值)的情况下,生成触发告警的分析结果。
100.其中,每一待分析参数对应的告警条件还可以包括至少一个告警级别和每一所述告警级别对应的级别阈值。以至少一个待分析参数包括处理器参数为例,该处理器参数对应的告警条件可以包括普通告警级别和该普通告警级别对应的级别阈值、紧急告警级别和
该紧急告警级别对应的级别阈值。相应的,处理器参数对应的告警条件可以为:在处理器参数对应的处理器数据满足普通告警级别对应的条件表达式(普通告警级别对应的级别阈值)的情况下,生成触发普通告警的分析结果;在处理器参数对应的处理器数据满足紧急告警级别对应的条件表达式(紧急告警级别对应的级别阈值)的情况下,生成触发紧急告警的分析结果。
101.图4是本技术实施例提供的数据监控告警方法的一个可选的流程示意图,该方法可以由计算机设备的处理器执行。基于图3,所述方法还可以包括步骤s401至s403,将结合图4示出的步骤进行说明。
102.步骤s401、接收针对所述监控任务对应的告警模板的模板更新指令。
103.在一些实施例中,由于告警模板包括每一所述待分析参数对应的告警条件,且,该告警条件包括每一所述告警级别的条件表达式、和在待分析参数对应的待分析数据满足任一所述告警级别的条件表达式的情况下生成该告警级别的告警信息。该模板更新指令可以为以下至少之一:条件表达式更新指令和告警级别更新指令。
104.其中,该条件表达式更新指令用于更新该告警模板中告警条件的条件表达式,该条件表达式更新指令包括待更新条件表达式对应的待分析参数、告警级别和更新后的条件表达式。
105.其中,该告警级别更新指令用于更新该告警模板中告警条件的告警级别,该告警级别更新指令包括待更新告警级别对应的待分析参数、条件表达式和更新后的告警级别。
106.步骤s402、响应于所述模板更新指令,对所述监控任务对应的告警模板进行更新,得到更新后的告警模板。
107.步骤s403、基于更新后的告警模板,刷新所述监控任务。
108.在一些实施例中,响应于该监控任务对应的告警模板的更新完成,立即基于该更新后的告警模板,刷新所述监控任务,即基于该更新后的告警模板和该监控任务对应的配置数据,生成更新后的分析告警策略,基于该更新后的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果。
109.在另一些实施例中,在该告警模板对应的其他监控任务仍在执行的情况下,基于该更新后的告警模板和其他监控任务对应的配置数据生成其他监控任务对应的更新后的分析告警策略,进而基于该其他监控任务对应的更新后的分析告警策略对其他监控任务对应的预处理后的性能指标数据进行分析,得到其他监控任务对应的分析结果。
110.图5是本技术实施例提供的数据监控告警方法的一个可选的流程示意图,该方法可以由计算机设备的处理器执行。基于图1,图1中的s102可以更新为s501、步骤s502或s503,将结合图5示出的步骤进行说明。
111.步骤s501、对所述性能指标数据进行去噪处理。
112.其中,该性能指标数据包括至少一个待分析参数中每一待分析参数对应的待分析数据,针对每一待分析参数,该待分析参数对应的待分析数据包括按照时序排列的多个指标数据,因此,基于多个指标数据对应的时序关系,可以构建该待分析参数对应的数据曲线。上述去噪处理用于对该数据曲线进行去噪处理,即,对上述按照时序排列的多个指标数据中存在突变(异常)的指标数据进行修正。
113.在一些实施例中,由于cpu、磁盘、内存占用等性能指标可能会存在局部抖动或噪
声干扰,为了避免此类毛刺数据对智能分析的影响,需要采用合适的去噪算法进行预处理从而使其平滑。其中,该去噪算法可以包括以下至少之一:线性滤波去噪算法、非线性滤波去噪算法和小波去噪算法。
114.其中,以该去噪算法为小波去噪算法为例,由于小波具有良好的时频特性,在实际中应用十分广泛,特别是在去噪方面受到了很大的重视。指标在收集的过程中会受到采集系统以外的诸多因素的影响,这与信号的传递过程十分相似。因此采用二阶小波对各性能指标数据进行消噪处理,使得带有许多微小毛刺的曲线平滑化的同时又能保持曲线应有的涨落趋势,符合预处理的预期效果。
115.在一些实施例中,该小波去噪算法主要包括:对含噪声信号进行小波变换;对变换得到的小波系数进行某种处理,以去除其中包含的噪声;对处理后的小波系数进行小波逆变换,得到去噪后的信号。
116.步骤s502、对所述性能指标数据进行归一化处理。
117.其中,该性能指标数据包括至少一个待分析参数中每一待分析参数对应的待分析数据。由于不同待分析参数本身的量纲不同,不能同时进行比较,基于此,可以对性能指标数据进行归一化处理,使得每一待分析参数对应的待分析数据处于同一量纲。
118.在一些实施例中,针对每一种性能指标数据,即针对每一所述待分析参数对应的待分析数据,可以基于该待分析数据中的最大数据和最小数据,对该待分析数据中每一指标数据进行归一化处理。其中,上述归一化处理可以包括:获取最大数据和最小数据之间的第一数据差值,该第一数据差值用于表征该待分析参数对应的数值范围;针对每一指标数据,获取该指标数据和最小数据之间的第二数据差值,将该第二数据差值与第一数据差值之间的比值作为该指标数据对应的处理后的指标数据。
119.在一些实施例中,一个待分析参数对应的待分析数据可以以向量的形式表达:x(x1,x2,...,xn);其中,x表示该待分析参数,x1至xn为该待分析参数对应的至少一个指标数据。
120.示例性的,可以参照公式(1)完成上述归一化过程:
[0121][0122]
其中,xi为归一化前的值,xi′
为归一化后的值,i=1,2,3,...,n为正整数,x
min
、x
max
为指标向量中的最小数据和最大数据。
[0123]
步骤s503、对所述性能指标数据进行去噪处理和归一化处理。
[0124]
在一些实施例中,可以先对该性能指标数据进行去噪处理,再对进行去噪处理后的性能指标数据进行归一化处理;还可以先对该性能指标数据进行归一化处理,再对进行归一化处理后的性能指标数据进行去噪处理。其中,归一化处理和去噪处理的具体过程可以参照上述步骤s501和步骤s502的实施过程。
[0125]
图6是本技术实施例提供的数据监控告警方法的一个可选的流程示意图,该方法可以由计算机设备的处理器执行。基于图1,所述方法还可以包括步骤s601至s603,将结合图6示出的步骤进行说明。
[0126]
步骤s601、在所述分析结果表征所述预处理后的性能指标数据正常的情况下,将所述预处理后的性能指标数据作为样本数据存储至样本集合。
[0127]
在一些实施例中,性能指标数据包括至少一个待分析参数中每一待分析参数对应
的待分析数据,针对每一待分析参数,该待分析参数对应的待分析数据包括按照时序排列的多个指标数据。由此,经过预处理后的性能指标数据包括每一待分析参数对应的按照时序排列的预处理后的多个指标数据。
[0128]
步骤s602、响应于满足预设条件,基于所述样本集合中存储的样本数据进行模型训练,得到异常预测模型。
[0129]
在一些实施例中,该预设条件可以为所述样本集合中样本数据的数量达到预设的数量阈值;该预设条件还可以为所述样本集合中样本数据的时间跨度达到预设的时间阈值,其中,所述时间跨度为最早的样本数据与最晚的样本数据之间的时间间隔;该预设条件还可以为接收到人工触发的模型训练指令。
[0130]
在一些实施例中,该异常预测模型可以为各种类型的深度学习模型,包括cnn(卷积神经网络,convolutional neural network),rnn(递归神经网络,recurrent neuralnetwork),lstm(长短期记忆,long short-term memory),lstm+cnn等。
[0131]
其中,在基于样本数据对初始的异常预测模型进行训练的过程中,由于该样本数据为包括每一待分析参数对应的按照时序排列的预处理后的多个指标数据,训练后得到的异常预测模型可以基于输入的预处理后的性能指标数据(每一待分析参数对应的按照时序排列的预处理后的多个指标数据),预测下一时间点中,每一待分析参数存在异常的概率。
[0132]
步骤s603、基于所述异常预测模型对所述预处理后的性能指标数据进行分析,得到分析结果。
[0133]
在一些实施例中,在得到该异常预测模型后,可以基于所述异常预测模型对所述预处理后的性能指标数据进行分析,得到异常预测模型对应的分析结果;同时,针对同一个预处理后的性能指标数据,基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析告警策略对应的分析结果。由此,在该分析告警策略对应的分析结果和异常预测模型对应的分析结果相同,且均表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息;在该分析告警策略对应的分析结果和异常预测模型对应的分析结果不相同,且存在一个分析结果表征所述预处理后的性能指标数据存在异常的情况下,发送该预处理后的性能指标数据至运维人员进行验证,基于验证结果确定是否生成告警信息。
[0134]
下面说明本技术实施例提供的数据监控告警方法在实际场景中的应用。
[0135]
本技术实施例主要是基于可配置规则来对采集到的性能数据进行告警和监控,从而实现微服务架构下各服务间的智能化监控及运维。在该方案下,性能数据被存入时序数据库当中,查询速度大大提高。同时,管理员可以个性化地配置告警规则,并且对性能数据、告警数据进行可视化展示,当性能正常时,记录正常值,并且在遇到性能指标异常的情况时,及时预判,并推送告警,减少计算量。
[0136]
请参阅图7,其示出了本技术实施例中提供的性能告警监控系统的系统示意图。其中,性能告警监控系统710向微服务组720发送性能指标采集请求,微服务组720响应于该性能指标采集请求,向性能告警监控系统710反馈采集到的性能指标。其中,该微服务组720可以包括多个微服务组件。
[0137]
该性能告警监控系统710包括数据采集模块711,该数据采集模块711采用telegraf来对微服务中的各类性能指标进行预采集。telegraf能够根据输入插件(input plugins)来灵活地配置采样项。图7中仅列出主要的三项指标,即cpu相关信息、磁盘/磁盘
io信息、系统内存信息。
[0138]
其中,该性能告警监控系统710还包括时序数据库712。telegraf采样后直接输入至时序数据库712,利用此类数据库的特性,极大提高了数据的处理能力,相对于关系型数据库,其存储空间减半,处理速度也更快。此外,在数据被存入influxdb后,管理员可以在grafana中通过配置可视化看板或是自定义influxql的方式对感兴趣的性能数据进行可视化展示。
[0139]
该性能告警监控系统710还包括数据处理模块713。由于cpu、磁盘、内存占用等性能指标可能会存在局部抖动或噪声干扰,为了避免此类毛刺数据对智能分析的影响,需要采用合适的去噪算法进行预处理从而使其平滑。由于小波具有良好的时频特性,在实际中应用十分广泛,特别是在去噪方面受到了很大的重视。指标在收集的过程中会受到采集系统以外的诸多因素的影响,这与信号的传递过程十分相似。因此采用二阶小波对各指标进行消噪处理,使得带有许多微小毛刺的曲线平滑化的同时又能保持曲线应有的涨落趋势,符合预处理的预期效果。因此,数据处理模块713可以采用小波变换对采集的数据进行去噪处理。
[0140]
另外,由于多种性能指标本身的量纲不同,不能同时进行比较,基于此,数据处理模块713还可以对其进行归一化处理。对于某个性能指标组成的向量x(x1,x2,...,xn),归一化计算公式如公式(1)所示:
[0141][0142]
其中,xi为归一化前的值,xi′
为归一化后的值,i=1,2,3,...,n为正整数,x
min
、x
max
为指标向量中的最小值和最大值。
[0143]
该性能告警监控系统710还包括规则配置模块714。其中,该规则配置模块714采用kapacitor以及其内置的tickscript语法来实现可配置规则。在tickscript中,可以通过将若干个不同的node节点进行组合,让数据在各个节点流动的过程中得到加工,如果符合最终的告警条件,则会发出指定的告警动作,例如:执行指定脚本、发送email、输出至kafka等。同时,tickscript能函数化的定义模板任务,来抽象一类功能相似,但判断参数不同的监控任务,且在模板任务变更时,能够自动刷新根据模板任务所创建出来的各个任务脚本,从而大大缩小配置告警规则的时间。
[0144]
一个简单的tickscript脚本如下所示。该脚本能够通过from节点收集cpu数据,并由alert节点发送告警。其规则为:在usage_user大于70(小于80)时产生warm级别告警、usage_user大于80时产生critical级别告警:
[0145]
[0146][0147]
如将相关字段命名为变量,则可成为一个模板任务,根据模板任务创建的普通任务仅需要声明对应变量的值,即可进行相应的监控动作,无需重复声明,模板任务修改后,也能刷新相应的普通任务,上述脚本对应的模板任务脚本可以为:
[0148][0149]
该性能告警监控系统710还包括智能分析模块714。其中,性能数据在经过处理后,一方面,会结合用户配置的自定义告警规则,来对数据进行异常判断,如本身未见异常,则加入正常值结果集当中;如发生异常,则生成告警记录,并推送至数据大屏中,交由管理员排查处理。另一方面,正常值结果集在形成一定规模后,经过训练可形成预判模型,在得到当前时刻性能数据后,可对比预判模型,提前判断指标是否异常,从而减轻服务端的处理时长。
[0150]
基于上述实施例,本技术提供的方法主要包括:利用输入插件配置性能指标的采样内容,开始采样,根据配置好的可视化看板进行展示;对输入至时序数据库的采样数据进行处理加工;对不同类别的指标数据进行相同的数据处理,包括去噪处理和归一化处理;用户配置告警规则,结合既有正常值结果集对性能指标进行智能分析;判断性能指标,如异常,则存储告警记录,并推送告警至可视化看板;如正常,则将指标加入正常值结果集内。
[0151]
上述实施例旨在提供一种规则可配置的性能告警监控系统的设计方案,基于telegraf的输入插件,完成cpu、磁盘/磁盘io、系统内存等微服务运行时的性能数据,利用正常值结果集进行辅助判定,缓解服务器压力,最后快速地对性能指标异常与否进行判断和推送,增强性能告警的效率、及时率,降低人工处理成本。
[0152]
同时,本技术实施例能够克服现网微服务种类多且数量繁杂、运维压力大的弊端,实现对各类服务的性能指标进行统一智能化采集与告警监控功能,用户可以通过可视化页
面完成对任意微服务的性能数据进行采集和实时监控;同时,能够通过正常值结果集,形成预判模型,提前感知异常值,从而降低运算次数,缓解服务器压力。通过本方案提供的可配置告警规则和解析功能,使得系统可以根据规则定义自动触发并上报告警信息,能够克服人工长时间监控运维的弊端,大大提高了运维效率与告警准确率。
[0153]
本技术实施例本质上是灵活可配置的性能告警监控系统,基于输入插件的多样化,不仅仅局限于cpu、磁盘/磁盘io、系统内存等物理性能指标,适用范围较广,兼容性较强。
[0154]
本技术实施例提供一种基于可配置规则的性能告警监控设计方案,针对提供统一性能指标接入,简化性能埋点方式,实现性能数据快捷埋点和接入;同时,依靠规则配置的灵活性用户可以快速地配置类似的告警任务,大大减少人力成本和重复工作,相关规则也可以通过动态修改的方式来灵活配置;此外,通过接入短信网关和邮箱可以实现告警信息的实时传达,提高运维效率和降低运维人工成本。最后,依据influxdb的特性,可以将性能指标根据不同粒度进行分级存储,在可预见的数据规模下尽可能保留完整的性能曲线。
[0155]
对于需要对微服务性能指标进行实时管控的公司来说,该技术方案通常有很广泛的应用前景,并且在投入使用后,能够大大减少人力运维监控的成本,在保证效率与准确性的前提下实现对各类性能进行分析和告警,每个用户可以动态且灵活地配置告警规则。
[0156]
本公司在性能监控方面有一定的需求,目前微服务管控基本独立,缺少统一的智能化监控方案。基于本方案,一方面可以实现对微服务性能数据的高效采集监控,另一方面能够通过可配置的告警规则实现对监控数据的智能分析与告警,保证系统的运行效率与准确性。
[0157]
利用告警规则对现网微服务性能数据进行统一监控;针对微服务数量大、分布广的特点,基于tickscript实现性能告警规则可配置,实现对性能的灵活监控,对异常部分第一时间进行告警推送,保证系统运行的高效性与告警的准确性,从而最终实现对于性能指标的统一监控与告警。
[0158]
基于上述实施例,可以达到:(1)可以采集的性能指标项种类丰富,而且能够自定义采集指标,配合时序数据库,效率更快,也跟节省存储空间;(2)基于可配置规则实现对性能的告警及推送,更为灵活,能够大幅节省人工,缩短重复工作时间;(3)根据正常值结果集训练预判模型,通过模型可提前预知告警异常变化,减轻服务器压力。
[0159]
基于前述的实施例,本技术实施例提供一种数据监控告警装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(central processing unit,cpu)、微处理器(microprocessor unit,mpu)、数字信号处理器(digital signal processor,dsp)或现场可编程门阵列(field programmable gate array,fpga)等。
[0160]
图8为本技术实施例提供的一种数据监控告警装置的组成结构示意图,如图8所示,数据监控告警装置800包括:采集模块810、预处理模块820、分析模块830、告警模块840,其中:
[0161]
采集模块810,用于采集微服务组的性能指标数据,并将性能指标数据存储于时序数据库中;
[0162]
预处理模块820,用于对所述时序数据库中的性能指标数据进行预处理;
[0163]
分析模块830,用于基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果;所述分析告警策略基于告警模板和所述监控任务对应的配置数据生成;
[0164]
告警模块840,用于在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息。
[0165]
在一些实施例中,所述分析告警策略包括至少一个待分析参数和每一所述待分析参数对应的告警条件;所述分析模块830,还用于:
[0166]
针对每一所述待分析参数,在所述性能指标数据中确定所述待分析参数对应的待分析数据;
[0167]
基于所述待分析参数对应的告警条件对所述待分析参数对应的待分析数据进行分析,得到所述待分析参数对应的分析结果。
[0168]
在一些实施例中,所述告警条件包括至少一个告警级别和每一所述告警级别对应的级别阈值,所述分析模块830,还用于:
[0169]
针对每一所述告警级别,基于所述告警级别对应的级别阈值和所述待分析参数对应的待分析数据,确定所述告警级别对应的子分析结果;
[0170]
基于每一所述告警级别对应的子分析结果,生成所述待分析参数对应的分析结果。
[0171]
在一些实施例中,所述分析模块830,还用于:
[0172]
获取所述监控任务对应的配置数据;所述配置数据包括所述至少一个待分析参数;
[0173]
获取所述监控任务对应的告警模板,所述告警模板包括每一所述待分析参数对应的告警条件;
[0174]
基于所述至少一个待分析参数和每一所述待分析参数对应的告警条件,生成所述分析告警策略。
[0175]
在一些实施例中,所述分析模块830,还用于:
[0176]
接收针对所述监控任务对应的告警模板的模板更新指令;
[0177]
响应于所述模板更新指令,对所述监控任务对应的告警模板进行更新,得到更新后的告警模板;
[0178]
基于更新后的告警模板,刷新所述监控任务。
[0179]
在一些实施例中,所述预处理模块820,还用于对所述性能指标数据进行去噪处理;
[0180]
在一些实施例中,所述预处理模块820,还用于对所述性能指标数据进行归一化处理;
[0181]
在一些实施例中,所述预处理模块820,还用于对所述性能指标数据进行去噪处理和归一化处理。
[0182]
在一些实施例中,所述分析模块830,还用于:
[0183]
在所述分析结果表征所述预处理后的性能指标数据正常的情况下,将所述预处理后的性能指标数据作为样本数据存储至样本集合;
[0184]
响应于满足预设条件,基于所述样本集合中存储的样本数据进行模型训练,得到异常预测模型;
[0185]
基于所述异常预测模型对所述预处理后的性能指标数据进行分析,得到分析结果。
[0186]
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本技术实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本技术装置实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0187]
需要说明的是,本技术实施例中,如果以软件功能模块的形式实现上述的数据监控告警方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本技术实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
[0188]
本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
[0189]
本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
[0190]
本技术实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
[0191]
本技术实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0192]
这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0193]
图9为本技术实施例提供的一种数据监控告警设备的硬件实体示意图,如图9所示,该数据监控告警设备900的硬件实体包括:处理器901和存储器902,其中,存储器902存储有可在处理器901上运行的计算机程序,处理器901执行程序时实现上述任一实施例的方
法中的步骤。
[0194]
存储器902存储有可在处理器上运行的计算机程序,存储器902配置为存储由处理器901可执行的指令和应用,还可以缓存待处理器901以及数据监控告警设备900中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(flash)或随机访问存储器(random access memory,ram)实现。
[0195]
处理器901执行程序时实现上述任一项的数据监控告警方法的步骤。处理器901通常控制数据监控告警设备900的总体操作。
[0196]
本技术实施例提供一种计算机存储介质,计算机存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现如上任一实施例的数据监控告警方法的步骤。
[0197]
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术存储介质和设备实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0198]
上述处理器可以为目标用途集成电路(application specific integrated circuit,asic)、数字信号处理器(digital signal processor,dsp)、数字信号处理装置(digital signal processing device,dspd)、可编程逻辑装置(programmable logic device,pld)、现场可编程门阵列(field programmable gate array,fpga)、中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本技术实施例不作具体限定。
[0199]
上述计算机存储介质/存储器可以是只读存储器(read only memory,rom)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性随机存取存储器(ferromagnetic random access memory,fram)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(compact disc read-only memory,cd-rom)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
[0200]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本技术的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0201]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0202]
在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
[0203]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0204]
另外,在本技术各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0205]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0206]
或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
[0207]
以上所述,仅为本技术的实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。
技术特征:
1.一种数据监控告警方法,其特征在于,所述方法包括:采集微服务组的性能指标数据,并将性能指标数据存储于时序数据库中;对所述时序数据库中的性能指标数据进行预处理;基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果;所述分析告警策略基于告警模板和所述监控任务对应的配置数据生成;在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息。2.根据权利要求1所述的方法,其特征在于,所述分析告警策略包括至少一个待分析参数和每一所述待分析参数对应的告警条件;所述基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果,包括:针对每一所述待分析参数,在所述性能指标数据中确定所述待分析参数对应的待分析数据;基于所述待分析参数对应的告警条件对所述待分析参数对应的待分析数据进行分析,得到所述待分析参数对应的分析结果。3.根据权利要求2所述的方法,其特征在于,所述告警条件包括至少一个告警级别和每一所述告警级别对应的级别阈值,所述基于所述待分析参数对应的告警条件对所述待分析参数对应的待分析数据进行分析,得到所述待分析参数对应的分析结果,包括:针对每一所述告警级别,基于所述告警级别对应的级别阈值和所述待分析参数对应的待分析数据,确定所述告警级别对应的子分析结果;基于每一所述告警级别对应的子分析结果,生成所述待分析参数对应的分析结果。4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:获取所述监控任务对应的配置数据;所述配置数据包括所述至少一个待分析参数;获取所述监控任务对应的告警模板,所述告警模板包括每一所述待分析参数对应的告警条件;基于所述至少一个待分析参数和每一所述待分析参数对应的告警条件,生成所述分析告警策略。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:接收针对所述监控任务对应的告警模板的模板更新指令;响应于所述模板更新指令,对所述监控任务对应的告警模板进行更新,得到更新后的告警模板;基于更新后的告警模板,刷新所述监控任务。6.根据权利要求1所述的方法,其特征在于,所述对所述时序数据库中的性能指标数据进行预处理,包括以下任意之一:对所述性能指标数据进行去噪处理;对所述性能指标数据进行归一化处理;对所述性能指标数据进行去噪处理和归一化处理。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述分析结果表征所述预处理后的性能指标数据正常的情况下,将所述预处理后的性能指标数据作为样本数据存储至样本集合;
响应于满足预设条件,基于所述样本集合中存储的样本数据进行模型训练,得到异常预测模型;基于所述异常预测模型对所述预处理后的性能指标数据进行分析,得到分析结果。8.一种数据监控告警装置,其特征在于,包括:采集模块,用于采集微服务组的性能指标数据,并将性能指标数据存储于时序数据库中;预处理模块,用于对所述时序数据库中的性能指标数据进行预处理;分析模块,用于基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果;所述分析告警策略基于告警模板和所述监控任务对应的配置数据生成;告警模块,用于在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息。9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述方法中的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述方法中的步骤。
技术总结
本申请实施例公开了一种数据监控告警方法、装置、设备及存储介质,其中,所述方法包括:采集微服务组的性能指标数据,并将性能指标数据存储于时序数据库中;对所述时序数据库中的性能指标数据进行预处理;基于监控任务对应的分析告警策略对预处理后的性能指标数据进行分析,得到分析结果;所述分析告警策略基于告警模板和所述监控任务对应的配置数据生成;在所述分析结果表征所述预处理后的性能指标数据存在异常的情况下,生成告警信息。生成告警信息。生成告警信息。
技术研发人员:徐文豪 谭跃辉 许鹏里
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2022.11.09
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/