业务系统监控告警方法、装置、设备和介质与流程
未命名
09-24
阅读:72
评论:0
1.本技术涉及金融领域及其他领域,尤其涉及一种业务系统监控告警方法、装置、设备和介质。
背景技术:
2.随着金融领域和互联网技术的飞速发展,大数据、高并发、多业务场景下使得业务系统面临的风控挑战和压力巨大,大量的数据需要实时监测分析,并根据监测结果进行相应级别的告警。
3.现有提出的业务系统监控及告警模式中,主要根据用户行为和业务开展情况来设置告警条件。
4.但是用户的行为和业务开展情况缺少细粒度的划分处理,例如将行为划分为登录、浏览、刷新、点击、消费和预约等,将业务开展情况划分为业务处理速率、业务量等;其次,现有的告警条件单一,导致用户行为和业务开展情况异常但不至于告警时也进行频繁告警,无法提供高效的监控告警方式。
技术实现要素:
5.本技术提供一种业务系统监控告警方法、装置、设备和介质,用以解决现有技术中无法提供高效的业务系统监控告警方式的技术问题。
6.第一方面,本技术提供一种业务系统监控告警方法,包括:
7.获取业务系统当前的监控指标,所述监控指标包括用户行为信息、业务信息或系统运行性能中的至少一种,其中,所述用户行为信息包括用户针对所述业务系统的各种行为的时长和/或行为次数,所述业务信息包括所述业务系统内各项业务的交易时长、交易失败率或技术失败率中的至少一种,所述系统运行性能包括内存占用率、网络流量消耗量或cpu能耗中的至少一种;
8.将所述监控指标的指标值与指标体系表进行比较,判断所述监控指标是否异常,其中,所述指标体系表中记录有所述监控指标的预设正常阈值;
9.若是,则获取与所述监控指标对应的告警规则,并判断所述监控指标的指标值是否符合所述告警规则;
10.若所述监控指标的指标值符合所述告警规则,则输出告警信息。
11.在一种可能的实现方式中,所述获取与所述监控指标对应的告警规则之前,所述方法还包括:
12.获取所述监控指标的配置文件,所述配置文件中包括所述监控指标的预设告警阈值;
13.根据所述配置文件生成与所述监控指标对应的告警规则,并对所述监控指标和所述告警规则关联存储。
14.在一种可能的实现方式中,所述若所述监控指标的指标值符合所述告警规则,则
输出告警信息,包括:
15.当所述监控指标的指标值大于所述告警规则中的预设告警阈值时,生成告警信息,其中,所述预设告警阈值大于所述预设正常阈值;
16.根据所述告警信息,进行告警。
17.在一种可能的实现方式中,所述当所述监控指标的指标值大于所述告警规则中的预设告警阈值时,生成告警信息,包括:
18.获取所述监控指标的指标值与所述预设告警阈值的差值;
19.根据所述监控指标的类型,获取告警级别表;
20.根据所述差值和所述告警级别表,获取包括告警级别的告警信息;其中,针对同一监控指标,差值越大,则告警级别越高,所述告警级别表中存储有不同区段的差值对应的告警级别。
21.在一种可能的实现方式中,所述根据所述告警信息,进行告警,包括:
22.根据所述告警级别,从告警数据库中获取所述告警级别对应的告警终端,并将所述告警信息推送至所述告警终端,其中,所述告警数据库中存储有告警级别对应的告警终端。
23.在一种可能的实现方式中,在将所述告警信息推送至所述告警终端后,将所述告警信息和对应的告警终端存储至所述告警数据库。
24.在一种可能的实现方式中,所述获取业务系统当前的监控指标,包括:
25.采集业务系统的实时日志;
26.将所述实时日志中的日志数据同步至kafka队列;
27.消费所述kafka队列中的日志数据,并将消费后的日志数据按照监控指标分类存储至clickhouse数据库中,其中,所述clickhouse数据库中针对不同的监控指标设置有每个监控指标对应的独立存储空间。
28.在一种可能的实现方式中,在将所述监控指标的指标值与指标体系表进行比较,判断所述监控指标是否异常之前,所述方法还包括:
29.在初次使用所述业务系统时,输出提示信息,所述提示信息用于提示设置所述监控指标的预设正常阈值。
30.第二方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
31.所述存储器存储计算机执行指令;
32.所述处理器执行所述存储器存储的计算机执行指令,以实现如上所述的方法。
33.第三方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上所述的方法。
34.本技术提供的业务系统监控告警方法、装置、设备和介质,基于日常用户在业务系统产生的大量行为信息、业务系统内各项业务的开展情况以及系统运行性能数据,将用户行为信息、业务信息和系统运行性能作为监控指标,实时监控并分析上述监控指标,若监控指标的指标值大于预设正常阈值,则进一步基于预先设定的告警规则,判断监控指标的指标值是否符合告警规则,若符合则进行相应的告警操作,以实现用户、业务或系统级别的及时告警通知,更好的保障业务系统安全。
附图说明
35.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
36.图1为本技术实施例提供的一种应用场景示意图;
37.图2为本技术实施例提供的手机终端接收告警信息的手机界面示意图;
38.图3本技术实施例提供的一种业务系统监控告警方法的流程图一;
39.图4为本技术实施例提供的一种业务系统监控告警方法的流程图二;
40.图5为本技术实施例提供的一种电子设备的硬件示意图。
41.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
42.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的设备和方法的例子。
43.本技术实施例中,“示例性的”或者“例如”等词用于表示例子、例证或说明。本技术中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
44.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
45.需要说明的是,本技术的业务系统监控告警方法、装置、设备和介质可用于金融领域及其他领域,也可用于除金融领域之外的任意领域,本技术的业务系统监控告警方法、装置、设备和介质的应用领域不做限定。
46.随着金融业的快速发展和各项金融业务的层出不穷,人们越来越重视业务系统所带来的数据反馈,以便根据业务系统实时数据做出合理的反应。在面临大数据、高并发和多业务等的情况下,传统业务系统的监控和告警模式无法满足用户的多样化需求。
47.根据用户行为和业务开展情况来设置告警条件,可以筛选出更加有价值的数据信息,可以提升传统业务系统的监控和告警效率。
48.虽然有效提高了传统业务系统的监控和告警能力,但是针对用户行为和业务开展情况缺乏细粒度的划分处理;其次,单一的告警条件使得业务系统输出频繁的告警提示,导致无法及时过滤出急需做出反应的告警提示。
49.于是本技术提出一种可以对用户行为信息和业务信息进行细粒度划分处理的业务系统监控告警方法,并同时监控系统的运行性能;其次,对监控指标进行异常和告警条件的判断,在监控指标异常且符合告警条件时才进行告警,便于过滤出需要及时做出反应的
告警信息。
50.下面结合图1,对本技术具体的应用场景进行说明。
51.图1为本技术实施例提供的一种应用场景示意图。如图1所示,该场景包括用户终端101、服务器端102和业务系统103,本实施例中的执行主体为服务器端102。
52.用户终端101可以在业务系统103上进行登录、浏览、刷新、点击、消费和预约等行为,也可以接收来自服务器端102的告警信息,便于用户及时做出反应。例如,手机是一种用户终端101。
53.图2是本技术实施例提供的手机作为用户终端接收到告警信息的手机界面示意图。如图2所示,服务器端102发送的告警信息可以包括具体的监控指标、监控指标的指标值、预设正常阈值、预设告警阈值以及告警级别,以便于用户终端101能够快速的获取监控指标的具体情况。
54.服务器端102可以获取业务系统103的实时日志,也可以进一步获取到实时日志中的监控指标,进而判断监控指标的指标值是否异常和符合告警规则,并在监控指标的指标值异常且符合告警规则时,及时向用户终端101和/或业务系统输出告警信息。
55.在本实施例中业务系统103用于提供各项业务,用户终端102在业务系统103上进行操作时,业务系统103会产生包括监控指标的实时日志。
56.综上所述,服务器端102在对用户行为、业务开展情况和业务系统性能做细粒度划分的基础上,结合预先设置的指标体系表和告警规则,对上述监控指标进行实时监测分析,并在监控指标的指标值异常且符合告警规则时,输出告警信息。
57.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
58.图3为本技术实施例提供的一种业务系统监控告警方法的流程图一。如图3所示,该方法包括:
59.s301、获取业务系统当前的监控指标,监控指标包括用户行为信息、业务信息或系统运行性能中的至少一种,其中,用户行为信息包括用户针对业务系统的各种行为的时长和/或行为次数,业务信息包括业务系统内各项业务的交易时长、交易失败率或技术失败率中的至少一种,系统运行性能包括内存占用率、网络流量消耗量或cpu能耗中的至少一种。
60.在上述方案中,将用户行为、业务进展和系统性能三方面的数据作为业务系统的监控对象,对业务系统进行实时的监控分析,有利于及时获知当前状态下用户、各项业务和业务系统的变化情况。
61.本实施例中,对用户行为信息、业务信息和系统运行性能具体涉及的范围做了大致举例说明,例如,用户行为信息包括用户在业务系统上操作时的各种行为的时长和/或频率,其中,行为可以进一步包括登录、浏览、刷新、点击、转账、消费和预约等,业务信息包括内务系统自身提供的各项业务的开展情况,开展情况又可进一步扩展为交易失败率、交易时长等,系统运行性能有内存占用率、网络流量消耗量等,当然,也可以包括其他相似的类别的指标数据。
62.在具体实现过程中,可以借助kafka将采集到的监控指标存储至clickhouse数据库中,示例性的,采集业务系统的实时日志;将实时日志中的日志数据同步至kafka队列;消
费kafka队列中的日志数据,并将消费后的日志数据按照监控指标分类存储至clickhouse数据库中,其中,clickhouse数据库中针对不同的监控指标设置有每个监控指标对应的独立存储空间。
63.clickhouse是于2016年开源的一个用于联机分析(olap:online analytical processing)的列式数据库管理系统(dbms:database management system),主要用于在线分析处理查询(olap),能够使用sql查询实时生成分析数据报告。
64.clickhouse是一个完全的列式数据库管理系统,允许在运行时创建表和数据库,加载数据和运行查询,而无需重新配置和重新启动服务器,支持线性扩展,简单方便,高可靠性,容错。因此,可以采用clickhouse数据库实时存储并查询采集到的日志数据,以实现亿级数据秒级查询,节省数据存储和查询的时间。
65.kafka是一个开源流处理平台。kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。这种动作(例如:网页浏览、搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。
66.kafka是一个分布式消息队列。kafka对消息保存时根据topic(可以理解为一个队列)进行归类,发送消息者称为producer,消息接受者称为consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。producer:消息生产者,就是向kafka broker发消息的客户端。采集到跟日志数据后,经过kafka消息队列消费,然后存储至clickhouse数据库中,通过二者的关联应用使得本实施例中数据的采集、消费和存储变得十分流畅,有利于后续对日志数据中的监控指标进行分析判断。
67.为了便于直观的看到各监控指标的变化情况和当前指标值,可以借助grafana工具做实时的数据统计和看板展示。grafana是一款采用go语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具。
68.grafana支持许多不同的数据源,每个数据源都有一个特定的查询编辑器,该编辑器定制的特性和功能是公开的特定数据来源,目前支持以下数据源:graphite,elasticsearch,influxdb,prometheus,cloudwatch,mysql和opentsdb等。
69.s302、将监控指标的指标值与指标体系表进行比较,判断监控指标是否异常,其中,指标体系表中记录有监控指标的预设正常阈值;若是,则获取与监控指标对应的告警规则,并判断监控指标的指标值是否符合告警规则。
70.在该步骤中,将监控指标的指标值与预设正常阈值进行比较,若二者不相等,则说明此时监控指标处于异常状态,为了避免监控指标一异常就告警所导致的告警频繁,需要进一步判断监控指标的指标值是否符合告警规则,即对监控指标进行了两次判断,有效过滤了指标值异常但不至于告警的情况。
71.指标体系表中存储有监控指标的预设正常阈值,本实施例中监控指标有三种类别,则可以针对不同类别设置不同的指标体系表,而对于预设正常阈值的来源,本实施例不做限定,可以在初次使用业务系统时,输出提示信息,提示信息用于提示设置监控指标的预设正常阈值;也可以来源于业务系统的内在配置。
72.例如,在建立用户行为信息、业务信息或系统运行性能对应的指标体系表时,配置各监控指标所需的查询数据、运算方法、层级、依赖关系等基础内容,根据指标体系表灵活
配置sql实例的占位符和限制条件后,生成监控指标的计算实例,得到各监控指标对应的指标体系表。在这种内在配置方式下,若需要对监控指标进行调整,业务系统的运维人员无需重启业务系统或人工编写sql,可以直接对待更改的监控指标对应指标体系表更新修改,或者输入文字调整需求,业务系统基于机器学习的分析方法对需求文句进行分词拆解,匹配指标体系表进行理解,生成新的监控sql实例,运维人员确认生成的sql无误后,新实例生效。
73.为了便于判断监控指标的指标值是否符合告警规则,可以预先生成与监控指标对应的告警规则,示例性的,获取监控指标的配置文件,配置文件中包括监控指标的预设告警阈值;根据配置文件生成与监控指标对应的告警规则,并对监控指标和告警规则关联存储。示例性的,当某项业务的技术失败率高于50%时是一个严重2级规则,高于70%时是一个严重1级规则。
74.在具体实现过程中,可以通过promethues系统平台配置监控指标异常的规则,通过平台中的alertmanager工具配置告警规则,由promethues平台对clickhouse集群进行实时监控,当监控指标的指标值异常且符合告警规则时,进行告警。
75.prometheus是一个开源的系统监控和报警系统,在kubernetes容器管理系统中,通常会搭配prometheus进行监控,同时也支持多种exporter采集数据,还支持pushgateway进行数据上报,prometheus性能足够支撑上万台规模的集群。prometheus将监控指标收集并存储为时间序列数据,即指标信息与记录它的时间戳一起存储,以及称为标签的可选键值对。
76.prometheus生态系统由多个组件组成,其中许多组件是可选的,以下对prometheus部分组件做一个简要介绍:
77.1)prometheus server:用于收集和存储时间序列数据。
78.2)client library:客户端库,检测应用程序代码,当prometheus抓取实例的http端点时,客户端库会将所有跟踪的metrics指标的当前状态发送到prometheus server端。
79.3)exporters:prometheus支持多种exporter,通过exporter可以采集metrics数据,然后发送到prometheus server端,所有向promtheus server提供监控数据的程序都可以被称为exporter。
80.4)alertmanager:从prometheus server端接收到alerts后,会进行去重分组,并路由到相应的接收方,发出报警,常见的接收方式有:电子邮件,微信,钉钉,slack等。
81.具体来说,prometheus提供了alertmanageer基于promql来做业务系统的监控告警,当promql查询出来的监控指标的指标值超过定义的预设告警阈值时,prometheus会发送一条告警信息到alertmanager,manager会将告警下发到配置好的告警终端。
82.5)grafana:监控仪表盘,可视化监控数据。上述内容提到,grafana可以支持prometheus系统数据源,因此可接入prometheus系统作为第三方的可视化工具,之前已经对grafana工具做了简要介绍,此处不再赘述。
83.6)pushgateway:各个目标主机可上报数据到pushgateway,然后prometheus server统一从pushgateway拉取数据。
84.s303、若监控指标的指标值符合告警规则,则输出告警信息。
85.在上述方案中,一旦确定监控指标的指标值在异常的基础上还符合告警规则时,
立即输出告警信息,以便相关人员做出反应。
86.本技术实施例中,基于用户在业务系统产生的大量行为数据、业务系统内各项业务的开展情况以及系统运行性能数据,将用户行为信息、业务信息和系统运行性能作为监控指标,实时监测并分析上述监控指标,当监控指标的指标值大于预设正常阈值时,进一步基于预先设定的告警规则,判断监控指标的指标值是否符合告警规则,在指标值符合告警规则时进行相应的告警操作,以实现用户、业务或系统级别的及时告警通知,保障业务系统的安全。
87.下面结合图4和具体的实施例说明本技术的业务系统监控告警方法中根据监控指标的指标值和告警规则进行告警的实现过程。
88.图4为本技术实施例提供的一种家用电器断网检测方法的流程图二。如图3所示,该方法包括:
89.s401、当监控指标的指标值大于告警规则中的预设告警阈值时,获取监控指标的指标值与预设告警阈值的差值,其中,预设告警阈值大于预设正常阈值。
90.在上述方案中,监控指标的指标值大于告警规则中的预设告警阈值,则说明此时监控指标的指标值已经处于异常且符合告警规则的状态,此时可以根据二者的差值来识别对应的告警级别和告警终端。
91.s402、根据监控指标的类型,获取告警级别表。
92.在该步骤中,每个类型的监控指标都有对应的告警级别,可以从告警级别表中获取到当前处于异常且符合告警规则的监控指标类型所涉及到的所有告警级别,以便于后续根据上述差值的范围来确定相应的告警级别。
93.s403、根据差值和告警级别表,获取包括告警级别的告警信息,其中,针对同一监控指标,差值越大,则告警级别越高,告警级别表中存储有不同区段的差值对应的告警级别。
94.在上述方案中,不同区段的差值对应不同的告警级别,根据监控指标的指标值和预设告警阈值二者之间的差值以及从告警级别表中获取到的所有告警级别,便可以确定出包括告警级别的告警信息。
95.本实施例中的告警信息示例性的给出了其包括告警级别,告警级别可以包括严重、一般、轻微和提醒级别,在此基础上还可以进一步细分。在具体应用过程中,还可以根据不同告警终端的实际需求对告警信息所包含的内容进行设置,例如可以同时示出监控指标的名称、分类;也可以给出告警规则的具体内容,便于告警终端识别告警是否出错;可以对监控指标赋予标签,以便告警终端直观的识别标签内容。
96.示例性的,对业务信息进行监控时,发现转账业务平均耗时大于20s,查询业务信息的指标体系表后,发现转账业务的交易时长超过了预设正常阈值,说明此时该监控指标异常,进一步查询对应的告警规则后,得到转账业务严重耗时,触发了严重告1级的告警规则,此时输出的告警信息可以包括以下内容:监控指标名称——业务信息;监控指标分类——业务耗时;监控指标标签——转账;告警规则——转账业务的平均耗时大于15s时是严重2级规则,大于20s时是严重1级规则。
97.当某项业务的技术失败率高于50%时是一个严重2级规则,高于70%时是一个严重1级规则。
98.s404、根据告警级别,从告警数据库中获取告警级别对应的告警终端,并将告警信息推送至告警终端,其中,告警数据库中存储有告警级别对应的告警终端。
99.在该步骤中,告警数据库中存储有每个告警级别对应的不同告警终端,通过查询告警数据库便可以知晓告警级别所对应的告警终端。不同告警规则对应不同的处理方法,每个告警规则的处理可能都是不一样的,例如不同的告警信息,具体的告警信息和告警规则与当前的场景息息相关,最终向对应告警终端输出的告警信息可能只是一个提示,只需要给相关人员发送一个消息提醒即可,而有的告警级别比较严重,需要做到消息的及时送达和反馈,可能需要电话提醒。示例性的,告警终端可以为业务系统的相关负责人员终端,相关负责人可以进一步分为高级、直接和全部负责人。
100.为了保证数据的完整性,在将告警信息推送至告警终端后,将告警信息和对应的告警终端存储至告警数据库。
101.本技术实施例中,通过获取监控指标的指标值与告警规则中的预设告警阈值之间的差值,确定出当前处于异常且符合告警规则的监控指标所对应的告警级别,进而根据告警级别从告警数据库中查询出对应的告警终端,从而实现有针对性的、有层级划分的告警。
102.综合上述实施例,本技术实施例提供的业务系统监控告警方法,通过对业务系统实时采集的用户各类行为数据、业务开展数据和系统性能数据进行监测分析、安全警告,便于及时发现业务系统所面临的风险,同时生成包括告警级别的告警信息,并向该告警级别所对应的告警终端进行告警,不仅便于相关用户及时获取告警信息,还能达到快速有效定位止损的效果。
103.本技术还提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
104.存储器存储计算机执行指令;
105.处理器执行存储器存储的计算机执行指令,以实现如上所述的业务系统监控告警方法。
106.图5为本技术实施例提供的一种电子设备的硬件示意图。如图5所示,本实施例提供的电子设备50包括:处理器501和存储器502。该电子设备50还包括通信部件503。在上述电子设备中,存储器502、处理器501和通信部件503之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接,如可以通过总线504连接。存储器502中存储有实现前述业务系统监控告警方法的计算机执行指令,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器501通过运行存储在存储器502内的软件程序以及模块,从而执行各种功能应用以及数据处理。
107.处理器501的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
108.在上述的图5所示的实施例中,应理解,处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
109.存储器可能包含高速存储器(random access memory,ram),也可能还包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。
110.总线可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(peripheral component,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
111.在本技术的实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器502,上述指令可由电子设备50的处理器501执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
112.一种非临时性计算机可读存储介质,当该存储介质中的指令由终端设备的处理器执行时,使得终端设备能够执行上述理财产品的推荐方法。
113.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
114.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
技术特征:
1.一种业务系统监控告警方法,其特征在于,包括:获取业务系统当前的监控指标,所述监控指标包括用户行为信息、业务信息或系统运行性能中的至少一种,其中,所述用户行为信息包括用户针对所述业务系统的各种行为的时长和/或行为次数,所述业务信息包括所述业务系统内各项业务的交易时长、交易失败率或技术失败率中的至少一种,所述系统运行性能包括内存占用率、网络流量消耗量或cpu能耗中的至少一种;将所述监控指标的指标值与指标体系表进行比较,判断所述监控指标是否异常,其中,所述指标体系表中记录有所述监控指标的预设正常阈值;若是,则获取与所述监控指标对应的告警规则,并判断所述监控指标的指标值是否符合所述告警规则;若所述监控指标的指标值符合所述告警规则,则输出告警信息。2.根据权利要求1所述的方法,其特征在于,所述获取与所述监控指标对应的告警规则之前,所述方法还包括:获取所述监控指标的配置文件,所述配置文件中包括所述监控指标的预设告警阈值;根据所述配置文件生成与所述监控指标对应的告警规则,并对所述监控指标和所述告警规则关联存储。3.根据权利要求2所述的方法,其特征在于,所述若所述监控指标的指标值符合所述告警规则,则输出告警信息,包括:当所述监控指标的指标值大于所述告警规则中的预设告警阈值时,生成告警信息,其中,所述预设告警阈值大于所述预设正常阈值;根据所述告警信息,进行告警。4.根据权利要求3所述的方法,其特征在于,所述当所述监控指标的指标值大于所述告警规则中的预设告警阈值时,生成告警信息,包括:获取所述监控指标的指标值与所述预设告警阈值的差值;根据所述监控指标的类型,获取告警级别表;根据所述差值和所述告警级别表,获取包括告警级别的告警信息,其中,针对同一监控指标,差值越大,则告警级别越高,所述告警级别表中存储有不同区段的差值对应的告警级别。5.根据权利要求4所述的方法,其特征在于,所述根据所述告警信息,进行告警,包括:根据所述告警级别,从告警数据库中获取所述告警级别对应的告警终端,并将所述告警信息推送至所述告警终端,其中,所述告警数据库中存储有告警级别对应的告警终端。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:在将所述告警信息推送至所述告警终端后,将所述告警信息和对应的告警终端存储至所述告警数据库。7.根据权利要求1所述的方法,其特征在于,所述获取业务系统当前的监控指标,包括:采集业务系统的实时日志;将所述实时日志中的日志数据同步至kafka队列;消费所述kafka队列中的日志数据,并将消费后的日志数据按照监控指标分类存储至clickhouse数据库中,其中,所述clickhouse数据库中针对不同的监控指标设置有每个监
控指标对应的独立存储空间。8.根据权利要求1所述的方法,其特征在于,在将所述监控指标的指标值与指标体系表进行比较,判断所述监控指标是否异常之前,所述方法还包括:在初次使用所述业务系统时,输出提示信息,所述提示信息用于提示设置所述监控指标的预设正常阈值。9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至8任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的方法。
技术总结
本申请提供一种业务系统监控告警方法、装置、设备和介质,可用于金融领域或其他领域。该方法包括:获取业务系统当前的监控指标,监控指标包括用户行为信息、业务信息或系统运行性能中的至少一种;将监控指标的指标值与指标体系表进行比较,判断监控指标是否异常,其中,指标体系表中记录有监控指标的预设正常阈值;若是,则获取与监控指标对应的告警规则,并判断监控指标的指标值是否符合告警规则;若监控指标的指标值符合告警规则,则输出告警信息。本申请通过对业务系统实时采集的用户各类行为数据、系统性能数据和业务进展数据进行监测分析、安全警告,便于及时发现业务系统的各项业务以及本身性能面临的风险,以达到快速有效定位止损的效果。位止损的效果。位止损的效果。
技术研发人员:杨云
受保护的技术使用者:中国银行股份有限公司
技术研发日:2023.05.31
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/