作业链路监控方法、装置、终端设备以及存储介质与流程

未命名 09-22 阅读:67 评论:0


1.本发明涉及链路监控领域,尤其涉及一种作业链路监控方法、装置、终端设备以及存储介质。


背景技术:

2.随着市场竞争的加剧和业务需求的增加,越来越多的企业开始进行数字化转型。在数字化转型的过程中,异常作业会对企业的运营和发展造成不良影响。因此,数字化转型下的异常作业治理已经成为企业面临的重要挑战。
3.目前主要采取传统人工方式分析治理异常作业,传统人工方式分析治理异常作业的局限性在于它只能针对已经出现异常的作业进行分析治理,而无法提前对可能出现延迟风险的作业进行预测,进而采取相应的措施来避免作业延迟。此外,传统人工方式只能进行单一环节的监测和管理,难以在全链路上实现全面、多维度的监测和异常识别,这样就难以准确地定位作业异常的根本原因并就根本原因进行治理。


技术实现要素:

4.本发明的主要目的在于提供一种作业链路监控方法、装置、终端设备以及存储介质,旨在解决人工分析治理异常作业时无法提前对出现延迟风险的作业进行预测,和无法准确定位作业异常的根本原因的问题。
5.为实现上述目的,本发明提供一种作业链路监控方法,所述方法包括:
6.通过所述数据层获取作业的跑批数据;
7.在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;
8.当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;
9.在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。
10.可选地,所述作业跑批完成前包括:作业跑批前,所述在作业生命周期中,分别将所述作业跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果的步骤包括:
11.在作业跑批前,使用预先建立的延迟数据预测模型对所述作业的跑批数据进行分析,得到作业跑批前的分析结果,其中,所述延迟数据预测模型是基于预先处理过的所述作业的跑批数据组合构建得到;
12.所述当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制的步骤包括:
13.当作业跑批前的分析结果表明所述作业存在延迟时,触发预先建立的作业跑批前的提前预警机制。
14.可选地,所述作业跑批完成前还包括:作业跑批中,所述在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果的步骤包括:
15.在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断,得到作业跑批中的分析结果,其中,所述实时流计算模型是基于消息队列系统卡夫卡和卡夫卡流处理框架构建得到;
16.所述当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制的步骤包括:
17.当作业跑批中的分析结果符合预设异常条件时,触发预先建立的作业跑批中的实时告警机制。
18.可选地,所述在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断,得到作业跑批中的分析结果的步骤包括:
19.对所述作业的跑批数据进行异常状态计算,得到所述作业的异常状态;
20.判断所述作业的跑批数据中的作业跑批时间是否超过所述作业所在数据层分区的时效限制,得到所述作业的达标情况;
21.将所述作业的异常状态和达标情况进行统计汇总,得到统计汇总结果,将所述统计汇总结果作为所述作业跑批中的分析结果。
22.可选地,所述在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果的步骤包括:
23.在作业跑批完成后,通过预先建立的全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析,得到作业跑批完成后的分析结果。
24.可选地,所述在作业跑批完成后,通过预先建立的全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析,得到作业跑批完成后的分析结果的步骤包括:
25.基于所述作业的跑批数据判断所述作业在预设时间内是否到位,得到判断结果;
26.根据所述判断结果获取所述作业对应的上游链路;
27.根据所述上游链路获取所述上游链路的作业的跑批数据;
28.基于所述上游链路的作业的跑批数据进行链路分析,得到问题节点的定位,所述分析结果包括问题节点的定位。
29.可选地,所述基于所述上游链路的作业的跑批数据进行链路分析,得到问题节点的定位,所述分析结果包括问题节点的定位的步骤之后包括:
30.若所述判断结果表明所述作业在预设时间内已到位,则进行链路数据统计,得到统计后的链路数据,所述分析结果包括统计后的链路数据。
31.可选地,所述在作业跑批前,使用预先建立的延迟数据预测模型对所述作业的跑批数据进行分析的步骤之前包括:
32.建立延迟数据预测模型,具体包括:
33.通过所述数据层获取原始数据;
34.对所述原始数据进行数据处理,得到处理后的数据;
35.对处理后的数据组合构建方程组

求解所述方程组得到作业相对跑批时间的模型区间,将所述模型区间作为所述延迟数据预测模型。
36.可选地,所述在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断的步骤之前包括:
37.依据预先设置的数据层分区规则对所述作业进行分区,得到不同分区的作业;
38.基于所述消息队列系统卡夫卡和卡夫卡流处理框架,开启多个卡夫卡流处理实例;
39.基于每个所述卡夫卡流处理实例,启动多个流线程,得到实时流计算模型,其中所述流线程对所述不同分区的作业进行异常状态计算和达标判断。
40.本发明实施例还提出一种作业链路监控装置,所述装置包括:
41.数据获取模块,用于通过所述数据层获取作业的跑批数据;
42.数据分析模块,用于在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;
43.分析结果处理模块,用于当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。
44.本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的作业链路监控程序,所述作业链路监控程序被所述处理器执行时实现如上所述的作业链路监控方法。
45.本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有作业链路监控程序,所述作业链路监控程序被处理器执行时实现如上所述的作业链路监控方法。
46.本发明实施例提出的一种作业链路监控方法、装置、终端设备以及存储介质,通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。通过本发明实施例方案,将所述作业的跑批数据输入预先建立的模型进行分析,得到相应的分析结果,在作业跑批完成前,可以对可能出现延迟风险的作业通过模型进行预测,进而采取相应的措施来避免作业延迟。在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告,根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常作业进行治理,最终保证业务数据的时效性。
附图说明
47.图1为本发明作业链路监控装置所属终端设备的功能模块示意图;
48.图2为本发明作业链路监控方法第一实施例的流程示意图;
49.图3为本发明关于智能监控系统的架构示意图;
50.图4为本发明实施例在作业跑批前进行作业链路监控的细化流程示意图;
51.图5为本发明实施例中卡夫卡流处理框架的并行模型示意图;
52.图6为本发明实施例中实时流计算模型流程示意图;
53.图7为本发明实施例中作业跑批完成后通过全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析的流程示意图;
54.图8为本发明实施例中瓶颈节点计算流程示意图。
55.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
56.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
57.本发明实施例的主要解决方案是:通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。通过本发明实施例方案,将所述作业的跑批数据输入预先建立的模型进行分析,得到相应的分析结果,在作业跑批完成前,可以对可能出现延迟风险的作业通过模型进行预测,进而采取相应的措施来避免作业延迟。在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告,根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常作业进行治理,最终保证业务数据的时效性。
58.本发明实施例涉及的技术术语:
59.作业:在计算机和信息技术领域,作业是指计算机或其他设备执行的特定任务或一系列任务,它们通常由一系列预定义的步骤和规则组成,以实现某种目标。
60.作业跑批:作业跑批是指将作业批量提交到一台或多台计算机中,由计算机自动化地运行作业中所定义的一系列步骤,完成数据的处理、计算、存储和分析等任务。在企业中,作业跑批通常涉及多个作业节点之间的调度、运行和结果反馈等,需要对作业跑批进行全链路监控和异常处理,以确保作业跑批的准确性和可靠性。
61.作业跑批数据:作业跑批数据指在执行作业跑批的过程中,所产生的输入数据、处理数据、输出数据以及作业运行状态等信息。
62.kafka:kafka(卡夫卡)是一种高吞吐量、分布式的消息队列系统,旨在处理海量的实时数据流。kafka消息队列系统通过分布式的方式进行数据存储和处理,可以快速地处理大规模的数据,并支持数据的持久化存储。
63.kafka stream:kafka stream(卡夫卡流处理框架)是kafka消息队列系统中的一种数据流处理技术,它将数据处理的逻辑置于kafka消息队列系统之中,以流的形式对数据进行处理。
64.kafka topic:kafka topic(卡夫卡主题)是kafka消息队列系统中的一个术语,用来指代一种数据记录集合,数据在kafka消息队列系统中以topic为单位进行发布和消费。每个topic可以分为多个partition(分区),每个partition内部是有序的,partition之间是无序的,多个partition组成了一个topic。
65.pdm:pdm(physical data model,物理数据模型区)是基于fs-ldm设计,存放规范化数据,保留较长历史数据。
66.sum:sum(basic derived data,基础衍生数据区)是存放常用参数数据以及物理
数据模型区拉链还原、预关联、预统计数据。
67.bmt:bmt(business mart,业务领域集市区)是按业务领域建立,存放业务领域内的基础和扩展数据。
68.amt:amt(application mart,应用集市区)是按应用系统建立,存放应用系统批量生成的私有数据。
69.本发明实施例考虑到:目前主要采取传统人工方式分析治理异常作业,传统人工方式分析治理异常作业的局限性在于它只能针对已经出现异常的作业进行分析治理,而无法提前对可能出现延迟风险的作业进行预测,进而采取相应的措施来避免作业延迟。此外,传统人工方式只能进行单一环节的监测和管理,难以在全链路上实现全面、多维度的监测和异常识别,这样就难以准确地定位作业异常的根本原因并就根本原因进行治理。
70.由此,本发明实施例提出解决方案,将所述作业的跑批数据输入预先建立的模型进行分析,得到相应的分析结果,在作业跑批完成前,可以对可能出现延迟风险的作业通过模型进行预测,进而采取相应的措施来避免作业延迟。在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告,根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常作业进行治理,最终保证业务数据的时效性。
71.具体地,参照图1,图1是本发明作业链路监控装置所属设备的功能模块示意图。该作业链路监控装置可以为独立于设备的、能够进行数据处理的装置,其可以通过硬件或软件的形式承载于设备上。该设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定设备或服务器等。
72.在本实施例中,该作业链路监控装置所属设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
73.存储器130中存储有操作系统以及作业链路监控程序;输出模块110可为显示屏等。通信模块140可以包括wifi模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
74.其中,存储器130中的作业链路监控程序被处理器执行时实现以下步骤:
75.通过所述数据层获取作业的跑批数据;
76.在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;
77.当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;
78.在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。
79.进一步地,存储器130中的作业链路监控程序被处理器执行时还实现以下步骤:
80.在作业跑批前,使用预先建立的延迟数据预测模型对所述作业的跑批数据进行分析,得到作业跑批前的分析结果,其中,所述延迟数据预测模型是基于预先处理过的所述作业的跑批数据组合构建得到;
81.当作业跑批前的分析结果表明所述作业存在延迟时,触发预先建立的作业跑批前的提前预警机制。
82.进一步地,存储器130中的作业链路监控程序被处理器执行时还实现以下步骤:
83.在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断,得到作业跑批中的分析结果,其中,所述实时流计算模型是基于消息队列系统卡夫卡和卡夫卡流处理框架构建得到;
84.当作业跑批中的分析结果符合预设异常条件时,触发预先建立的作业跑批中的实时告警机制。
85.进一步地,存储器130中的作业链路监控程序被处理器执行时还实现以下步骤:
86.对所述作业的跑批数据进行异常状态计算,得到所述作业的异常状态;
87.判断所述作业的跑批数据中的作业跑批时间是否超过所述作业所在数据层分区的时效限制,得到所述作业的达标情况;
88.将所述作业的异常状态和达标情况进行统计汇总,得到统计汇总结果,将所述统计汇总结果作为所述作业跑批中的分析结果。
89.进一步地,存储器130中的作业链路监控程序被处理器执行时还实现以下步骤:
90.在作业跑批完成后,通过预先建立的全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析,得到作业跑批完成后的分析结果。
91.进一步地,存储器130中的作业链路监控程序被处理器执行时还实现以下步骤:
92.基于所述作业的跑批数据判断所述作业在预设时间内是否到位,得到判断结果;
93.根据所述判断结果获取所述作业对应的上游链路;
94.根据所述上游链路获取所述上游链路的作业的跑批数据;
95.基于所述上游链路的作业的跑批数据进行链路分析,得到问题节点的定位,所述分析结果包括问题节点的定位。
96.进一步地,存储器130中的作业链路监控程序被处理器执行时还实现以下步骤:
97.若所述判断结果表明所述作业在预设时间内已到位,则进行链路数据统计,得到统计后的链路数据,所述分析结果包括统计后的链路数据。
98.进一步地,存储器130中的作业链路监控程序被处理器执行时还实现以下步骤:
99.建立延迟数据预测模型,具体包括:
100.通过所述数据层获取原始数据;
101.对所述原始数据进行数据处理,得到处理后的数据;
102.对处理后的数据组合构建方程组

求解所述方程组得到作业相对跑批时间的模型区间,将所述模型区间作为所述延迟数据预测模型。
103.进一步地,存储器130中的作业链路监控程序被处理器执行时还实现以下步骤:
104.依据预先设置的数据层分区规则对所述作业进行分区,得到不同分区的作业;
105.基于所述消息队列系统卡夫卡和卡夫卡流处理框架,开启多个卡夫卡流处理实例;
106.基于每个所述卡夫卡流处理实例,启动多个流线程,得到实时流计算模型,其中所述流线程对所述不同分区的作业进行异常状态计算和达标判断。
107.本实施例通过上述方案,具体通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于
所述作业跑批完成后的分析结果生成作业监控分析报告。通过本发明实施例方案,将所述作业的跑批数据输入预先建立的模型进行分析,得到相应的分析结果,在作业跑批完成前,可以对可能出现延迟风险的作业通过模型进行预测,进而采取相应的措施来避免作业延迟。在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告,根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常作业进行治理,最终保证业务数据的时效性。
108.基于上述设备架构但不限于上述架构,提出本发明方法实施例。
109.本实施例方法的执行主体可以是一种作业链路监控装置,该作业链路监控装置可以为独立于设备的、能够进行数据处理的装置,其可以通过硬件或软件的形式承载于设备上。该设备可以是智能监控系统。本实施例以智能监控系统进行举例,通过智能监控系统实现对作业在完整生命周期的全方面多维度监控,不仅可以对可能出现延迟风险的作业进行预测,还可以基于在作业生命周期中对作业进行分析得到的分析结果生成作业监控分析报告。
110.参照图2,图2为本发明作业链路监控方法第一实施例的流程示意图。
111.本实施例方法可以应用于银行业,实现对银行业数据仓库数据类作业全链路时效监控保鲜。
112.如图2所示,所述作业链路监控方法包括:
113.步骤s10,通过所述数据层获取作业的跑批数据。
114.其中,为了更好地对本方案中所使用到的装置和架构进行解释说明,可以引入智能监控系统,本实施方法应用于该智能监控系统。
115.如图3所示,图3为本发明关于智能监控系统的架构示意图。其中,智能监控系统包括:数据层、模型层、计算层、服务层和应用层。
116.其中,数据层中的数据的主要来源是内部作业调度系统通过消息队列系统kafka推送的作业的跑批数据。基于作业的跑批数据,并结合数据存储系统的特性,将作业的跑批数据分别存入不同的数据存储系统中,例如mysql、gaussdb和elasticsearch等,供不同场景使用。
117.然后,在模型层中构建模型是智能监控系统进行正确、及时、有效监控的基础。通过构建延迟数据预测模型、实时流计算模型、全链路根因分析模型、健康度评分模型等分别达到事前提前检测,事中实时监测,事后根因分析的目的。
118.然后,在计算层中,利用在模型层中构建的延迟数据预测模型,快速计算出作业中可能存在的异常,并及时推送给服务层。利用在模型层中构建的实时流计算模型,实时计算出作业中存在的异常,并推送给服务层。同时,基于大量作业的历史跑批数据和全链路根因分析模型,进行事后多维度分析和可优化空间引导。
119.其中,可优化空间引导是指,在进行事后多维度分析之后,得到相应的优化方案,基于优化方案引导企业进行优化和改进。其中,可优化空间引导还可以对部分作业的数据区分类进行适应性调整。
120.然后,在服务层中,首先,高保障资产会自动作为监控对象加入监控池;其次,智能监控系统为数据开发人员提供自助式接入监控对象的功能,使得数据开发人员认为需要进行监控的资产都能够作为监控对象加入监控池中,其中,监控对象以作业的形式存储在数
据层中;然后,对监控对象构建不同的模型,在作业的不同生命周期分别使用不同的模型对作业进行计算;当监控对象出现异常时,智能监控系统发出预警监控通知;最后,智能监控系统生成作业监控分析报告。
121.然后,应用层分为核心监控池、自定义监控、监控报告和异常闭环跟进四个部分。其中,核心监控池为零售核心资产和零售高时效资产提供监控容器;自定义监控分为整体监控和局部监控,整体监控提供产品级监控服务,局部监控则提供单体化监控服务;监控报告提供作业多维度指标分析,形成显示在监控大屏的专属监控报告和日报、周报、月报等各类报告,并在上述报告中提出作业优化建议;异常闭环跟进帮助数据开发人员进行异常分类管理,并提供异常长效解决机制。
122.另外,智能监控系统是伴随作业生命周期运行的。其中,作业生命周期包括事前,事中和事后,即作业跑批前,作业跑批中和作业跑批后。在作业跑批前,智能监控系统会提前检测作业,如果发现作业有延迟风险,智能监控系统会向相关负责人发送作业延迟的预警通知;在作业跑批中,智能监控系统会实时监测作业运行状态,如果发现作业出现异常状态和不达标情况,智能监控系统会将作业的异常状态和不达标情况及时通知给相关负责人;在作业跑批后,智能监控系统会汇总作业跑批数据,进行作业根因分析,生成作业监控分析报告。
123.此外,智能监控系统能根据不同监控对象的情况提供全方位监控服务,包括作业延迟预测时的延迟监控,作业实时计算时的长作业监控、资源等待监控、执行报错监控,当智能监控系统发现监控对象出现异常情况时,智能监控系统会通过企业内部通知和邮件两种方式及时通知相关负责人。
124.步骤s20,在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后。
125.其中,数据治理是一种组织和管理数据的过程和实践,旨在确保企业数据的准确性、完整性、可靠性、安全性、合规性以及实时可用性。数据治理包括数据的收集、存储、加工、分析和使用等各个方面。在本实施例中,数据治理模型包括但不限于延迟数据预测模型、实时流计算模型、全链路根因分析模型和健康度评分模型。
126.所述作业生命周期包括作业跑批完成前和作业跑批完成后。
127.其中,作业跑批完成前包括作业跑批前和作业跑批后,作业跑批完成后即作业跑批后。
128.作为一种实施方式,在作业生命周期的任意一个阶段,比如作业跑批前、作业跑批中和作业跑批后的一个或多个阶段,将所述作业的跑批数据输入不同阶段预先建立的数据治理模型进行分析,得到相应的分析结果。
129.步骤s30,当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制。
130.作为一种实施方式,在作业跑批完成前的任意一个阶段,比如作业跑批前和作业跑批中的一个或多个阶段,对不同阶段对应的分析结果进行该阶段的预设异常条件判断,当某一阶段对应的分析结果符合该阶段的预设异常条件时,触发该阶段对应的监控通知机制。
131.步骤s40,在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。
132.其中,作业监控分析报告提供作业多维度指标分析,并在上述报告中提出作业优化建议。
133.本实施例通过上述方案,通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。通过本发明实施例方案,将所述作业的跑批数据输入预先建立的模型进行分析,得到相应的分析结果,在作业跑批完成前,可以对可能出现延迟风险的作业通过模型进行预测,进而采取相应的措施来避免作业延迟。在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告,根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常作业进行治理,最终保证业务数据的时效性。
134.进一步地,本实施例基于上述图2所示的实施例,对上述步骤s20和步骤s30进行细化。
135.在本实施例中,上述步骤s20,在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后可以包括:
136.步骤s21,在作业跑批前,使用预先建立的延迟数据预测模型对所述作业的跑批数据进行分析,得到作业跑批前的分析结果,其中,所述延迟数据预测模型是基于预先处理过的所述作业的跑批数据组合构建得到。
137.其中,作为一个具体实施方式,基于预先处理过的作业的跑批数据组合构建一个方程组,对方程组求解得到作业相对跑批时间的模型区间。该作业相对跑批时间的模型区间即为延迟数据预测模型。
138.然后,从数据层中获取当日待上线作业的跑批数据。
139.其中,作业的跑批数据包括当日待上线作业和当日待上线作业的链路信息等。
140.当当日待上线作业所在的链路中的顶点作业开始执行之后,记录当日待上线作业的跑批时间。
141.然后,将当日待上线作业的跑批时间与作业相对跑批时间的模型区间进行比对,得到作业跑批前的分析结果。
142.在本实施例中,上述步骤s30,当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制,可以包括:
143.步骤s31,当作业跑批前的分析结果表明所述作业存在延迟时,触发预先建立的作业跑批前的提前预警机制。
144.其中,若当日待上线作业的跑批时间不处于作业相对跑批时间的模型区间范围内,则认为当日待上线作业存在延迟风险。
145.然后,基于延迟风险触发预先建立的作业跑批前的提前预警机制。
146.其中,作为一种实施方式,智能监控系统会向相关负责人发送作业延迟预警通知。
147.如图4所示,图4为本发明实施例在作业跑批前进行作业链路监控的细化流程示意图。
148.首先,监控池中的监控对象以作业的形式存储在数据层中。
149.然后,对监控池中的监控对象进行数据采集和处理,其中,job1,job2,job3...jobn为采集得到的作业。
150.然后,对进行数据采集和处理后的多组作业数据t
job
、t
top
、l、flag组合构建方程组,并求解该方程组,得到一个[t
x_min
,t
x_max
]的模型区间,该模型区间即为延迟数据预测模型。
[0151]
然后,从数据层中获取当日待上线作业的跑批数据,判断当日待上线作业的跑批数据中的跑批时间是否处于模型区间的范围内,如果当日待上线作业的跑批数据中的跑批时间不处于模型区间的范围内,则触发延迟预警机制,向相关负责人发送作业延迟预警通知。
[0152]
本实施例通过上述方案,通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。进一步地,在作业跑批前,使用预先建立的延迟数据预测模型对所述作业的跑批数据进行分析,得到作业跑批前的分析结果,其中,所述延迟数据预测模型是基于预先处理过的所述作业的跑批数据组合构建得到;当作业跑批前的分析结果表明所述作业存在延迟时,触发预先建立的作业跑批前的提前预警机制。
[0153]
通过本发明实施例方案,将所述作业的跑批数据输入预先建立的模型进行分析,得到相应的分析结果,在作业跑批完成前,可以对可能出现延迟风险的作业通过模型进行预测,进而采取相应的措施来避免作业延迟。在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告,根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常数据进行治理,最终保证业务数据的时效性。进一步地,本发明实施例方案在作业跑批前使用预先建立的延迟数据预测模型对作业的跑批数据进行分析,得到作业跑批前的分析结果。当作业存在延迟风险时,可以及时向相关负责人进行预警,由此可以提前调整资源配置,排除潜在问题,以预防作业延迟问题的发生,保证业务数据的时效性。
[0154]
进一步地,本实施例基于第一实施例,在上述步骤s20,在作业生命周期中,分别将所述作业跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后之前可以还包括:
[0155]
步骤s201,建立延迟数据预测模型。
[0156]
其中,步骤s201,建立延迟数据预测模型具体包括:
[0157]
步骤s2011,通过所述数据层获取原始数据。
[0158]
具体地,原始数据可以包括当日待上线作业的历史跑批时间和链路信息。
[0159]
步骤s2012,对所述原始数据进行数据处理,得到处理后的数据。
[0160]
首先,对原始数据进行数据清洗。
[0161]
其中,数据清洗具体是对原始数据进行处理、筛选和过滤等,以消除数据中存在的错误和干扰。数据清洗可以包括去除重复数据、过滤不合规数据、处理缺失值、统一格式和清理异常值等操作。在本实施例中,可以根据实际需要选取一个或多个操作对原始数据进行数据清洗。
[0162]
其中,由于作业的跑批情况可能受到外部环境因素影响,所以需要在数据清洗时对获取到的原始数据进行特殊标记处理。
[0163]
然后,因为数据层中的原始数据主要来源于内部作业调度系统通过消息队列系统kafka推送的作业的跑批数据,而内部作业调度系统的推送机制具有局限性,导致作业的部分状态无法得到保留,因此在建立模型之前还需要对经过数据清洗后的原始数据进行数据预处理。
[0164]
其中,内部作业调度系统指的是一个企业内部用于管理和调度各种作业的系统。在内部作业调度系统中,可以配置和管理各种作业。在实际应用中,智能监控系统与内部作业调度系统通常是紧密集成的,通过api接口或其他方式进行数据交互和信息共享。
[0165]
其中,数据预处理的目标是将经过数据清洗后的原始数据转换为可用的、清晰的、高质量的数据集,从而提高原始数据的价值和利用率。常见的数据预处理操作包括:数据变换、数据集成、数据选择和数据降维等。在本实施例中,可以根据实际需要选取一个或多个操作对经过数据清洗后的原始数据进行数据预处理。
[0166]
步骤s2013,对处理后的数据组合构建方程组

求解所述方程组得到作业相对跑批时间的模型区间,将所述模型区间作为所述延迟数据预测模型。
[0167]
其中,在对原始数据进行特殊标记处理、数据清洗和数据预处理之后,得到处理后的数据。
[0168]
然后,对处理后的数据中的作业的历史跑批时间、作业所在链路关系和整体异常标志组合构建方程组。
[0169]
令一个作业某日的历史跑批时间是t
job
,该作业所在链路上游的顶点的历史跑批时间是t
top
,顶点到该作业所需途经的链路长度为l,该作业该日的历史跑批数据是否存在整体异常的标志为flag,则对于该作业该日的相对跑批时间tx可以列出如下方程组(1):
[0170][0171]
其中,对该作业该日的历史跑批数据是否存在整体异常设置标志即为在数据清洗时对原始数据进行特殊标记处理。
[0172]
其中,μ是作业的历史跑批数据存在整体异常时链路跑批时间的调整系数。
[0173]
然后,可以求解出一个[t
x_min
,t
x_max
]的模型区间,该模型区间即为延迟数据预测模型。
[0174]
为了保证延迟数据预测模型的可靠性和稳定性,作为一种具体实施方式,智能监控系统可以在数据层保留50天的作业的历史跑批数据,使用这些历史跑批数据来更新模型区间。
[0175]
而且,在该作业当日跑批完成后,智能监控系统会获取该作业当日的跑批时间对
该作业的模型区间进行维护。
[0176]
具体地,智能监控系统会将作业当日的跑批时间加入作业的历史跑批数据中,使用作业的历史跑批数据重新计算模型区间的上下界,进一步提高延迟数据预测模型的实时性。
[0177]
本实施例通过上述方案,通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。另外,建立延迟数据预测模型,具体包括:通过所述数据层获取原始数据;对所述原始数据进行数据处理,得到处理后的数据;对处理后的数据组合构建方程组

求解所述方程组得到作业相对跑批时间的模型区间,将所述模型区间作为所述延迟数据预测模型。
[0178]
通过本发明实施例方案,对原始数据进行数据处理,可以消除原始数据中存在的错误和干扰,并把原始数据转换为可用的、清晰的、高质量的数据集,从而提高原始数据的价值和利用率,使得基于处理后的原始数据建立的延迟数据预测模型更为可靠。并且,本发明实施例提供了一个建立延迟数据预测模型的方案,可以在作业跑批前使用该延迟数据预测模型对作业的跑批数据进行分析,得到作业跑批前的分析结果;当作业存在延迟风险时,可以及时向相关负责人进行预警,由此可以提前调整资源配置,排除潜在问题,以预防作业延迟问题的发生,保证业务数据的时效性。
[0179]
进一步地,本实施例基于上述图2所示的实施例,对上述步骤s20和步骤s30进行细化。
[0180]
在本实施例中,上述步骤s20,在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后可以包括:
[0181]
步骤s22,在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断,得到作业跑批中的分析结果,其中,所述实时流计算模型是基于消息队列系统卡夫卡和卡夫卡流处理框架构建得到。
[0182]
其中,作业的异常状态包括长作业、资源约束和报错。
[0183]
具体地,作为一种实施方式,步骤s22,在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断,得到作业跑批中的分析结果可以包括:
[0184]
步骤s221,对所述作业的跑批数据进行异常状态计算,得到所述作业的异常状态。
[0185]
其中,可以根据需要制定计算作业异常状态的规则。
[0186]
例如,作业的异常状态计算规则可以为:
[0187]
若一个作业拥有多次跑批记录且该作业第一次跑批的运行状态不是end ok,则判定该作业是报错作业;
[0188]
若一个作业处于executing状态的时间超过30分钟,则判定该作业是长作业;
[0189]
若一个作业的上游作业的状态均为end ok,但该作业处于wait状态大于30分钟,则判定该作业受到了内部作业调度系统资源约束。
[0190]
步骤s222,判断所述作业的跑批数据中的作业跑批时间是否超过所述作业所在数据层分区的时效限制,得到所述作业的达标情况。
[0191]
其中,数据层分为多个不同的分区(如pdm/sum区、bmt区、amt区等),根据不同分区的特征对作业进行分类,并将分类好的作业分别放置在对应的分区中。
[0192]
其中,不同分区对分区中作业的时效限制不同。
[0193]
其中,时效限制是完成作业的时间约束。
[0194]
其中,如果作业的跑批时间超过该作业所在数据层分区的时效限制,则判断该作业为不达标。
[0195]
步骤s223,将所述作业的异常状态和达标情况进行统计汇总,得到统计汇总结果,将所述统计汇总结果作为所述作业跑批中的分析结果。
[0196]
参照图5,图5为本发明实施例中卡夫卡流处理框架的并行模型示意图。
[0197]
如图5所示,对作业进行异常状态计算得到的异常状态结果和对作业的跑批时间进行判断得到的达标情况先进行归纳汇总后存储在数据层,再向相关负责人发送告警通知。
[0198]
其中,在每一个发送周期内只会向相关负责人发送一次告警通知。
[0199]
其中,作业的异常状态包括超时(长作业)、资源约束和报错。
[0200]
其中,作为一种实施方式,在一个发送周期中,可以对多个相同分区的作业进行异常状态计算和达标情况判断,将多个相同分区的作业的异常状态和达标情况进行归纳汇总后存储在数据层,然后再向相关负责人发送告警通知。
[0201]
其中,作为另一种实施方式,由于智能监控系统在应用层中有自定义监控模块,自定义监控分为整体监控和局部监控,整体监控提供产品级监控服务,局部监控提供单体化数据监控。若当前采用整体监控,则以产品作为告警机制的基本单位,确保产品内每个作业均完成计算后再向相关负责人发送通知。
[0202]
在本实施例中,上述步骤s30,当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制,可以包括:
[0203]
步骤s32,当作业跑批中的分析结果符合预设异常条件时,触发预先建立的作业跑批中的实时告警机制。
[0204]
其中,当作业跑批中的分析结果表明作业的状态为长作业、资源约束或报错时,或者作业跑批中的分析结果表明作业不达标时,即为符合预设异常条件,会触发预先建立的作业跑批中的实时告警机制。
[0205]
本实施例通过上述方案,通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。进一步地,在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断,得到作业跑批中的分析结果,其中,所述实时流计算模型是基于消息队列系统卡夫卡和卡夫卡流处理框架构建得到;当作业跑批中的分析结果符合预设异常条件时,触发预先建立的作业跑批中的实时告警机制。
[0206]
通过本发明实施例方案,将所述作业的跑批数据输入预先建立的模型进行分析,得到相应的分析结果,在作业跑批完成前,可以对可能出现延迟风险的作业通过模型进行预测,进而采取相应的措施来避免作业延迟。在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告,根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常作业进行治理,最终保证业务数据的时效性。进一步地,本发明实施例方案在作业跑批中使用预先建立的实时流计算模型对作业的跑批数据进行分析,得到作业跑批中的分析结果。当作业跑批中的分析结果符合预设异常条件时,可以及时向相关负责人进行告警,由此可以通过及时调整作业执行方案,解决问题,使业务数据不受影响,保证业务数据的时效性。
[0207]
本实施例基于第一实施例,在上述步骤s20,在作业生命周期中,分别将所述作业跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后之前可以还包括:
[0208]
步骤s202,建立实时流计算模型。
[0209]
其中,步骤s202,建立实时流计算模型具体包括:
[0210]
步骤s2021,依据预先设置的数据层分区规则对所述作业进行分区,得到不同分区的作业。
[0211]
其中,数据层分为多个不同的分区(如pdm/sum区、bmt区、amt区等),基于不同分区的特征对作业进行分类,并将分类好的作业分别放置在对应的分区中。
[0212]
然后,根据不同的分区在消息队列系统卡夫卡中设置相应的kafka topic,每个kafka topic对应一个分区。
[0213]
步骤s2022,基于所述消息队列系统卡夫卡和卡夫卡流处理框架,开启多个卡夫卡流处理实例。
[0214]
步骤s2023,基于每个所述卡夫卡流处理实例,启动多个流线程,得到实时流计算模型,其中所述流线程对所述不同分区的作业进行异常状态计算和达标判断。
[0215]
参照图6,图6为本发明实施例中实时流计算模型流程示意图。
[0216]
如图6所示,内部作业调度系统作为producer(生产者)向消息队列系统卡夫卡推送作业的跑批数据。
[0217]
其中,将不同分区的作业的跑批数据输入对应的kafka topic中。同时,kafka stream框架不断从kafka topic中读取作业的跑批数据进行计算,并输出计算结果。
[0218]
其中,kafka stream框架对作业的跑批数据进行计算包括对作业的跑批数据进行异常状态计算,判断作业的跑批数据中的作业跑批时间得到的作业的达标情况以及将作业的异常状态和达标情况进行统计汇总。
[0219]
其中,kafka stream框架输出的计算结果即为统计汇总结果。
[0220]
然后,从kafka topic中输出计算结果。同时,智能监控系统作为consumer(消费者)从kafka topic中实时获取计算结果。
[0221]
本实施例通过上述方案,通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述
作业跑批完成后的分析结果生成作业监控分析报告。另外,依据预先设置的数据层分区规则对所述作业进行分区,得到不同分区的作业;基于所述消息队列系统卡夫卡和卡夫卡流处理框架,开启多个卡夫卡流处理实例;基于每个所述卡夫卡流处理实例,启动多个流线程,得到实时流计算模型,其中所述流线程对所述不同分区的作业进行异常状态计算和达标判断。
[0222]
在本发明实施例方案中,实时流计算模型是基于消息队列系统卡夫卡和卡夫卡流处理框架构建得到,消息队列系统卡夫卡和卡夫卡流处理框架可以实现作业的跑批数据的快速传递和高效处理,提高数据处理的速度和准确性。另外,卡夫卡流处理框架采用并行处理方式,卡夫卡流处理框架中的多个线程能同时对多个分区中的作业进行异常状态计算和达标判断,并且线程之间不存在状态共享和通信,从而提高了智能监控系统的运行效率和多任务的处理能力。
[0223]
进一步地,本实施例基于上述图2所示的实施例,对上述步骤s20进行细化。
[0224]
在本实施例中,上述步骤s20,在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后可以包括:
[0225]
步骤s23,在作业跑批完成后,通过预先建立的全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析,得到作业跑批完成后的分析结果。
[0226]
具体地,作为一种实施方式,步骤s23,在作业跑批完成后,通过预先建立的全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析,得到作业跑批完成后的分析结果可以包括:
[0227]
步骤s231,基于所述作业的跑批数据判断所述作业在预设时间内是否到位,得到判断结果。
[0228]
其中,将作业的跑批数据中的作业跑批时间与该作业所在的数据层分区的时效限制进行比较,若作业的跑批数据中的作业跑批时间大于该作业所在的数据层分区的时效限制,则认为该作业在预设时间内未到位。
[0229]
步骤s232,根据所述判断结果获取所述作业对应的上游链路。
[0230]
其中,作业对应的上游链路指的是影响该作业运行的前置作业链路。在一个复杂的作业流程中,每个作业通常都需要依赖其他作业输出的数据或状态才能正常执行,这些依赖关系形成了一个作业链路。每个作业链路都可以被看作是一个单向有向图中的一条路径,其中每个节点都代表一个作业。上游链路就是指影响当前作业的前序节点所构成的链路。
[0231]
步骤s233,根据所述上游链路获取所述上游链路的作业的跑批数据。
[0232]
步骤s234,基于所述上游链路的作业的跑批数据进行链路分析,得到问题节点的定位,所述分析结果包括问题节点的定位。
[0233]
参照图7,图7为本发明实施例中在作业跑批完成后通过全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析的流程示意图。
[0234]
其中,把每个作业视作种子作业,首先判断种子作业在该作业所在数据层分区的时效限制内是否到位。
[0235]
若种子作业未到位,则获取以种子作业为出发点的上游全链路以及全链路作业的
跑批信息,然后从全链路中抓取最上游未完成的节点。
[0236]
若种子作业已经到位,则获取以种子作业为出发点的上游关键链路以及关键链路作业的跑批信息。
[0237]
其中,关键链路的定义是种子作业所有链路中影响种子作业最晚的一条链路。
[0238]
然后,从关键链路中定位报错节点、瓶颈节点、长作业节点和资源节点。
[0239]
其中,报错节点是作业链路中出现错误或异常的节点,其产生的错误或异常会影响链路中后续作业的执行。
[0240]
瓶颈节点是作业链路中导致整条链路执行速度变慢的节点,即该节点的执行时间较长,影响了整个链路的执行速度。
[0241]
长作业节点是作业链路中执行时间较长的节点,其执行时间长是由于数据量大、计算量多等原因导致,并且其执行时间过长可能会导致整个作业流程的延迟。
[0242]
资源节点是作业链路中需要谨慎管理并分配的节点,在该节点中存在一些资源限制的问题,比如内存、磁盘、网络带宽等资源的限制,如果资源分配不合理,可能会导致整个作业链路无法正常执行。
[0243]
其中,在计算报错节点的过程中,还需要判断滞留节点,如果作业的最早完成时间与最早开始时间的时间差大于某个预设值,这个作业节点就会被判定为滞留节点。
[0244]
其中,预设值可以根据场景需求和业务时效需求进行设置。
[0245]
其中,瓶颈节点与报错节点互斥,本发明实施例中计算瓶颈节点的流程如图8所示,在排除掉报错节点但不排除滞留节点的关键链路上,依次查询pdm/sum区最小层级节点、bmt区最大层级节点、amt区最大层级节点,确定瓶颈节点。
[0246]
其中,瓶颈节点在关键链路分析是唯一的。
[0247]
作为一种实施方式,在步骤s234,基于所述上游链路的作业的跑批数据进行链路分析,得到问题节点的定位,所述分析结果包括问题节点的定位之后,还可以包括:
[0248]
步骤s235,若所述判断结果表明所述作业在预设时间内已到位,则进行链路数据统计,得到统计后的链路数据,所述分析结果包括统计后的链路数据。
[0249]
其中,若所述判断结果表明所述作业在预设时间内已到位,在完成关键链路分析后,则还需要完成一些关键链路指标的统计,例如链路总时长、运行总时长、等待总时长等,如果链路延伸到仓外作业,则还需要统计仓外链路总时长。
[0250]
另外,在链路分析的过程中,部分作业无法准确地进行数据区分类,所以在计算时会根据这些作业所在链路位置适应性地调整数据区。
[0251]
本实施例通过上述方案,通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。进一步地,在作业跑批完成后,通过预先建立的全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析,得到作业跑批完成后的分析结果。其中,基于所述作业的跑批数据判断所述作业在预设时间内是否到位,得到判断结果;根据所述判断结果获取所述作业对应的上游链路;根据所述上游链路获取所述上游链路的作业的跑批数据;基于所述上游链路的作业的跑批数据进行链路分析,
得到问题节点的定位,所述分析结果包括问题节点的定位。另外,若所述判断结果表明所述作业在预设时间内已到位,则进行链路数据统计,得到统计后的链路数据,所述分析结果包括统计后的链路数据。
[0252]
通过本发明实施例方案,将所述作业的跑批数据输入预先建立的模型进行分析,得到相应的分析结果,在作业跑批完成前,可以对可能出现延迟风险的作业通过模型进行预测,进而采取相应的措施来避免作业延迟。在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告,根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常作业进行治理,最终保证业务数据的时效性。进一步地,本发明实施例方案通过预先建立的全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析,能够精确定位作业异常的根本原因,对作业异常的根本原因进行问题剖析,形成短期和长期治理方案,最终将作业异常问题闭环化,防止后续该作业异常问题重复发生。其中,本发明实施例方案通过分析作业的上游链路信息,快速定位问题节点,减少了故障定位的时间,提高了根本原因分析的效率。另外,本发明实施例方案通过链路数据统计,可以全面把握整个链路各个节点的处理情况,从而为进一步优化链路提供数据支撑。
[0253]
此外,本技术实施例还提出一种作业链路监控装置,所述作业链路监控装置包括:
[0254]
数据获取模块,用于通过所述数据层获取作业的跑批数据;
[0255]
数据分析模块,用于在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;
[0256]
分析结果处理模块,用于当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。
[0257]
本实施例实现作业链路监控的原理及实施过程,请参照上述各实施例,在此不再赘述。
[0258]
此外,本技术实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的作业链路监控程序,所述作业链路监控程序被所述处理器执行时实现如上所述的作业链路监控方法的步骤。
[0259]
由于本作业链路监控程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
[0260]
此外,本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有作业链路监控程序,所述作业链路监控程序被处理器执行时实现如上所述的作业链路监控方法的步骤。
[0261]
由于本作业链路监控程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
[0262]
本实施例通过上述方案,具体通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前
的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。通过本发明实施例方案,将所述作业的跑批数据输入预先建立的模型进行分析,得到相应的分析结果,在作业跑批完成前,可以对可能出现延迟风险的作业通过模型进行预测,进而采取相应的措施来避免作业延迟。在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告,根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常作业进行治理,最终保证业务数据的时效性。
[0263]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。
[0264]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0265]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
[0266]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:
1.一种作业链路监控方法,其特征在于,所述方法应用于智能监控系统,所述智能监控系统包括数据层,所述方法包括以下步骤:通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。2.根据权利要求1所述的方法,其特征在于,所述作业跑批完成前包括:作业跑批前,所述在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果的步骤包括:在作业跑批前,使用预先建立的延迟数据预测模型对所述作业的跑批数据进行分析,得到作业跑批前的分析结果,其中,所述延迟数据预测模型是基于预先处理过的所述作业的跑批数据组合构建得到;所述当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制的步骤包括:当作业跑批前的分析结果表明所述作业存在延迟时,触发预先建立的作业跑批前的提前预警机制。3.根据权利要求1所述的方法,其特征在于,所述作业跑批完成前还包括:作业跑批中,所述在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果的步骤包括:在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断,得到作业跑批中的分析结果,其中,所述实时流计算模型是基于消息队列系统卡夫卡和卡夫卡流处理框架构建得到;所述当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制的步骤包括:当作业跑批中的分析结果符合预设异常条件时,触发预先建立的作业跑批中的实时告警机制。4.根据权利要求3所述的方法,其特征在于,所述在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断,得到作业跑批中的分析结果的步骤包括:对所述作业的跑批数据进行异常状态计算,得到所述作业的异常状态;判断所述作业的跑批数据中的作业跑批时间是否超过所述作业所在数据层分区的时效限制,得到所述作业的达标情况;将所述作业的异常状态和达标情况进行统计汇总,得到统计汇总结果,将所述统计汇总结果作为所述作业跑批中的分析结果。5.根据权利要求1所述的方法,其特征在于,所述在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果的步骤包括:在作业跑批完成后,通过预先建立的全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析,得到作业跑批完成后的分析结果。
6.根据权利要求5所述的方法,其特征在于,所述在作业跑批完成后,通过预先建立的全链路根因分析模型对所述作业的跑批数据进行全链路多维度分析,得到作业跑批完成后的分析结果的步骤包括:基于所述作业的跑批数据判断所述作业在预设时间内是否到位,得到判断结果;根据所述判断结果获取所述作业对应的上游链路;根据所述上游链路获取所述上游链路的作业的跑批数据;基于所述上游链路的作业的跑批数据进行链路分析,得到问题节点的定位,所述分析结果包括问题节点的定位。7.根据权利要求6所述的方法,其特征在于,所述基于所述上游链路的作业的跑批数据进行链路分析,得到问题节点的定位,所述分析结果包括问题节点的定位的步骤之后包括:若所述判断结果表明所述作业在预设时间内已到位,则进行链路数据统计,得到统计后的链路数据,所述分析结果包括统计后的链路数据。8.根据权利要求2所述的方法,其特征在于,所述在作业跑批前,使用预先建立的延迟数据预测模型对所述作业的跑批数据进行分析的步骤之前包括:建立延迟数据预测模型,具体包括:通过所述数据层获取原始数据;对所述原始数据进行数据处理,得到处理后的数据;对处理后的数据组合构建方程组

求解所述方程组得到作业相对跑批时间的模型区间,将所述模型区间作为所述延迟数据预测模型。9.根据权利要求3所述的方法,其特征在于,所述在作业跑批中,通过预先建立的实时流计算模型对所述作业的跑批数据进行异常状态计算和达标判断的步骤之前包括:依据预先设置的数据层分区规则对所述作业进行分区,得到不同分区的作业;基于所述消息队列系统卡夫卡和卡夫卡流处理框架,开启多个卡夫卡流处理实例;基于每个所述卡夫卡流处理实例,启动多个流线程,得到实时流计算模型,其中所述流线程对所述不同分区的作业进行异常状态计算和达标判断。10.一种作业链路监控装置,其特征在于,所述装置包括:数据获取模块,用于通过所述数据层获取作业的跑批数据;数据分析模块,用于在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;分析结果处理模块,用于当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。11.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的作业链路监控程序,所述作业链路监控程序被所述处理器执行时实现如权利要求1-9中任一项所述的作业链路监控方法的步骤。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有作业链路监控程序,所述作业链路监控程序被处理器执行时实现如权利要求1-9中任一项所述的作业链路监控方法的步骤。

技术总结
本发明公开了一种作业链路监控方法、装置、终端设备以及存储介质,其方法包括:通过所述数据层获取作业的跑批数据;在作业生命周期中,分别将所述作业的跑批数据输入预先建立的数据治理模型进行分析,得到相应的分析结果,所述作业生命周期包括作业跑批完成前和作业跑批完成后;当作业跑批完成前的分析结果符合预设异常条件时,触发预先建立的监控通知机制;在作业跑批完成后,基于所述作业跑批完成后的分析结果生成作业监控分析报告。本发明可以对可能出现延迟风险的作业进行预测,进而采取相应的措施来避免作业延迟,还可以根据作业监控分析报告进行异常作业的根本原因分析,并就根本原因对异常作业进行治理。就根本原因对异常作业进行治理。就根本原因对异常作业进行治理。


技术研发人员:胡成跃 杨秀梅 邵森鸿
受保护的技术使用者:招商银行股份有限公司
技术研发日:2023.05.29
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐