增量数据处理方法、装置、计算机设备及可读存储介质与流程
未命名
09-03
阅读:91
评论:0

1.本技术涉及互联网技术领域,特别是涉及一种增量数据处理方法、装置、计算机设备及可读存储介质。
背景技术:
2.随着互联网技术的不断发展,越来越多的用户开始线上办理业务或者进行其他线上操作。在软件应用上线后,用户基于这些软件应用产生用户体验数据(如操作数据、反馈数据等),这些用户体验数据随着软件应用上线时长的增加而不断累积,形成庞大的业务数据。进一步地,互联网企业通过大数据分析技术对业务数据进行分析,从中分析出需要改善的功能或者确定出新的功能。
3.相关技术中,互联网企业方会规定数据分析周期,在时间间隔满足预设的数据分析周期后,数据处理系统从数据库中获取存储的全部业务数据进行数据批处理,输出数据分析结果,以供企业方根据数据分析结果更新业务功能。
4.在实现本技术的过程中,申请人发现相关技术至少存在以下问题:
5.随着业务上线时间的增长,数据库中存储的业务数据势必会随之呈指数倍的增长,而计算机的算力资源是固定的,批量处理的数据量增长就会引起批处理时间延长、资源分配不平滑,从而导致批处理效率低、速度慢。
技术实现要素:
6.有鉴于此,本技术提供了一种增量数据处理方法、装置、计算机设备及可读存储介质,主要目的在于解决目前计算机的算力资源是固定的,批量处理的数据量增长就会引起批处理时间延长、资源分配不平滑,从而导致批处理效率低、速度慢的问题。
7.依据本技术第一方面,提供了一种增量数据处理方法,该方法包括:
8.对采集到的原始数据进行预处理,得到目标数据,将所述目标数据存储至数据库中,以及在所述数据库中获取历史目标数据,所述历史目标数据用于指示上一次存储至所述数据库中的目标数据;
9.比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系;
10.采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,所述目标群组是基于所述历史目标数据构建的群组;
11.对所述待处理群组进行数据批处理,得到数据分析结果。
12.可选地,所述对采集到的原始数据进行预处理,得到目标数据,包括:
13.从多个数据源中获取所述原始数据;
14.按照预设清洗指标,在所述原始数据中删除所述预设清洗指标指示的脏数据,得到第一指定数据;
15.对所述第一指定数据进行数据集成和数据归约,得到第二指定数据,以及将所述第二指定数据的数据格式转换为大数据格式,得到所述目标数据。
16.可选地,所述比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系,包括:
17.遍历所述历史目标数据,确定所述历史目标数据的全部历史节点和历史边;
18.对于所述全部历史节点中的每个历史节点,识别所述目标数据,将所述历史节点与所述目标数据中记录的全部节点一一比对;
19.若所述目标数据中不存在与所述历史节点一致的指定节点,则将所述历史节点作为目标实体,将与所述历史节点关联的历史关系作为目标关系;
20.若所述目标数据中存在与所述历史节点一致的指定节点,则提取所述指定节点,确定与所述指定节点关联的多个指定关系,以及确定与所述历史节点关联的多个历史关系,将多个指定关系与所述多个历史关系进行比对,在所述多个指定关系中提取所述多个历史关系命中的指定关系,将提取后剩余的全部指定关系作为目标关系。
21.可选地,所述比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系,还包括:
22.遍历所述目标数据,在所述目标数据中提取与所述全部历史节点一致的全部指定节点;
23.在所述目标数据中,将提取后剩余的每个节点作为目标实体,将与所述剩余的节点关联的全部关系作为目标关系。
24.可选地,所述采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,包括:
25.依据所述目标实体和目标关系构建实体关系群组;
26.确定所述历史目标数据对应的目标群组,将所述目标群组与所述实体关系群组进行比对;
27.若所述目标群组与所述实体关系群组内容不一致,则采用所述实体关系群组对所述目标群组进行更新,将更新完成所述目标群组作为所述待处理群组。
28.可选地,所述对所述待处理群组进行数据批处理,得到数据分析结果之后,所述方法还包括:
29.基于数据可视化技术,对所述数据分析结果进行数据处理,生成展示信息,所述展示信息为计算机图形或图像;
30.将所述展示信息发送至展示终端进行可视化展示。
31.可选地,所述方法还包括:
32.确定采集所述原始数据的采集时间点,以及统计当前时间点;
33.获取预设时间间隔,所述预设时间间隔用于指示采集周期;
34.在所述当前时间点与所述采集时间点之间的时间间隔等于所述预设时间间隔时,重新在多个数据源中采集原始数据进行预处理,得到目标数据,根据所述目标数据,确定待处理群组进行数据批处理,获取数据分析结果。
35.依据本技术第二方面,提供了一种增量数据处理装置,该装置包括:
36.采集模块,用于对采集到的原始数据进行预处理,得到目标数据,将所述目标数据存储至数据库中,以及在所述数据库中获取历史目标数据,所述历史目标数据用于指示上一次存储至所述数据库中的目标数据;
37.确定模块,用于比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系;
38.更新模块,用于采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,所述目标群组是基于所述历史目标数据构建的群组;
39.批处理模块,用于对所述待处理群组进行数据批处理,得到数据分析结果。可选地,所述采集模块,用于从多个数据源中获取所述原始数据;按照预设清洗指标,在所述原始数据中删除所述预设清洗指标指示的脏数据,得到第一指定数据;对所述第一指定数据进行数据集成和数据归约,得到第二指定数据,以及将所述第二指定数据的数据格式转换为大数据格式,得到所述目标数据。
40.可选地,所述确定模块,用于遍历所述历史目标数据,确定所述历史目标数据的全部历史节点和历史边;对于所述全部历史节点中的每个历史节点,识别所述目标数据,将所述历史节点与所述目标数据中记录的全部节点一一比对;若所述目标数据中不存在与所述历史节点一致的指定节点,则将所述历史节点作为目标实体,将与所述历史节点关联的历史关系作为目标关系;若所述目标数据中存在与所述历史节点一致的指定节点,则提取所述指定节点,确定与所述指定节点关联的多个指定关系,以及确定与所述历史节点关联的多个历史关系,将多个指定关系与所述多个历史关系进行比对,在所述多个指定关系中提取所述多个历史关系命中的指定关系,将提取后剩余的全部指定关系作为目标关系。
41.可选地,所述确定模块,用于遍历所述目标数据,在所述目标数据中提取与所述全部历史节点一致的全部指定节点;在所述目标数据中,将提取后剩余的每个节点作为目标实体,将与所述剩余的节点关联的全部关系作为目标关系。
42.可选地,所述更新模块,用于依据所述目标实体和目标关系构建实体关系群组;确定所述历史目标数据对应的目标群组,将所述目标群组与所述实体关系群组进行比对;若所述目标群组与所述实体关系群组内容不一致,则采用所述实体关系群组对所述目标群组进行更新,将更新完成所述目标群组作为所述待处理群组。
43.可选地,所述装置还包括:
44.生成模块,用于基于数据可视化技术,对所述数据分析结果进行数据处理,生成展示信息,所述展示信息为计算机图形或图像;
45.展示模块,用于将所述展示信息发送至展示终端进行可视化展示。
46.可选地,所述装置还包括:
47.统计模块,用于确定采集所述原始数据的采集时间点,以及统计当前时间点;
48.获取模块,用于获取预设时间间隔,所述预设时间间隔用于指示采集周期;
49.所述采集模块,还用于在所述当前时间点与所述采集时间点之间的时间间隔等于所述预设时间间隔时,重新在多个数据源中采集原始数据进行预处理,得到目标数据,根据所述目标数据,确定待处理群组进行数据批处理,获取数据分析结果。
50.依据本技术第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。
51.依据本技术第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
52.借由上述技术方案,本技术提供的一种增量数据处理方法、装置、计算机设备及可读存储介质,本技术首先对采集到的原始数据进行预处理,得到预处理后的数据,也就是目标数据,将目标数据存储至数据库中。与此同时在数据库中获取上一次存储至数据库中的历史目标数据。随后,依据目标数据和历史目标数据,确定变化的目标实体和目标关系。采用目标实体和目标关系,对目标群组进行更新,得到待处理群组,其中,目标群组是目标实体和目标关系分别匹配的预设群组。最后,对待处理群组进行数据批处理,得到数据分析结果。通过分析实际应用中变更的数据和影响点,也就是发生变化的目标实体和目标关系,在群组挖掘过程中发生变更的群组,进而对变更的群组进行数据批处理,实现增量更新应用数据的目标,大大节省了批处理消耗的时间和需要的资源,进而提高了数据批处理的处理效率。
53.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
54.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
55.图1示出了本技术实施例提供的一种增量数据处理方法流程示意图;
56.图2示出了本技术实施例提供的一种增量数据处理方法流程示意图;
57.图3a示出了本技术实施例提供的一种增量数据处理装置的结构示意图;
58.图3b示出了本技术实施例提供的一种增量数据处理装置的结构示意图;
59.图3c示出了本技术实施例提供的一种增量数据处理装置的结构示意图;
60.图4示出了本技术实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
61.下面将参照附图更详细地描述本技术的示例性实施例。虽然附图中显示了本技术的示例性实施例,然而应当理解,可以以各种形式实现本技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本技术,并且能够将本技术的范围完整的传达给本领域的技术人员。
62.本技术实施例提供了一种增量数据处理方法,如图1所示,该方法包括:
63.101、对采集到的原始数据进行预处理,得到目标数据,将目标数据存储至数据库中,以及在数据库中获取历史目标数据,历史目标数据用于指示上一次存储至数据库中的目标数据。
64.本方法适用于数据批处理系统,在实际运行过程中,系统可以从企业内部的业务数据库中获取原始数据,以工商数据为例,系统可以在业务平台对应的数据源中获取用户id,投资关系、投资方等信息作为原始数据。进一步地,系统在采集原始数据并存储的过程可能会采集到空格、特殊字符等不具备分析价值的脏数据。因此,为了过滤掉这些脏数据,本方法设置数据预处理环节,通过数据预处理环节,来对原始数据进行清洗过滤、整理集
成、转换格式,得到统一格式的目标数据。最后,将目标数据存储至数据库中存储记录。另外,为了能够确定出变化的目标实体与目标关系,需要在数据库中读取上一次存储的历史目标数据,通过比对目标数据和历史目标数据的内容一致性,确定出产生变化的目标实体和目标关系。在本步骤中通过对原始数据预处理,有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量。
65.102、比对目标数据和历史目标数据,确定变化的目标实体和目标关系。
66.在本技术实施例中,考虑到随着业务上线时间的增长,数据库中存储的业务数据势必会随之呈指数倍的增长,而计算机的算力资源是固定的,批量处理的数据量增长就会引起批处理时间延长、资源分配不平滑,从而导致批处理效率低、速度慢。但是相对而言一定周期内变更的数据是很有限的,因此,通过将本次获取到的目标数据与上一次获取到的历史目标数据进行比对,就可以确定出发生变化的实体和关系,也就是确定出目标实体和目标关系。
67.103、采用目标实体和目标关系,对目标群组进行更新,得到待处理群组,目标群组是基于历史目标数据构建的群组。
68.在本技术实施例中,数据分析是大数据处理与应用的关键环节,它决定了大数据集合的价值性和可用性,以及分析预测结果的准确性。在本步骤中系统首先需要获取历史目标数据对应的目标群组。随后,采用目标实体和目标关系对目标群组进行更新,更新完成后得到待处理群组,进而通过批处理待处理群组,得到本周期的分析预测结果。
69.104、对待处理群组进行数据批处理,得到数据分析结果。
70.在本技术实施例中,批处理环节实质上是使用典型样例分析技术提炼出待处理群组的特征,再根据大数据应用情境与决策需求,选择合适的数据分析技术,以提高大数据分析结果的可用性、价值性和准确性质量。
71.本技术实施例提供的方法,首先对采集到的原始数据进行预处理,得到预处理后的数据,也就是目标数据,将目标数据存储至数据库中。与此同时在数据库中获取上一次存储至数据库中的历史目标数据。随后,依据目标数据和历史目标数据,确定变化的目标实体和目标关系。采用目标实体和目标关系,对目标群组进行更新,得到待处理群组,其中,目标群组是目标实体和目标关系分别匹配的预设群组。最后,对待处理群组进行数据批处理,得到数据分析结果。通过分析实际应用中变更的数据和影响点,也就是发生变化的目标实体和目标关系,在群组挖掘过程中发生变更的群组,进而对变更的群组进行数据批处理,实现增量更新应用数据的目标,大大节省了批处理消耗的时间和需要的资源,进而提高了数据批处理的处理效率。
72.本技术实施例提供了一种增量数据处理方法,如图2所示,该方法包括:
73.201、采集原始数据进行预处理,得到目标数据。
74.随着互联网技术的不断发展,越来越多的用户开始线上办理业务或者进行其他线上操作。在软件应用上线后,用户基于这些软件应用产生用户体验数据(如操作数据、反馈数据等),这些用户体验数据随着软件应用上线时长的增加而不断累积,形成庞大的业务数据。进一步地,互联网企业通过大数据分析技术对业务数据进行分析,从中分析出需要改善的功能或者确定出新的功能。目前,互联网企业方会规定数据分析周期,在时间间隔满足预设的数据分析周期后,数据处理系统从数据库中获取存储的全部业务数据进行数据批处
理,输出数据分析结果,以供企业方根据数据分析结果更新业务功能。但是申请人认识到,随着业务上线时间的增长,数据库中存储的业务数据势必会随之呈指数倍的增长,而计算机的算力资源是固定的,批量处理的数据量增长就会引起批处理时间延长、资源分配不平滑,从而导致批处理效率低、速度慢。
75.因此,本技术提供了一种增量数据处理方法、装置、计算机设备及可读存储介质,本技术首先对采集到的原始数据进行预处理,得到预处理后的数据,也就是目标数据,将目标数据存储至数据库中。与此同时在数据库中获取上一次存储至数据库中的历史目标数据。随后,依据目标数据和历史目标数据,确定变化的目标实体和目标关系。采用目标实体和目标关系,对目标群组进行更新,得到待处理群组,其中,目标群组是目标实体和目标关系分别匹配的预设群组。最后,对待处理群组进行数据批处理,得到数据分析结果。通过分析实际应用中变更的数据和影响点,也就是发生变化的目标实体和目标关系,在群组挖掘过程中发生变更的群组,进而对变更的群组进行数据批处理,实现增量更新应用数据的目标,大大节省了批处理消耗的时间和需要的资源,进而提高了数据批处理的处理效率。
76.在本技术实施例中,系统可以从企业内部的业务数据库中获取本次数据处理的原始数据,通过对原始数据预处理,删除原始数据中的无效脏数据,得到具备分析价值的目标数据。
77.在实际应用过程中,以工商数据为例,系统可以在业务平台对应的多个数据源中获取用户id,投资关系、投资方等信息作为原始数据。进一步地,考虑到系统在采集原始数据并存储的过程可能会采集到空格、特殊字符等不具备分析价值的脏数据。为了过滤掉这些脏数据,本方法设置数据预处理环节对原始数据进行处理。具体地,系统首先获取开发人员事先预设好的清洗指标,随后,基于自然语言处理技术对原始数据进行遍历识别,按照清洗指标对原始数据进行数据清洗,也就是在原始数据中删除预设清洗指标指示的脏数据,得到第一指定数据。进一步地,对第一指定数据进行数据集成和数据归约,得到第二指定数据。需要说明的是,数据集成是指把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用,通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容),主要存在有两个途径,即属性选择和数据采样,用于分别针对原始数据集中的属性和记录。本技术对数据集成和数据归约所采用的工具或方式不进行具体限定。最后,将第二指定数据的数据格式转换为大数据格式hive,得到目标数据。
78.通过数据预处理环节,来对原始数据进行清洗过滤、整理集成、转换格式,得到统一格式的目标数据,有利于提高大数据的一致性、准确性、真实性和可用性等方面的质量。
79.202、将目标数据存储至数据库中,并在数据库中获取历史目标数据。
80.在本技术实施例中,为了便于后续相关工作人员对每个版本的目标数据进行审核或者回退,本技术在获取到目标数据后,会将其存储至数据库中进行存储。进一步地,为了能够确定出变化的目标实体与目标关系,需要在数据库中读取上一次存储的历史目标数据。通过比对目标数据和历史目标数据的内容一致性,确定出产生变化的目标实体和目标关系。
81.203、比对目标数据和历史目标数据,确定变化的目标实体和目标关系。
82.在本技术实施例中,考虑到随着业务上线时间的增长,数据库中存储的业务数据势必会随之呈指数倍的增长,而计算机的算力资源是固定的,批量处理的数据量增长就会引起批处理时间延长、资源分配不平滑,从而导致批处理效率低、速度慢。但是相对而言一定周期内变更的数据是很有限的,因此,通过将本次获取到的目标数据与上一次获取到的历史目标数据进行比对,就可以确定出发生变化的实体和关系,也就是确定出目标实体和目标关系。
83.本技术采用的是spark分布式计算框架对历史目标数据和目标数据进行分析。spark充分利用内存对数据进行计算,从而减少磁盘读写操作,提高了框架计算效率。同时spark还兼容hdfs、hive,可以很好地与hadoop系统融合。具体地,遍历历史目标数据,确定历史目标数据的全部历史节点和历史边。对于全部历史节点中的每个历史节点,识别目标数据,将历史节点与目标数据中记录的全部节点一一比对。若目标数据中不存在与历史节点一致的指定节点,则将历史节点作为目标实体,将与历史节点关联的历史关系作为目标关系。若目标数据中存在与历史节点一致的指定节点,则提取指定节点,确定与指定节点关联的多个指定关系,以及确定与历史节点关联的多个历史关系,将多个指定关系与多个历史关系进行比对,在多个指定关系中提取多个历史关系命中的指定关系,将提取后剩余的全部指定关系作为目标关系。在判断完全部历史节点后,会在目标数据中提取出与全部历史节点一致的全部指定节点。此时在目标数据中,将提取后剩余的每个节点作为目标实体,将与剩余的节点关联的全部关系作为目标关系。
84.204、采用目标实体和目标关系,对目标群组进行更新,得到待处理群组。
85.在本技术实施例中,系统首先需要获取历史目标数据对应的目标群组。随后,采用目标实体和目标关系对目标群组进行更新,更新完成后得到需要进行过批处理的待处理群组。
86.具体地,系统首先对目标实体和目标关系进行数据挖掘和深度数据分析,构建直观表现群体情况的结构化群体数据,也就是依据目标实体和目标关系构建实体关系群组。进一步地,由于上一周期获取到历史目标数据后也需要基于历史目标数据构建实体关系群组,因此,可以依据历史目标数据,确定历史目标数据对应的目标群组。
87.接下来,将目标群组与实体关系群组进行比对。若目标群组与实体关系群组内容不一致,则采用实体关系群组对目标群组进行更新,将更新完成目标群组作为待处理群组。若目标群组与实体关系群组内容一致,则无需更新,将原始的目标群组作为待处理群组即可。
88.205、对待处理群组进行数据批处理,得到数据分析结果。
89.在本技术实施例中,采用训练好的预测模型对待处理群组进行批量预测,例如判断相关实体是否存在异常操作数据等。基于预测模型输出数据分析结果。针对数据分析结果的成图情况,对提取计算的过程进行相应的优化,进而提高后续数据批处理的效率的预测准确率。
90.206、展示数据分析结果。
91.在本技术实施例中,系统会基于数据可视化技术,对数据分析结果进行数据处理,生成展示信息,并将展示信息发送至展示终端进行可视化展示,其中,展示信息为计算机图
形或图像。
92.另外,为了实现数据分析结果的定期更新,本技术设置有采集周期,也就是预设时间间隔,通过预设时间间隔来控制原始数据的采集时间。需要说明的是,预设时间间隔的间隔时长可以采用系统默认的间隔时长,也可以由相关工作人员根据实际运行情况自行设置,本技术对间隔时长不进行具体限定。具体地,系统首先确定本次采集原始数据的采集时间点,以及统计当前时间点。与此同时,获取预设时间间隔。在当前时间点与采集时间点之间的时间间隔等于预设时间间隔时,重新在多个数据源中采集原始数据进行预处理,得到目标数据,根据目标数据,确定待处理群组进行数据批处理,获取下一周期的数据分析结果。
93.本技术实施例提供的方法,首先对采集到的原始数据进行预处理,得到预处理后的数据,也就是目标数据,将目标数据存储至数据库中。与此同时在数据库中获取上一次存储至数据库中的历史目标数据。随后,依据目标数据和历史目标数据,确定变化的目标实体和目标关系。采用目标实体和目标关系,对目标群组进行更新,得到待处理群组,其中,目标群组是目标实体和目标关系分别匹配的预设群组。最后,对待处理群组进行数据批处理,得到数据分析结果。通过分析实际应用中变更的数据和影响点,也就是发生变化的目标实体和目标关系,在群组挖掘过程中发生变更的群组,进而对变更的群组进行数据批处理,实现增量更新应用数据的目标,大大节省了批处理消耗的时间和需要的资源,进而提高了数据批处理的处理效率。
94.进一步地,作为图1所述方法的具体实现,本技术实施例提供了一种增量数据处理装置,如图3a所示,所述装置包括:采集模块301、确定模块302、更新模块303、批处理模块304。
95.该采集模块301,用于对采集到的原始数据进行预处理,得到目标数据,将所述目标数据存储至数据库中,以及在所述数据库中获取历史目标数据,所述历史目标数据用于指示上一次存储至所述数据库中的目标数据;
96.该确定模块302,用于比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系;
97.该更新模块303,用于采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,所述目标群组是基于所述历史目标数据构建的群组;
98.该批处理模块304,用于对所述待处理群组进行数据批处理,得到数据分析结果。
99.在具体的应用场景中,采集模块301,用于从多个数据源中获取所述原始数据;按照预设清洗指标,在所述原始数据中删除所述预设清洗指标指示的脏数据,得到第一指定数据;对所述第一指定数据进行数据集成和数据归约,得到第二指定数据,以及将所述第二指定数据的数据格式转换为大数据格式,得到所述目标数据。
100.在具体的应用场景中,该确定模块302,用于遍历所述历史目标数据,确定所述历史目标数据的全部历史节点和历史边;对于所述全部历史节点中的每个历史节点,识别所述目标数据,将所述历史节点与所述目标数据中记录的全部节点一一比对;若所述目标数据中不存在与所述历史节点一致的指定节点,则将所述历史节点作为目标实体,将与所述历史节点关联的历史关系作为目标关系;若所述目标数据中存在与所述历史节点一致的指定节点,则提取所述指定节点,确定与所述指定节点关联的多个指定关系,以及确定与所述
历史节点关联的多个历史关系,将多个指定关系与所述多个历史关系进行比对,在所述多个指定关系中提取所述多个历史关系命中的指定关系,将提取后剩余的全部指定关系作为目标关系。
101.在具体的应用场景中,该确定模块302,用于遍历所述目标数据,在所述目标数据中提取与所述全部历史节点一致的全部指定节点;在所述目标数据中,将提取后剩余的每个节点作为目标实体,将与所述剩余的节点关联的全部关系作为目标关系。
102.在具体的应用场景中,该更新模块303,用于依据所述目标实体和目标关系构建实体关系群组;确定所述历史目标数据对应的目标群组,将所述目标群组与所述实体关系群组进行比对;若所述目标群组与所述实体关系群组内容不一致,则采用所述实体关系群组对所述目标群组进行更新,将更新完成所述目标群组作为所述待处理群组。
103.在具体的应用场景中,如图3b所示,所述装置还包括:生成模块305、展示模块306。
104.该生成模块305,用于基于数据可视化技术,对所述数据分析结果进行数据处理,生成展示信息,所述展示信息为计算机图形或图像;
105.该展示模块306,用于将所述展示信息发送至展示终端进行可视化展示。
106.在具体的应用场景中,如图3c所示,所述装置还包括:统计模块307、获取模块308。
107.该统计模块307,用于确定采集所述原始数据的采集时间点,以及统计当前时间点;
108.该获取模块308,用于获取预设时间间隔,所述预设时间间隔用于指示采集周期;
109.该采集模块301,还用于在所述当前时间点与所述采集时间点之间的时间间隔等于所述预设时间间隔时,重新在多个数据源中采集原始数据进行预处理,得到目标数据,根据所述目标数据,确定待处理群组进行数据批处理,获取数据分析结果。
110.本技术实施例提供的装置,首先对采集到的原始数据进行预处理,得到预处理后的数据,也就是目标数据,将目标数据存储至数据库中。与此同时在数据库中获取上一次存储至数据库中的历史目标数据。随后,依据目标数据和历史目标数据,确定变化的目标实体和目标关系。采用目标实体和目标关系,对目标群组进行更新,得到待处理群组,其中,目标群组是目标实体和目标关系分别匹配的预设群组。最后,对待处理群组进行数据批处理,得到数据分析结果。通过分析实际应用中变更的数据和影响点,也就是发生变化的目标实体和目标关系,在群组挖掘过程中发生变更的群组,进而对变更的群组进行数据批处理,实现增量更新应用数据的目标,大大节省了批处理消耗的时间和需要的资源,进而提高了数据批处理的处理效率。
111.需要说明的是,本技术实施例提供的一种增量数据处理装置所涉及各功能单元的其他相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
112.在示例性实施例中,参见图4,还提供了一种设备,该设备包括通信总线、处理器、存储器和通信接口,还可以包括输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的增量数据处理方法。
113.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的增量数据处理方法的步骤。
114.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本技术可以通
过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施场景所述的方法。
115.本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本技术所必须的。
116.本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
117.上述本技术序号仅仅为了描述,不代表实施场景的优劣。
118.以上公开的仅为本技术的几个具体实施场景,但是,本技术并非局限于此,任何本领域的技术人员能思之的变化都应落入本技术的保护范围。
技术特征:
1.一种增量数据处理方法,其特征在于,包括:对采集到的原始数据进行预处理,得到目标数据,将所述目标数据存储至数据库中,以及在所述数据库中获取历史目标数据,所述历史目标数据用于指示上一次存储至所述数据库中的目标数据;比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系;采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,所述目标群组是基于所述历史目标数据构建的群组;对所述待处理群组进行数据批处理,得到数据分析结果。2.根据权利要求1所述的方法,其特征在于,所述对采集到的原始数据进行预处理,得到目标数据,包括:从多个数据源中获取所述原始数据;按照预设清洗指标,在所述原始数据中删除所述预设清洗指标指示的脏数据,得到第一指定数据;对所述第一指定数据进行数据集成和数据归约,得到第二指定数据,以及将所述第二指定数据的数据格式转换为大数据格式,得到所述目标数据。3.根据权利要求1所述的方法,其特征在于,所述比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系,包括:遍历所述历史目标数据,确定所述历史目标数据的全部历史节点和历史边;对于所述全部历史节点中的每个历史节点,识别所述目标数据,将所述历史节点与所述目标数据中记录的全部节点一一比对;若所述目标数据中不存在与所述历史节点一致的指定节点,则将所述历史节点作为目标实体,将与所述历史节点关联的历史关系作为目标关系;若所述目标数据中存在与所述历史节点一致的指定节点,则提取所述指定节点,确定与所述指定节点关联的多个指定关系,以及确定与所述历史节点关联的多个历史关系,将多个指定关系与所述多个历史关系进行比对,在所述多个指定关系中提取所述多个历史关系命中的指定关系,将提取后剩余的全部指定关系作为目标关系。4.根据权利要求3所述的方法,其特征在于,所述比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系,还包括:遍历所述目标数据,在所述目标数据中提取与所述全部历史节点一致的全部指定节点;在所述目标数据中,将提取后剩余的每个节点作为目标实体,将与所述剩余的节点关联的全部关系作为目标关系。5.根据权利要求1所述的方法,其特征在于,所述采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,包括:依据所述目标实体和目标关系构建实体关系群组;确定所述历史目标数据对应的目标群组,将所述目标群组与所述实体关系群组进行比对;若所述目标群组与所述实体关系群组内容不一致,则采用所述实体关系群组对所述目标群组进行更新,将更新完成所述目标群组作为所述待处理群组。
6.根据权利要求1所述的方法,其特征在于,所述对所述待处理群组进行数据批处理,得到数据分析结果之后,所述方法还包括:基于数据可视化技术,对所述数据分析结果进行数据处理,生成展示信息,所述展示信息为计算机图形或图像;将所述展示信息发送至展示终端进行可视化展示。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定采集所述原始数据的采集时间点,以及统计当前时间点;获取预设时间间隔,所述预设时间间隔用于指示采集周期;在所述当前时间点与所述采集时间点之间的时间间隔等于所述预设时间间隔时,重新在多个数据源中采集原始数据进行预处理,得到目标数据,根据所述目标数据,确定待处理群组进行数据批处理,获取数据分析结果。8.一种增量数据处理装置,其特征在于,包括:采集模块,用于对采集到的原始数据进行预处理,得到目标数据,将所述目标数据存储至数据库中,以及在所述数据库中获取历史目标数据,所述历史目标数据用于指示上一次存储至所述数据库中的目标数据;确定模块,用于比对所述目标数据和所述历史目标数据,确定变化的目标实体和目标关系;更新模块,用于采用所述目标实体和所述目标关系,对目标群组进行更新,得到待处理群组,所述目标群组是基于所述历史目标数据构建的群组;批处理模块,用于对所述待处理群组进行数据批处理,得到数据分析结果。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本申请公开了一种增量数据处理方法、装置、计算机设备及可读存储介质,涉及互联网技术领域,通过对变更的群组进行数据批处理,实现增量更新应用数据的目标,节省了批处理消耗的时间和需要的资源,进而提高了数据批处理的处理效率。所述方法包括:对采集到的原始数据进行预处理,得到目标数据,将目标数据存储至数据库中,以及在数据库中获取历史目标数据,历史目标数据用于指示上一次存储至数据库中的目标数据;依据目标数据和历史目标数据,确定变化的目标实体和目标关系;采用目标实体和目标关系,对目标群组进行更新,得到待处理群组,目标群组是目标实体和目标关系分别匹配的预设群组;对待处理群组进行数据批处理,得到数据分析结果。数据分析结果。数据分析结果。
技术研发人员:张栋梁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.12
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/