一种海量日清电量数据便捷存储分类查询系统及方法与流程

未命名 10-26 阅读:78 评论:0


1.本发明属于数据处理方法领域,尤其涉及一种海量日清电量数据便捷存储分类查询系统及方法。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.电力大数据时代已然来临,电力业务数据从总量和种类上都已具有一定规模,对于计量、计算、分析的要求越来越高,面对海量的数据,如何找到一种便捷存储分类查询方法,高效地建立大数据平台将现有的数据有效地利用起来,就成为了难题。
4.随着电网数据、软件容量的快速增长,传统数据处理技术已经不能满足智能电网电力大数据的业务处理需求;目前电力公司数据管理系统的数据平台大多采用关系型数据库(如oracle)构建,但是关系型数据库的横向扩展能力较差,面对电力行业数据量快速增长和数据类型不断扩展的趋势,这类数据库难以提供有效支持;传统的数据存储架构面对海量数据的存储和扩展需求,存在支持数据类型单一、扩展性差、数据处理效率低下等问题,无法满足全类型数据高速增长的存储要求,也难以满足未来海量数据的弹性扩展需求。


技术实现要素:

5.为克服上述现有技术的不足,本发明提供了一种海量日清电量数据便捷存储分类查询系统及方法,以hbase技术为基础,通过链式存储,构建分布式数据存储和查询系统,实现日清电量数据的快速存储、查询,助力电力公司员工快速查询日清电量数据,进而实现日清电量和月结电量数据的跟踪和预测分析。
6.为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:本发明第一方面提供了一种海量日清电量数据便捷存储分类查询系统。
7.一种海量日清电量数据便捷存储分类查询系统,包括数据处理模块、数据存储模块和数据查询模块:数据处理模块,被配置为:对采集的日清电量数据进行处理,包括缺失数据的拟合,得到多个类型不同时间戳的电量数据;数据存储模块,被配置为:利用分布式数据库hbase,采取链式储存方式,对电量数据进行存储;数据查询模块,被配置为:对已存储的电量数据进行多维度查询;其中,每个类型的电量数据采用分布式数据库hbase的列式存储,在列式存储中,同一类型不同时间戳的电量数据采取链式储存,所述链式储存由不同时间戳的信息区块组成,信息区块储存上一信息区块的hash值和本信息区块的hash值,所述本信息区块的hash值,基于上一信息区块的hash值和当前时间戳的电量数据计算得到。
8.进一步的,还包括用户管理模块,被配置为:进行用户信息的管理、用户权限的管
理、系统权限的控制。
9.进一步的,所述采集的日清电量数据,是通过用户档案采集的原始数据。
10.进一步的,所述电量数据的类型包括:采集的原始数据;根据时段表码的差值计算的每日每个时点的电量;根据当月和次月的1日表码差值计算的月结电量。
11.进一步的,所述分布式数据库hbase,采用列存储不同类型的数据,同一类型的数据按操作时间戳来区分版本。
12.进一步的,所述链式储存方式,任意一个信息区块的数据改变使其后所有信息区块的hash值发生更改,只需应用hash值对最近一个信息区块进行校验,确定分布式数据是否发生篡改。
13.进一步的,所述多维度查询,包括按日查询、按日按时段查询、按月查询、按月按时段查询。
14.本发明第二方面提供了一种海量日清电量数据便捷存储分类查询方法。
15.一种海量日清电量数据便捷存储分类查询方法,包括:对采集的日清电量数据进行处理,包括缺失数据的拟合,得到多个类型不同时间戳的电量数据;利用分布式数据库hbase,采取链式储存方式,对电量数据进行存储;对已存储的电量数据进行多维度查询;其中,每个类型的电量数据采用分布式数据库hbase的列式存储,在列式存储中,同一类型不同时间戳的电量数据采取链式储存,所述链式储存由不同时间戳的信息区块组成,信息区块储存上一信息区块的hash值和本信息区块的hash值,所述本信息区块的hash值,基于上一信息区块的hash值和当前时间戳的电量数据计算得到。
16.本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第二方面所述的一种海量日清电量数据便捷存储分类查询方法中的步骤。
17.本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第二方面所述的一种海量日清电量数据便捷存储分类查询方法中的步骤。
18.以上一个或多个技术方案存在以下有益效果:本发明针对电力公司日清电量数据,基于hbase和链式存储,构建分布式日清电量数据存储查询系统,帮助电力公司实现日清电量和月结电量数据的分布式存储和快速查询,对于面对日益激增的数据资源的电力公司意义重大:(1)助力电力公司员工实现对日清电量的实时监控与追踪本发明构建的分布式数据存储和查询系统可以帮助电力公司实现日清电量和月结电量数据的快速查询,进而可以实时掌握用户的用电情况,进行电量跟踪和预测分析,避免因为系统延迟造成用户信息掌握不精确等情况。
19.(2)帮助电力公司员工快速实现缺失数据的拟合与分析分布式数据存储和查询系统具有较低延迟,可以快速查询缺失数据,进而帮助电
力公司员工快速发现缺失数据,并进行拟合,保持日清电量数据的完整性和高质量。
20.(3)采取链式储存模式实现数据可追溯、防篡改和避免校验工作量无限膨胀储存结构由包含不同时间戳的信息区块组成,在一个信息区块中,不但储存了上一区块的hash值,并囊括上一区块的hash值计算得到了本区块的hash值数据。在这样的链式结构下,任意一块区块的数据改变都会使其后所有区块的hash值发生更改,这样只需应用hash值对最近一个数据区块进行校验,即可保证分布式数据未发生篡改,且校验工作量并未因分布式数据量增大而发生改变,这为分布式数据库可追溯、防止篡改和避免校验工作量无限膨胀等性能要求提供了很好的储存方案。
21.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
22.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
23.图1为第一个实施例日清电量数据存储和查询系统架构图。
24.图2为第一个实施例功能模块图。
25.图3为第一个实施例数据链式储存结构图。
具体实施方式
26.应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
27.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
28.随着电网数据、软件容量的快速增长,电网数据正呈现几何级增长。传统的数据库维护成本越来越高,因此传统的数据存储和查询技术越来越不能满足海量日清电量数据的存储和查询需求。
29.数据存储层作为大数据平台的核心层级,目的是有效管理全量数据,实现统一存储、高效访问;分布式大数据存储技术所具备的数据管理、弹性扩展、存储优化能力,为实现数据的高效存取提供了有力的支撑。
30.因此,针对海量数据的高效存储分类查询需求,需要充分考虑采用分布式文件存储系统、分布式数据库等技术,同时建立系统平台,结合电量数据存储场景,实现数据的弹性存储,以应对海量数据的增量存储查询需求。
31.实施例一在一个或多个实施方式中,公开了一种海量日清电量数据便捷存储分类查询系统,包括数据处理模块、数据存储模块和数据查询模块:数据处理模块,被配置为:对采集的日清电量数据进行处理,包括缺失数据的拟
合,得到多个类型不同时间戳的电量数据;数据存储模块,被配置为:利用分布式数据库hbase,采取链式储存方式,对电量数据进行存储;数据查询模块,被配置为:对已存储的电量数据进行多维度查询;其中,每个类型的电量数据采用分布式数据库hbase的列式存储,在列式存储中,同一类型不同时间戳的电量数据采取链式储存,所述链式储存由不同时间戳的信息区块组成,信息区块储存上一信息区块的hash值和本信息区块的hash值,所述本信息区块的hash值,基于上一信息区块的hash值和当前时间戳的电量数据计算得到。
32.下面对本实施例一种海量日清电量数据便捷存储分类查询系统的实现过程进行详细说明。
33.针对现阶段电网日清电量数据存储和查询出现的问题,本实施例设计了一种海量日清电量数据便捷存储分类查询系统,主要内容包括总体架构设计和系统功能模块设计,系统总体架构设计将从系统设计架构的角度来分析系统在整体上的构架,系统功能模块设计具体包括系统的用户管理模块、数据处理模块、数据存储模块、数据查询模块。
34.系统总体架构设计日清电量数据存储和查询系统主要为国网公司员工提供日清电量的处理、存储和查询服务,具体为:将采集的日电量数据进行处理,然后进行分布式存储,之后在应用层可进行日电量的查询,以方便电力公司员工掌握电力用户电量的变化趋势,进行电量跟踪和预测分析。
35.日清电量数据存储和查询系统的架构图如图1所示,整体框架主要分为四层:在用户访问层,电力公司员工用户可以登陆系统,维护自己的基本信息、查询日清电量、拟合缺失电量数据等。
36.在应用接口层,提供需要开发的接口,主要的接口包括用户管理、数据处理、数据存储、数据查询;用户管理接口可以功能主要包括用户身份验证、用户名和密码验证、用户权限管理。
37.在基础管理层,利用hbase自身的结构特点,由master节点负责管理元数据信息,通过分布式的协调服务实现负载均衡,当出现region分裂迁移合并时,负责找到新的region,开启分布式锁将数据信息写入到新的region中,同时将元数据信息返回给客户端进行读写,当有节点出现宕机时,能够找到可用节点进行恢复,hbase自带的memstore缓存功能可以利用局部性空间原理将数据加入缓存,下次访问时能够节省大量时间。
38.存储层由分布式文件系统hdfs构成,是数据存储的最底层,由多个服务器构成,提供物理存储服务,利用其高容错性提供稳定可靠的服务,当出现节点宕机时,可以利用分布式协调服务迅速关闭该节点提供的服务,配合主节点找到可用节点,并将该节点数据写入到新的节点;在hdfs数据备份设置检查点,当出现数据损坏时通过检查点可以得到损坏情况信息,从而进行数据恢复,hdfs备份节点在物理位置部署时一般分布在同一个机架、同一个机房和不同机房中,这样做的好处就是当一处节点出现宕机或者机房断电等情况时,可以迅速利用其它处的节点来提供服务,保证整个系统的高可用性;在数据储存方式上,采用链式储存,并应用hash加密算法进行区块头数码计算。
39.系统功能模块设计
本实施例的日清电量系统主要有用户管理功能、数据处理功能、数据存储功能、数据查询功能,如图2所示,电力公司员工登陆系统后,首先可以进行数据的处理,对缺失的日清电量进行拟合,拟合之后可以将拟合数据入库存储,最后可以进行数据的查询,在数据查询模块可以选择按市场主体或按售电公司进行查询,均支持按日查询、按时段查询、按月查询等多个维度;系统的各个模块彼此之间互不影响,可以单独进行相应的操作。
40.(1)用户管理模块电力公司系统管理人员拥有用户管理(增删改查)、用户权限管理(增删改查)、日清电量查看等权限,通过权限对电量跟踪和预测分析进行控制。
41.(2)数据处理模块主要包括三个方面的功能:第一,时点电量的测算,营销侧的日清电量通过用户档案采集原始数据,根据其中记录的相邻时段表码的差值计算出每日每个时点的电量。
42.第二,采集数据缺失的情况下数据的拟合。如果日清电量的采集数据缺失,需要进行数据拟合,具体的拟合规则可以查看《山东省电力现货市场交易规则(试行)》,详细拟合规则见其中的《市场用户电量数据合办法》和《发电侧电量数据拟合办法》。
43.第三,月结电量的测算,根据当月和次月的1日表码差值计算月结电量。
44.(3)数据存储模块系统在运行过程中主要存储三类数据:第一类是通过用户档案采集出的原始数据;第二类是计算和拟合出的每日每个时点的电量数据;第三类是测算得到的月结电量数据。
45.数据存储模块使用hbase数据库进行存储,hbase属于列式存储的数据库,其数据库的数据是以键值对的形式存在的。
46.hbase是根据列族来存储数据的,列族下面可以有非常多的列。列式存储的最大好处就是,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段时,能大大减少读取的数据量。hbase采用key-value形式的列存储表结构,表一般由rowkey、time stamp、 column family组成,数据存储在表中,每条数据写入时,如果不指定时间戳,系统会自动为其加上该字段,其值为写入 hbase 的时间,每操作一次就会产生一个版本。
47.cell是由{rowkey, column family, time stamp} 唯一确定的单元,每个cell的多个版本的数据按时间倒序存储,其中,rowkey是hbase的key-value存储中的key,存储到hbase的数据都是按照rowkey字典升序进行排序,rowkey采用自增序列生成,并且hbase中检索数据,是根据rowkey主键进行检索;column family是列族,下面包括三列,分别存储上述三类电量数据。
48.另外,每条行数据由rowkey唯一标识,具有不同的时间戳,不同的行数据采取链式储存模式,如图3所示,链式储存的储存结构由多个信息区块首尾相接组成,为每条行数据构建一个信息区块,每个区块的hash值是由时间戳、merkle根、上一区块hash值和随机数通过加密计算得到。
49.这里的merkle根是从输入数据(数据1、数据2

)开始进行hash,hash的结果作为树的叶子节点,然后相邻两个节点值两两配对作为输入再hash散列得到上层节点,如此一直往上,直到得到父节点的hash值;在本实施例中,输入的数据为同一类不同时间戳的电量
数据。
50.由于在一个信息区块中,不但储存了上一区块的hash值,也通过加密计算得到了本区块的hash值数据,故称该储存方式为链式储存,信息区块的排列顺序按照区块产生的时间顺序排列。
51.在这样的链式结构下,任意一块区块的数据改变都会使其后所有区块的hash值发生更改,这样只需应用hash值对最近一个数据区块进行校验,即可保证分布式数据未发生篡改,且校验工作量并未因分布式数据量增大而发生改变;这为分布式数据库可追溯、防止篡改和避免校验工作量无限膨胀等性能要求提供了很好的储存方案。
52.(4)数据查询模块数据查询模块主要面向电力公司员工,即通过权限控制用户的使用,电力公司员工可以在系统的查询界面查询到用户的日清电量情况,根据日清电量的情况可以进行电量跟踪和预测分析;查询功能界面可进行多个维度的查询;主要包括按市场主体或按售电公司进行查询,均支持按日查询、按日按时段查询、按月查询、按月按时段查询等多个维度。供电公司员工进行使用,对日度和月度电量进行查询和分析。
53.实施例二在一个或多个实施例中,公开了一种海量日清电量数据便捷存储分类查询方法,包括:对采集的日清电量数据进行处理,包括缺失数据的拟合,得到多个类型不同时间戳的电量数据;利用分布式数据库hbase,采取链式储存方式,对电量数据进行存储;对已存储的电量数据进行多维度查询;其中,每个类型的电量数据采用分布式数据库hbase的列式存储,在列式存储中,同一类型不同时间戳的电量数据采取链式储存,所述链式储存由不同时间戳的信息区块组成,信息区块储存上一信息区块的hash值和本信息区块的hash值,所述本信息区块的hash值,基于上一信息区块的hash值和当前时间戳的电量数据计算得到。
54.实施例三本实施例的目的是提供计算机可读存储介质。
55.计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例二所述的一种海量日清电量数据便捷存储分类查询方法中的步骤。
56.实施例四本实施例的目的是提供电子设备。
57.电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例二所述的一种海量日清电量数据便捷存储分类查询方法中的步骤。
58.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种海量日清电量数据便捷存储分类查询系统,其特征在于,包括数据处理模块、数据存储模块和数据查询模块:数据处理模块,被配置为:对采集的日清电量数据进行处理,包括缺失数据的拟合,得到多个类型不同时间戳的电量数据;数据存储模块,被配置为:利用分布式数据库hbase,采取链式储存方式,对电量数据进行存储;数据查询模块,被配置为:对已存储的电量数据进行多维度查询;其中,每个类型的电量数据采用分布式数据库hbase的列式存储,在列式存储中,同一类型不同时间戳的电量数据采取链式储存,所述链式储存由不同时间戳的信息区块组成,信息区块储存上一信息区块的hash值和本信息区块的hash值,所述本信息区块的hash值,基于上一信息区块的hash值和当前时间戳的电量数据计算得到。2.如权利要求1所述的一种海量日清电量数据便捷存储分类查询系统,其特征在于,还包括用户管理模块,被配置为:进行用户信息的管理、用户权限的管理、系统权限的控制。3.如权利要求1所述的一种海量日清电量数据便捷存储分类查询系统,其特征在于,所述采集的日清电量数据,是通过用户档案采集的原始数据。4.如权利要求1所述的一种海量日清电量数据便捷存储分类查询系统,其特征在于,所述电量数据的类型包括:采集的原始数据;根据时段表码的差值计算的每日每个时点的电量;根据当月和次月的1日表码差值计算的月结电量。5.如权利要求1所述的一种海量日清电量数据便捷存储分类查询系统,其特征在于,所述分布式数据库hbase,采用列存储不同类型的数据,同一类型的数据按操作时间戳来区分版本。6.如权利要求1所述的一种海量日清电量数据便捷存储分类查询系统,其特征在于,所述链式储存方式,任意一个信息区块的数据改变使其后所有信息区块的hash值发生更改,只需应用hash值对最近一个信息区块进行校验,确定分布式数据是否发生篡改。7.如权利要求1所述的一种海量日清电量数据便捷存储分类查询系统,其特征在于,所述多维度查询,包括按日查询、按日按时段查询、按月查询、按月按时段查询。8.一种海量日清电量数据便捷存储分类查询方法,其特征在于,包括:对采集的日清电量数据进行处理,包括缺失数据的拟合,得到多个类型不同时间戳的电量数据;利用分布式数据库hbase,采取链式储存方式,对电量数据进行存储;对已存储的电量数据进行多维度查询;其中,每个类型的电量数据采用分布式数据库hbase的列式存储,在列式存储中,同一类型不同时间戳的电量数据采取链式储存,所述链式储存由不同时间戳的信息区块组成,信息区块储存上一信息区块的hash值和本信息区块的hash值,所述本信息区块的hash值,基于上一信息区块的hash值和当前时间戳的电量数据计算得到。9.一种电子设备,其特征是,包括:存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求8所述的方法。10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求8所述方法的指令。

技术总结
本发明提出了一种海量日清电量数据便捷存储分类查询系统及方法,涉及数据处理方法领域,包括数据处理模块,被配置为:对采集的日清电量数据进行处理,包括缺失数据的拟合,得到多个类型不同时间戳的电量数据;数据存储模块,被配置为:利用分布式数据库HBase,采取链式储存方式,对电量数据进行存储;数据查询模块,被配置为:对已存储的电量数据进行多维度查询;本发明以HBase技术为基础,通过链式存储,构建分布式数据存储和查询系统,实现日清电量数据的快速存储、查询,助力电力公司员工快速查询日清电量数据,进而实现日清电量和月结电量数据的跟踪和预测分析。结电量数据的跟踪和预测分析。结电量数据的跟踪和预测分析。


技术研发人员:梁波 王鑫 鞠文杰 王旭东 解磊 张海静 杨洋 杨琳琳 张慧 王莲君 冯延坤 陈冠廷
受保护的技术使用者:国网山东省电力公司营销服务中心(计量中心)
技术研发日:2023.09.14
技术公布日:2023/10/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐