一种治安防控领域的时间序列预测方法、装置及存储介质与流程

未命名 08-29 阅读:103 评论:0


1.本发明涉及治安防控技术领域,并且更具体地,涉及一种治安防控领域的时间序列预测方法、装置及存储介质。


背景技术:

2.随着国际国内环境的不断变化,治安防控信息化建设与应用存在的短板和问题日益凸显,主要表现在治安数据治理体系不健全,治安要素基础信息采集不全、底数不清,且未形成以人员、地址、物品、单位、案事件为主要内容的治安数据知识体系;另外大数据应用能力不足,不善于将积累的业务知识转化为信息模型,对海量数据背后隐藏的客观规律挖掘不够。在此背景下,研究如何利用大数据手段,创新警务机制运行模式,改进和完善社会治安防控体系,进一步适应未来社会治安治理需要,显得极为重要。


技术实现要素:

3.为了解决治安防控系统中的流量预测分析及趋势研判的问题,提出了本发明。本发明的实施例提供了一种治安防控领域的时间序列预测方法、装置及存储介质。
4.根据本发明实施例的一个方面,提供了一种治安防控领域的时间序列预测方法,包括:
5.将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行规范化处理;
6.对规范化处理后的源数据按照各个数据层级的要求进行分层存储,其中数据层级分为贴源层、标准层、汇总层、集市层;
7.通过数据批量同步服务将各个数据层级的数据存储至离线存储/计算集群主机,进行离线的数据管理;通过实时同步服务将各个数据层级的实时数据发送至实时消息队列和计算集群主机,进行实时的数据管理;
8.对经过实时/离线管理的数据进行预处理,其中预处理包括缺失值填充与删除处理、数据归一化处理以及生成派生数据项;
9.对预处理后的数据进行特征选取,并将选取的特征输入预先构建的趋势研判模型进行训练;
10.基于训练好的趋势研判模型,向外提供趋势预测服务接口。
11.可选地,所述将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行规范化处理,包括:
12.将各类治安数据通过安全边界发送到大数据治理平台的采集主机;
13.采集主机将处理后的数据分别分发给批量同步服务和实时同步服务,将数据同步到大数据存储/计算集群;
14.通过对接入的源数据按照数据标准进行提取、清洗、比对、关联、打标的规范化处理。
15.可选地,所述对规范化处理后的源数据按照各个数据层级的要求进行分层存储,包括:
16.按照源数据的类型,将源数据分类存储至贴源层;
17.按照多个维度以及事件类别,将贴源层的数据进行拆分后存储至标准层,并在标准层创建维度表和各类明细表;
18.将标准层的数据经过清洗、加工、汇总后存储到汇总层,并在汇总层创建各类统计表;
19.将汇总层的数据进一步加工、汇总后存储到集市层,并在集市层创建各类统计总表。
20.可选地,所述对经过实时/离线管理的数据进行预处理,包括:
21.对于不会影响到数据信息客观性与结果有效性的缺失值数据进行删除;
22.对于数据量小于第一阈值且查询频率大于第二阈值的缺失值数据进行人工填补;
23.对重点单位治安案件量数据进行缺失值填补时,采用移动窗口均值填充法,将案件量缺失数据的前三天案件量,与后三天案件量的平均值作为缺失治安案件数量进行填充。
24.可选地,采用的移动窗口均值填充法的公式表示如下:
[0025][0026]
其中,x
m-n
为缺失值附近的重点单位治安案件数量,xm为所填补的重点单位治安案件数量的缺失值。
[0027]
可选地,所述对预处理后的数据进行特征选取,包括:
[0028]
通过以下公式计算预处理后的数据的相关平滑系数rm:
[0029][0030]
其中,xi为重点单位治安案发量,mi为重点单位治安案件平滑数量,yi为所要筛选的特征数据,为特征数据的平均值;
[0031]
根据计算得到的相关平滑系数rm值,确定与重点单位治安案件数量相关的影响因子。
[0032]
可选地,所述将选取的特征输入预先构建的趋势研判模型进行训练,包括:
[0033]
根据不同的业务需求,选择不同的时间序列网络,搭建趋势研判模型;
[0034]
将选取的特征输入搭建的趋势研判模型,使用adam优化器,使用mse作为损失函数,进行模型的训练。
[0035]
根据本发明实施例的另一个方面,提供了一种治安防控领域的时间序列预测装置,包括:
[0036]
数据接入模块,用于将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行规范化处理;
[0037]
分层存储模块,用于对规范化处理后的源数据按照各个数据层级的要求进行分层存储,其中数据层级分为贴源层、标准层、汇总层、集市层;
[0038]
数据管理模块,用于通过数据批量同步服务将各个数据层级的数据存储至离线存
储/计算集群主机,进行离线的数据管理;通过实时同步服务将各个数据层级的实时数据发送至实时消息队列和计算集群主机,进行实时的数据管理;
[0039]
预处理模块,用于对经过实时/离线管理的数据进行预处理,其中预处理包括缺失值填充与删除处理、数据归一化处理以及生成派生数据项;
[0040]
特征选取及模型搭建模块,用于对预处理后的数据进行特征选取,并将选取的特征输入预先构建的趋势研判模型进行训练;
[0041]
趋势预测服务模块,用于基于训练好的趋势研判模型,向外提供趋势预测服务接口。
[0042]
根据本发明实施例的另一个方面,还提供了一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述方法。
[0043]
根据本发明实施例的另一个方面,还提供了一种电子设备,所述电子设备包括:
[0044]
处理器;
[0045]
用于存储所述处理器可执行指令的存储器;
[0046]
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述方法。
[0047]
本发明所提出的治安防控领域的时间序列预测方法,将检查站、车站、重点人员、案事件等数据接入到大数据治理平台;对治安相关数据数据从来源逐级提炼,形成分层存储、全局管理和使用的数据组织,经过离线/实时的数据管理后,可以进一步使用数据生产出治安业务所需的数据,从而构建各类专题库;使用改进的方法对数据缺失值进行处理;使用改进后的pearson相关系数选取模型相关特征;针对不同的业务需求设计并训练使用双向lstm时间序列网络模型对各类数据进行趋势研判分析,并对其他业务系统提供模型服务接口。
[0048]
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
[0049]
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0050]
图1是本发明一示例性实施例提供的治安防控领域的时间序列预测方法的流程示意图;
[0051]
图2是本发明一示例性实施例提供的治安防控数据处理及模型预测流程图;
[0052]
图3是本发明一示例性实施例提供的双向lstm时间序列预测网络模型的示意图;
[0053]
图4是本发明一示例性实施例提供的治安防控领域的时间序列预测装置的结构示意图。
具体实施方式
[0054]
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的
示例实施例的限制。
[0055]
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
[0056]
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
[0057]
还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
[0058]
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
[0059]
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0060]
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
[0061]
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0062]
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
[0063]
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
[0064]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0065]
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
[0066]
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
[0067]
示例性方法
[0068]
图1是本发明一示例性实施例提供的治安防控领域的时间序列预测方法的流程示意图。如图1所示,治安防控领域的时间序列预测方法包括:
[0069]
s1:将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行
规范化处理。
[0070]
可选地,所述将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行规范化处理,包括:将各类治安数据通过安全边界发送到大数据治理平台的采集主机;采集主机将处理后的数据分别分发给批量同步服务和实时同步服务,将数据同步到大数据存储/计算集群;通过对接入的源数据按照数据标准进行提取、清洗、比对、关联、打标的规范化处理。
[0071]
在本发明实施例中,可以将各地市的各类治安数据通过安全边界发送到大数据处理平台采集主机,采集子系统将处理后的数据分别分发给批量同步服务和实时同步服务,利用kettle、sqoop、flume等技术将数据同步到省厅的大数据存储/计算集群。通过对接入的源数据按照数据标准的约定进行提取、清洗、比对、关联、打标等规范化流程处理,以过滤掉错误数据,提高数据关联度和业务紧密度,进而提升数据价值密度,实现数据增值。
[0072]
s2:对规范化处理后的源数据按照各个数据层级的要求进行分层存储,其中数据层级分为贴源层、标准层、汇总层、集市层。
[0073]
可选地,所述对规范化处理后的源数据按照各个数据层级的要求进行分层存储,包括:按照源数据的类型,将源数据分类存储至贴源层;按照多个维度以及事件类别,将贴源层的数据进行拆分后存储至标准层,并在标准层创建维度表和各类明细表;将标准层的数据经过清洗、加工、汇总后存储到汇总层,并在汇总层创建各类统计表;将汇总层的数据进一步加工、汇总后存储到集市层,并在集市层创建各类统计总表。
[0074]
在本发明实施例中,如图2所示,使用数据分层的概念进行数据开发,数据层级分为贴源层、标准层、汇总层、集市层。
[0075]
贴源层(src):用于存放原始数据,此层数据保持原貌,不做任务修改,本项目中src层的数据来源于多种类型,如结构化数据如oracle、mysql、hive等,半结构化数据,如地市上报的json、xml文件等,我们将这些数据分类进行存储。
[0076]
标准层(ods):将贴源层的数据经过城市维度、检查站维度、车站类别维度,按照事件类别进行拆分存储到标准层。在标准层创建城市维度表、检查站、车站、涉医院案事件、涉学校案事件、涉银行案事件数据每日明细表。
[0077]
汇总层(dw):将标准层的数据经过清洗、加工、汇总后数据存储到汇总层。在汇总层创建检查站每日乘客统计表,车站每日乘客统计表,涉医院、涉学校、涉银行每日案事件统计表。
[0078]
集市层(dm):将汇总层的数据进一步加工、汇总后数据存储到集市层。在集市层创建检查站每日乘客数量统计总表,车站每日乘客数量统计总表,涉医院、涉学校、涉银行案事件统计总表。
[0079]
s3:通过数据批量同步服务将各个数据层级的数据存储至离线存储/计算集群主机,进行离线的数据管理;通过实时同步服务将各个数据层级的实时数据发送至实时消息队列和计算集群主机,进行实时的数据管理。
[0080]
在本发明实施例中,可以通过数据批量同步服务将数据存储到hive、spark为主的离线存储/计算集群主机,完成大规模数据集的大数据融合分析、标准化、指标数据等的计算和存储,包括基于大数据的治安态势分析、交通流量态势分析等。另一部分通过实时同步服务,将实时数据发给kafka、flink为主的实时消息队列和计算集群主机,完成实时数据规
整、清洗、标准化、规则引擎等的计算和处理。
[0081]
数据从来源逐级提炼,形成分层存储、全局管理和使用的数据组织,经过离线/实时的数据管理后,可以进一步使用数据生产出治安业务所需的数据,从而构建各类专题库。
[0082]
s4:对经过实时/离线管理的数据进行预处理,其中预处理包括缺失值填充与删除处理、数据归一化处理以及生成派生数据项。
[0083]
可选地,所述对经过实时/离线管理的数据进行预处理,包括:对于不会影响到数据信息客观性与结果有效性的缺失值数据进行删除;对于数据量小于第一阈值且查询频率大于第二阈值的缺失值数据进行人工填补;对重点单位治安案件量数据进行缺失值填补时,采用移动窗口均值填充法,将案件量缺失数据的前三天案件量,与后三天案件量的平均值作为缺失治安案件数量进行填充。
[0084]
可选地,采用的移动窗口均值填充法的公式表示如下:
[0085][0086]
其中,x
m-n
为缺失值附近的重点单位治安案件数量,xm为所填补的重点单位治安案件数量的缺失值。
[0087]
在本发明实施例中,在数据统计、传输等过程中很有可能导致数据缺失或者错误值等一些问题,使得模型预测效果不能很好呈现,因此对所采集的数据进行预处理变得尤为重要。对数据分别采用了缺失值填充与删除处理、数据归一化处理、生成派生数据项等处理。
[0088]
其中,在重点单位治安相关数据采集的过程中,难免会有某个数据集中的某个属性值是不完整的,对于数据中缺失值具体处理办法如下:
[0089]
(1)对于不会影响到数据信息客观性与结果有效性的缺失值:如处理案事件警情数据时,将包含缺失值的警情数据进行删除。案事件警情数据上万条,由于数据量大,所以删除缺失的几条数据对整体案事件的统计影响不大,并不会影响到数据信息的客观性与结果的有效性;
[0090]
(2)对于本身数据量小,查询容易的缺失值数据:如天气数据,进行人工填补。由于是在网站上采集,历史天气数据在采集过程中出现缺失值,很容易根据具体日期重新网上查询,对数据进行人工填补。
[0091]
(3)重点单位治安案件数量与邻近日期范围附近的治安案件数量有一定关系,因此在对重点单位治安案发量数据进行缺失值填补时,本发明采用移动窗口均值填充法。将案件量缺失数据的前三天案件量,与后三天案件量的平均值作为缺失治安案件数量进行填充,公式表示如下:
[0092][0093]
其中,x
m-n
为缺失值附近的重点单位治安案件数量,xm为所填补的重点单位治安案件数量的缺失值。
[0094]
如果某个特征属性量级过大,在对相关因素进行分析时,量级大的特征属性很可能会掩盖其他与其量级相差悬殊的因素对重点单位治安风险所带来的影响。对于单位量级之间的差别本发明进行数据归一化处理。将所采集的与重点单位治安风险相关的数据全部映射到[0,1]之间,去除单位和量级对分析所带来的影响,以便之后对不同单位和量级的数
据进行比较。数据进行归一化处理具体函数算法如下:
[0095][0096]
其中,max为数据最大值,min为数据最小值,x为原始数据值,y为原始数据归一化处理后的值。然而在实际重点单位治安案件预测中,不是所有的属性都适合将数值映射到[0,1]之间。
[0097]
为了方便实际应用,本发明将所期望映射的目标区间假设为[0,1],数据最大值为max,最小值为min,x为原始数据值,y为映射到特定区间处理后的值,将得到数值映射到[α,β]结果为:
[0098][0099]
通过公式的映射,可以将数据映射到任意区间内。最终将与时间序列有关的连续型变量数据,如重点单位治安案发量进行特定区间映射,方便后续对特征数据之间开展相关分析与预测模型构建。
[0100]
s5:对预处理后的数据进行特征选取,并将选取的特征输入预先构建的趋势研判模型进行训练。
[0101]
可选地,所述对预处理后的数据进行特征选取,包括:
[0102]
通过以下公式计算预处理后的数据的相关平滑系数rm:
[0103][0104]
其中,xi为重点单位治安案发量,mi为重点单位治安案件平滑数量,yi为所要筛选的特征数据,为特征数据的平均值;
[0105]
根据计算得到的相关平滑系数rm值,确定与重点单位治安案件数量相关的影响因子。
[0106]
在本发明实施例中,为了更好的构建重点单位治安案件预测模型,提高预测模型性能,首先要对基础数据集属性表中的特征属性数据进行特征选择,筛选出对重点单位治安案发量最相关的特征因素,
[0107]
即选择有意义的特征输入本发明所构建的预测模型进行训练,从而为构建重点单位治安案件预测模型奠定基础。
[0108]
在进行重点单位治安风险模型构建之前,通过特征工程对影响重点单位治安的风险因素进行甄选,找出影响重点单位治安风险的核心指标。本发明选用改进的pearson相关系数进行相关分析,将与重点单位治安风险相关的特征因素进行分析。
[0109]
xy为两个相关变量,xi为重点单位治安案发量,mi为重点单位治安案件平滑数量,yi为所要筛选的特征数据,为特征数据的平均值,所计算出的结果r即可反映两个变量之间的相关性。但是由于重点单位治安案发量波动范围较大,重点单位治安案发量的通过对重点单位治安案发量进行滑动平均处理后所得的去除噪声平滑数据更能体现重点单位治安量的变化趋势,所以引入重点单位治安案件平滑数量mi代替。改进后的pearson相关系数,相关平滑系数rm如下:
[0110][0111]
其中,xi为重点单位治安案发量,mi为重点单位治安案件平滑数量,yi为所要筛选的特征数据,为特征数据的平均值。
[0112]
相关平滑系数rm可作为更准确的相关系数进行比较分析。rm取值范围是[-1,1]之间,当rm在[0,1]区间时,变量之间呈正相关;当rm在[-1,0)区间时,变量之间呈负相关;rm的值越大,相关程度越高,当相关性小于0.05时则两个变量几乎不存在显著相关性。rm可以有效保留治安风险相关特征因素。通过相关平滑系数rm相关性计算,所得到的相关平滑系数rm值来确定与重点单位治安案件数量相关的影响因子。
[0113]
s6:基于训练好的趋势研判模型,向外提供趋势预测服务接口。
[0114]
可选地,所述将选取的特征输入预先构建的趋势研判模型进行训练,包括:根据不同的业务需求,选择不同的时间序列网络,搭建趋势研判模型;将选取的特征输入搭建的趋势研判模型,使用adam优化器,使用mse作为损失函数,进行模型的训练。
[0115]
在本发明实施例中,依托治安大数据资源池,基于对治安数据融合应用和治安业务应用等不同场景下的趋势研判模型需求,对模型算法进行封装形成固化的模型。将所有趋势研判模型进行统一管理,形成趋势研判模型仓库提供用户后续调用。
[0116]
针对检查站、火车站、机场人车流量等周期性规律较强的模型,使用gru网络;
[0117]
gru网络的结构如下:
[0118]
第一层为gru层,输出维度为100,返回完整序列。
[0119]
第二层为dropout正则化层,dropout rate设置为0.2,保留概率为80%。
[0120]
第三层为gru层,输出维度为50,返回输出序列中的最后一个输出。
[0121]
第四层为dropout正则化层,dropout rate设置为0.2,保留概率为80%。第五层为dense全连接层,神经元的个数为n,表示我们需要预测未来n天的数据,如预测未来5天的数据,则神经元个数为5。
[0122]
模型使用adam优化器,使用smooth l1作为损失函数。
[0123]
针对历史数据关联性较强的业务,我们使用双向lstm网络,搭建趋势研判模型。
[0124]
如图3所示,双向lstm网络的结构如下:
[0125]
第一层为前向lstm层,输入为训练数据集的尺寸,输出将输入的维度映射成150个维度输出。
[0126]
第二层为后向lstm层,输出将输入的维度映射成50个维度输出。
[0127]
第三层为全连接层,神经元的个数为20,激活函数为tanh。
[0128]
第四层为dropout正则化层,dropout rate设置为0.2,保留概率为80%。
[0129]
第五层为全连接层,神经元的个数为n,表示我们需要预测未来n天的数据,如预测未来5天的数据,则神经元个数为5。
[0130]
模型使用adam优化器,使用mse作为损失函数。
[0131]
针对多因素变量的业务如案事件预测,使用cnn和lstm结合的网络模型作为编码器-解码器体系结构。通过1d cnn读取序列输入并自动学习重要特征,然后lstm网络进行解码;使用scikitlearn的minmaxscaler对相同的数据并进行缩放,范围在-1到1之间。对于
cnn-lstm,需要将数据重新整理为所需的结构:[样本,子序列,时间步长,特征],以便可以将其作为输入传递给模型。我们使用timedistributed封装器对每个输入子序列应用一次整个模型。
[0132]
模型结构如下。
[0133]
第一层为使用timedistributed封装器的conv1d层;timedistributed封装器将conv1d层应用于输入的每个时间片,其中卷积核16个,卷积核大小为1,激活函数为sigmoid。
[0134]
第二层为使用timedistributed封装器的maxpooling1d层;timedistributed封装器将maxpooling1d层应用于输入的每个时间片,其中池化层大小为1。
[0135]
第三层为使用timedistributed封装器的flatten层;timedistributed封装器将输入特征变形为一维数组。
[0136]
第四层为一个lstm层,输出维度为21,激活函数为"tanh",返回值为整个序列。
[0137]
第五层为一个lstm层,输出维度为14,激活函数为"tanh",返回值为整个序列。
[0138]
第六层为一个lstm层,输出维度为7,激活函数为"tanh"。
[0139]
第七层为一个全连接层,神经元个数为3,激活函数为sigmoid。
[0140]
第八层为一个全连接层,神经元的个数为n,表示我们需要预测未来n天的数据,如预测未来5天的数据,则神经元个数为5.
[0141]
模型训练时:优化器使用adam优化器,学习率为0.001,损失函数为mse,损失度量为mse。批次大小为36,训练轮数为200。
[0142]
进一步地,可以使用深度学习模型搭建检查站人车流量、案事件预测网络,将人员流量、案事件数据建模及结果分析开发为服务接口,由后台管理系统对外发布,为其它子系统提供api接口进行模型服务。
[0143]
本发明可以预测检查站、车站、地铁站人员流量:以现阶段人、车流量为基础对未来一定时期内的人、车流量进行预测,并对未来超警人、车流量进行预警,合理调整勤务给出指导信息,同时可以提供预警信息给到地市。
[0144]
本发明可以预测涉及重点单位的案事件的发展趋势:对涉医院类、涉学校类、涉银行类等涉及重点单位案件的时间序列数据进行建模分析,得到时间序列模型并对其趋势进行预测分析。
[0145]
本发明将检查站、车站、重点人员、案事件等数据接入到大数据治理平台;对治安相关数据数据从来源逐级提炼,形成分层存储、全局管理和使用的数据组织,经过离线/实时的数据管理后,可以进一步使用数据生产出治安业务所需的数据,从而构建各类专题库;使用改进的方法对数据缺失值进行处理;使用改进后的pearson相关系数选取模型相关特征;针对不同的业务需求设计并训练使用双向lstm时间序列网络模型对各类数据进行趋势研判分析,并对其他业务系统提供模型服务接口。
[0146]
从而,本发明给出了选择特征的方法能够更好的提取影响模型的相关特征。本发明使用双向lstm时间序列网络能够更好的学习时间序列趋势,更准确的预测结果。本发明使用改进的方法对数据缺失值进行处理,提高数据的完整性和有效性。本发明使得治安数据集中管理,构建专题库提高数据的整合性和完整性,提升数据价值。
[0147]
示例性装置
[0148]
图4是本发明一示例性实施例提供的治安防控领域的时间序列预测装置的结构示意图。如图4所示,本实施例所提出的治安防控领域的时间序列预测装置包括:
[0149]
数据接入模块,用于将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行规范化处理;
[0150]
分层存储模块,用于对规范化处理后的源数据按照各个数据层级的要求进行分层存储,其中数据层级分为贴源层、标准层、汇总层、集市层;
[0151]
数据管理模块,用于通过数据批量同步服务将各个数据层级的数据存储至离线存储/计算集群主机,进行离线的数据管理;通过实时同步服务将各个数据层级的实时数据发送至实时消息队列和计算集群主机,进行实时的数据管理;
[0152]
预处理模块,用于对经过实时/离线管理的数据进行预处理,其中预处理包括缺失值填充与删除处理、数据归一化处理以及生成派生数据项;
[0153]
特征选取及模型搭建模块,用于对预处理后的数据进行特征选取,并将选取的特征输入预先构建的趋势研判模型进行训练;
[0154]
趋势预测服务模块,用于基于训练好的趋势研判模型,向外提供趋势预测服务接口。
[0155]
本发明的实施例的治安防控领域的时间序列预测装置与本发明的另一个实施例的治安防控领域的时间序列预测方法相对应,在此不再赘述。
[0156]
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0157]
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0158]
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0159]
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0160]
还需要指出的是,在本公开的系统、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面
的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0161]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

技术特征:
1.一种治安防控领域的时间序列预测方法,其特征在于,包括:将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行规范化处理;对规范化处理后的源数据按照各个数据层级的要求进行分层存储,其中数据层级分为贴源层、标准层、汇总层、集市层;通过数据批量同步服务将各个数据层级的数据存储至离线存储/计算集群主机,进行离线的数据管理;通过实时同步服务将各个数据层级的实时数据发送至实时消息队列和计算集群主机,进行实时的数据管理;对经过实时/离线管理的数据进行预处理,其中预处理包括缺失值填充与删除处理、数据归一化处理以及生成派生数据项;对预处理后的数据进行特征选取,并将选取的特征输入预先构建的趋势研判模型进行训练;基于训练好的趋势研判模型,向外提供趋势预测服务接口。2.根据权利要求1所述的方法,其特征在于,所述将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行规范化处理,包括:将各类治安数据通过安全边界发送到大数据治理平台的采集主机;采集主机将处理后的数据分别分发给批量同步服务和实时同步服务,将数据同步到大数据存储/计算集群;通过对接入的源数据按照数据标准进行提取、清洗、比对、关联、打标的规范化处理。3.根据权利要求1所述的方法,其特征在于,所述对规范化处理后的源数据按照各个数据层级的要求进行分层存储,包括:按照源数据的类型,将源数据分类存储至贴源层;按照多个维度以及事件类别,将贴源层的数据进行拆分后存储至标准层,并在标准层创建维度表和各类明细表;将标准层的数据经过清洗、加工、汇总后存储到汇总层,并在汇总层创建各类统计表;将汇总层的数据进一步加工、汇总后存储到集市层,并在集市层创建各类统计总表。4.根据权利要求1所述的方法,其特征在于,所述对经过实时/离线管理的数据进行预处理,包括:对于不会影响到数据信息客观性与结果有效性的缺失值数据进行删除;对于数据量小于第一阈值且查询频率大于第二阈值的缺失值数据进行人工填补;对重点单位治安案件量数据进行缺失值填补时,采用移动窗口均值填充法,将案件量缺失数据的前三天案件量,与后三天案件量的平均值作为缺失治安案件数量进行填充。5.根据权利要求4所述的方法,其特征在于,采用的移动窗口均值填充法的公式表示如下:其中,x
m-n
为缺失值附近的重点单位治安案件数量,x
m
为所填补的重点单位治安案件数量的缺失值。6.根据权利要求1所述的方法,其特征在于,所述对预处理后的数据进行特征选取,包
括:通过以下公式计算预处理后的数据的相关平滑系数r
m
:其中,x
i
为重点单位治安案发量,m
i
为重点单位治安案件平滑数量,y
i
为所要筛选的特征数据,为特征数据的平均值;根据计算得到的相关平滑系数r
m
值,确定与重点单位治安案件数量相关的影响因子。7.根据权利要求1所述的方法,其特征在于,所述将选取的特征输入预先构建的趋势研判模型进行训练,包括:根据不同的业务需求,选择不同的时间序列网络,搭建趋势研判模型;将选取的特征输入搭建的趋势研判模型,使用adam优化器,使用mse作为损失函数,进行模型的训练。8.一种治安防控领域的时间序列预测装置,其特征在于,包括:数据接入模块,用于将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行规范化处理;分层存储模块,用于对规范化处理后的源数据按照各个数据层级的要求进行分层存储,其中数据层级分为贴源层、标准层、汇总层、集市层;数据管理模块,用于通过数据批量同步服务将各个数据层级的数据存储至离线存储/计算集群主机,进行离线的数据管理;通过实时同步服务将各个数据层级的实时数据发送至实时消息队列和计算集群主机,进行实时的数据管理;预处理模块,用于对经过实时/离线管理的数据进行预处理,其中预处理包括缺失值填充与删除处理、数据归一化处理以及生成派生数据项;特征选取及模型搭建模块,用于对预处理后的数据进行特征选取,并将选取的特征输入预先构建的趋势研判模型进行训练;趋势预测服务模块,用于基于训练好的趋势研判模型,向外提供趋势预测服务接口。9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的方法。10.一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的方法。

技术总结
本发明实施例公开了一种治安防控领域的时间序列预测方法、装置及存储介质,其中方法包括:将各类治安数据接入大数据治理平台,并对接入的源数据按照数据标准进行规范化处理;对规范化处理后的源数据按照各个数据层级的要求进行分层存储;通过数据批量同步服务将各个数据层级的数据存储至离线存储/计算集群主机,进行离线的数据管理;通过实时同步服务将各个数据层级的实时数据发送至实时消息队列和计算集群主机,进行实时的数据管理;对经过实时/离线管理的数据进行预处理;对预处理后的数据进行特征选取,并将选取的特征输入预先构建的趋势研判模型进行训练;基于训练好的趋势研判模型,向外提供趋势预测服务接口。向外提供趋势预测服务接口。向外提供趋势预测服务接口。


技术研发人员:张志达 黄鹏 张科伟 毛翔宇 孙永文 王璀
受保护的技术使用者:航天信息股份有限公司
技术研发日:2022.12.27
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐