一种基于LSTM-MEA-SVR空气质量预报的系统
未命名
09-24
阅读:77
评论:0
一种基于lstm-mea-svr空气质量预报的系统
技术领域
1.本发明新型涉及大气质量预报技术领域,具体为一种基于lstm-mea-svr空气质量预报的系统。
背景技术:
2.近年来,空气污染日益严重,对人们的生产生活造成了极大的影响。在此背景下,国家大力推进空气质量预报发展,但目前相关技术仍有较大发展空间。所以空气质量预报对于响应国家号召、保护生态环境等方面都有着至关重要的作用。
3.目前大气气溶胶污染的研究工具是地面台站监测(如地基激光雷达观测)、卫星数据反演和数值模型。然而,由于地面观测站点分布不均匀、站点数量有限、观测结果误差大、地面监测系统建设成本高等原因,观测数据在研究污染物空间分布特征方面存在一定的局限性。因此,仅靠地面观测对大气污染进行综合研究是困难的。卫星遥感技术最近有了长足的进步。与传统观测技术相比,卫星遥感监测覆盖地域大,信息获取速度快。这些特性在一定程度上弥补了地面观测在空间和时间上的不足,成为大气环境研究的重要技术手段。随着计算机技术的不断发展,数值模型在大气污染研究中得到了广泛的应用。
4.发明新型内容
5.针对上述情况,为弥补上述现有缺陷,本方案提供了一种基于lstm-mea-svr空气质量预报的系统。
6.一种基于lstm-mea-svr空气质量预报的系统,包括数据处理、预测系统和模型分析,所述数据处理包括网络数据、数据预处理、数据特征分析、回归模型筛选数据和影响因子相关性分析,所述数据预处理与网络数据之间设有数据通道一,所述回归模型筛选数据与网络数据之间设有数据通道二,所述数据预处理与数据特征分析之间设有数据通道三,所述回归模型筛选数据与影响因子相关性分析之间设有数据通道四;所述预测系统包括数据整理分析、数据预测和模型参数优化,所述数据整理分析与数据特征分析和影响因子相关性分析之间均设有数据通道五,所述数据整理分析与数据预测之间设有数据通道六,所述数据预测与模型参数优化之间设有数据通道七;所述模型分析包括拟合优度分析、召回率分析和数据输出,所述拟合优度分析与模型参数优化之间设有数据通道八,所述召回率分析与模型参数优化之间设有数据通道九,所述数据输出与拟合优度分析和召回率分析之间均设有数据通道十;
7.所述数据预处理对收集到的空气质量数据进行预处理,并将数据进行标准化处理。
8.所述数据的获得采用激光雷达,通过建立了区域激光雷达立体探测网、地面常规监测网、卫星平台等多源观测的数据质量控制体系
9.建立数据预处理的模型以及通过mea-svr来进行模型参数的优化来克服过拟合问题的模型。
10.所述数据预处理中包括除去异常值、使用全局化的插值方法以及标准化处理数
据,对收集到的空气质量数据进行预处理,并将数据进行标准化处理,使数据稳定在某一合理范围内,从而有利于深度学习模型的拟合,可以提升拟合优度,从而提升预测的精准度。为了帮助本研究中研究的预测模型的训练过程,可以使用以下等式将数据归一化作为预处理方法:
[0011][0012]
其中,xi是预测值,xrefi是观测值,是事件的所有观察到的规范化值i随机处理是基于统计和概率形成的建模理论,用于分析数据,在大多数情况下,随机进程按时间编制索引。
[0013]
所述mea是一种学习方法,通过收敛和异化操作不断迭代优化。个体在解决方案空间中随机生成,所有个体形成一个组。其中几个小组被选为上级组,其他组被保留为临时组。每个人的分数是根据适应度函数计算的。上组和临时亚组的数量为5个。在亚组中选择收敛,而在整个组中进行异化。算法执行时,收敛和异化同时进行,相互补充,共同提高了整体搜索效率。当优势组的子组全部成熟(分数不再增加)时,将不需要收敛操作。在临时亚组中,如果最高亚组得分低于任何高级亚组,则无需执行异化操作。此时,系统达到全局最优值。
[0014]
通过极小化目标函数使学习模型达到最合理的拟合优度,通过建立mea-svr来进行模型参数的优化,来克服了过拟合问题,可以有效解决底层优化问题,因此该方法的泛化能力较高,在svr中非线性映射用于映射数据xi进入高维特
[0015]
征空间,将多维非线性问题表述为高维线性问题,其中回归函数如下:
[0016][0017]
优化问题以最小化结构风险函数:
[0018][0019]
其中,约束条件:
[0020][0021]
其中,w∈rn,b∈r和φ表示从空间到特征空间的高维特征映射。其中,(*)表示矢量符号。
[0022]
采用拉格朗日函数的对偶优化问题可以写成如下:
[0023][0024]
其中,约束条件:
[0025][0026]
其中,k(xi,xj)是对偶问题的解决方案所依赖的内核函数,c称为正则化参数,ε是
错误敏感度参数,σ控制模型非线性水平。在mea-svr算法中,最佳惩罚因子c、阈值ε和rbf核的方差σ2等参数只能对算法性能有很大的影响。因此,引入mea算法来优化这些参数。
[0027]
在对lstm-mea-svr定义后,使用学习模型输出预测的结果,是将数据集划分为训练集、验证集与测试集,分别占60%,20%,20%的比例,训练通过初始的深度学习模型得到预测结果。
[0028]
所述拟合优度分析,通过计算模型的结果与测试集数据的平均绝对误差mae和均方根误差rmse和一致性指数ia,来判断拟合优度,具体函数如下:
[0029][0030][0031][0032]
其中,pi为预测值,oi为实际值,n为样本数,和是平均值。
[0033]
本发明还公开了一种基于lstm-mea-svr的空气质量预报系统模型,使用方法:
[0034]
s1:第一步先建立多源污染物分布模型,提出基于生成对抗网络的垂直廓线立体遥测数据生成方法,并以此生成对抗网络的训练数据,得到插值后垂直廊线分解结果,其次,在大气污染物的预报方面,运用深度神经网络对数据进行深度分析,其可以对模型反演数据中的不确定性部分和随机性部分进行建模,即以有限点位的观测数据中挖掘出内蕴的变化规律,具体地,从城市观测数据中挖掘得到同一时段不同位置的数据变化规律,从观测数据中挖掘得到相邻区域不同时间的数据变化规律,在深度数据挖掘的过程中,将地理信息、气象信息等可能影响观测结果的数据一并输入网络进行综合分析。其中,运用4d-var,在考虑到时间维度的同时,同时考虑了多个时间的观测结果。公式如下:
[0035][0036]
其中x是模型控制变量,xb是背景字段,b是是背景字段误差协方差矩阵,hm是观察运算符,mm(x)是模型预测,ym是第m个观测值,o是观测值误差协方差矩阵,f是观测值算子协方差矩阵。
[0037]
(o+f)-1
(hm(mm(x))-ym)是在tm矩阵添加到伴随模型变量中的强制项。
[0038]
其中4d-var目标函数的梯度为:
[0039]
[0040]
其中,是数值预测模型的伴随模型算子由时间t的积分计算得出m到时间t0.r等于(o+f)。4d-var可以直接同化间接观测,例如温度和降水,并同时全局同化不同的观测值,并增加了动态和数学附加约束的灵活性。4d-var还可以有效地利用时间密集观测中包含的大气动力场信息。
[0041]
s2:收集所有要预测区域的空气质量数据以及影响空气质量的因素数据集。数据集的时间范围可实时更新至预测当天的前一天甚至前一个小时,并将收集到的数据集为训练集,验证集以及测试集三个部分,训练集用于用于训练模型(拟合参数),验证集用于确定网络结构或者控制模型复杂程度的超参数(拟合超参数),测试集用来评估模最终模型的性能如何。最后根据样本集的规模数量将训练集,验证集和测试集按照常用的60:20:20比例进行划分。
[0042]
s3:由于收集数据集规模较大,各个数据之间的差异也较大,这些差异的影响会导致模型的拟合过程困难,所以需要将这些原始数据集进行预处理,使用数据归一化等常见预处理操作将原始数据控制在更小的特定区间范围,进而更好地训练和拟合深度学习模型。
[0043]
s4:采用的相关模型进行数据分析,本系统选用的深度学习模型为long short-term memory(lstm)模型、向量回归(svr,support vector regression)和思维进化算法(mea,mind evolutionary algorithm)模型来相互结合。其中lstm通过网络中节点之间的信息传递的方式来获取图中的依存关系,得到污染物的空间特征。svr模型参数的估计被表述为二次优化问题,其目标是最小化结构风险。这克服了过拟合问题,可以有效解决底层优化问题。
[0044]
s4:在完成lstm-mea-svr模型定义之后,需要使用数据集对模型进行拟合。对于拟合度较低模型进行神经网络优化权参数,减少正则化参数,添加多项式污染物特征。对于过拟合的模型采用增大数据训练量和正则化参数,最终达到模型拟合效果。
[0045]
s5:预测结束后,采用k折交叉验证方法进行敏感性分析,即将原始得预测数据分成k组,将每个子集数据分别作为一次验证集,其余的k-1组子集数据则作为训练集,由此可得到k个模型,用这k个模型最终的验证集的分类准确性评价指标作为模型的敏感性分析性能指标。并计算召回率来进行辅助验证预测的合理性。
[0046]
采用上述结构本发明新型取得的有益效果如下:采用深度学习的神经网络,具有更高的预测精度以及预测速度;通过极小化目标函数使学习模型达到最合理的拟合优度,使用mea-svr来进行模型参数的优化,克服了过拟合问题,可以有效解决底层优化问题,通过建立融合污染物分布模型,生成对抗网络的训练数据,使得数据更加的精确,预测准确度更高;通过激光雷达来获取数据,避免了卫星观测数据的缺失,扩展垂直廓线的遥感观测,收集多源数据,实现观测与模式的融合,实现高精度、高质量的预报数据汇报。
附图说明
[0047]
附图用来提供对本发明新型的进一步理解,并且构成说明书的一部分,与本发明新型的实施例一起用于解释本发明新型,并不构成对本发明新型的限制。在附图中:
[0048]
图1为本发明整体结构图;
[0049]
图2为本发明数据样本预处理图;
[0050]
图3为本发明参数优化方法图。
具体实施方式
[0051]
下面将结合本发明新型实施例中的附图,对本发明新型实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明新型一部分实施例,而不是全部的实施例;基于本发明新型中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明新型保护的范围。
[0052]
如图1至图3所示,发明新型采取的技术方案如下:包括数据处理、预测系统和模型分析,所述数据处理包括网络数据、数据预处理、数据特征分析、回归模型筛选数据和影响因子相关性分析,所述数据预处理与网络数据之间设有数据通道一,所述回归模型筛选数据与网络数据之间设有数据通道二,所述数据预处理与数据特征分析之间设有数据通道三,所述回归模型筛选数据与影响因子相关性分析之间设有数据通道四;所述预测系统包括数据整理分析、数据预测和模型参数优化,所述数据整理分析与数据特征分析和影响因子相关性分析之间均设有数据通道五,所述数据整理分析与数据预测之间设有数据通道六,所述数据预测与模型参数优化之间设有数据通道七;所述模型分析包括拟合优度分析、召回率分析和数据输出,所述拟合优度分析与模型参数优化之间设有数据通道八,所述召回率分析与模型参数优化之间设有数据通道九,所述数据输出与拟合优度分析和召回率分析之间均设有数据通道十;
[0053]
所述数据预处理对收集到的空气质量数据进行预处理,并将数据进行标准化处理。
[0054]
所述数据的获得采用激光雷达,通过建立了区域激光雷达立体探测网、地面常规监测网、卫星平台等多源观测的数据质量控制体系。
[0055]
建立数据预处理的模型以及通过mea-svr来进行模型参数的优化来克服过拟合问题的模型。
[0056]
所述数据预处理中包括除去异常值、使用全局化的插值方法以及标准化处理数据,对收集到的空气质量数据进行预处理,并将数据进行标准化处理,使数据稳定在某一合理范围内,从而有利于深度学习模型的拟合,可以提升拟合优度,从而提升预测的精准度。为了帮助本研究中研究的预测模型的训练过程,可以使用以下等式将数据归一化作为预处理方法:
[0057][0058]
其中,xi是预测值,xrefi是观测值,是事件的所有观察到的规范化值i随机处理是基于统计和概率形成的建模理论,用于分析数据,在大多数情况下,随机进程按时间编制索引。
[0059]
所述mea是一种学习方法,通过收敛和异化操作不断迭代优化。个体在解决方案空间中随机生成,所有个体形成一个组。其中几个小组被选为上级组,其他组被保留为临时组。每个人的分数是根据适应度函数计算的。上组和临时亚组的数量为5个。在亚组中选择收敛,而在整个组中进行异化。算法执行时,收敛和异化同时进行,相互补充,共同提高了整
体搜索效率。当优势组的子组全部成熟(分数不再增加)时,将不需要收敛操作。在临时亚组中,如果最高亚组得分低于任何高级亚组,则无需执行异化操作。此时,系统达到全局最优值。
[0060]
通过极小化目标函数使学习模型达到最合理的拟合优度,通过建立mea-svr来进行模型参数的优化,来克服了过拟合问题,可以有效解决底层优化问题,因此该方法的泛化能力较高,在svr中非线性映射用于映射数据xi进入高维特
[0061]
征空间,将多维非线性问题表述为高维线性问题,其中回归函数如下:
[0062][0063]
优化问题以最小化结构风险函数:
[0064][0065]
其中,约束条件:
[0066][0067]
其中,w∈rn,b∈r和φ表示从空间到特征空间的高维特征映射。其中,(*)表示矢量符号。
[0068]
采用拉格朗日函数的对偶优化问题可以写成如下:
[0069][0070]
其中,约束条件:
[0071][0072]
其中,k(xi,xj)是对偶问题的解决方案所依赖的内核函数,c称为正则化参数,ε是错误敏感度参数,σ控制模型非线性水平。在mea-svr算法中,最佳惩罚因子c、阈值ε和rbf核的方差σ2等参数只能对算法性能有很大的影响。因此,引入mea算法来优化这些参数。
[0073]
在对lstm-mea-svr定义后,使用学习模型输出预测的结果,是将数据集划分为训练集、验证集与测试集,分别占60%,20%,20%的比例,训练通过初始的深度学习模型得到预测结果。
[0074]
所述拟合优度分析,通过计算模型的结果与测试集数据的平均绝对误差mae和均方根误差rmse和一致性指数ia,来判断拟合优度,具体函数如下:
[0075][0076]
[0077][0078]
其中,pi为预测值,oi为实际值,n为样本数,和是平均值。
[0079]
一种基于lstm-mea-svr空气质量预报的系统,使用方法:
[0080]
s1:第一步先建立多源污染物分布模型,提出基于生成对抗网络的垂直廓线立体遥测数据生成方法,并以此生成对抗网络的训练数据,得到插值后垂直廊线分解结果,其次,在大气污染物的预报方面,运用深度神经网络对数据进行深度分析,其可以对模型反演数据中的不确定性部分和随机性部分进行建模,即以有限点位的观测数据中挖掘出内蕴的变化规律,具体地,从城市观测数据中挖掘得到同一时段不同位置的数据变化规律,从观测数据中挖掘得到相邻区域不同时间的数据变化规律,在深度数据挖掘的过程中,将地理信息、气象信息等可能影响观测结果的数据一并输入网络进行综合分析。其中,运用4d-var,在考虑到时间维度的同时,同时考虑了多个时间的观测结果。公式如下:
[0081][0082]
其中x是模型控制变量,xb是背景字段,b是是背景字段误差协方差矩阵,hm是观察运算符,mm(x)是模型预测,ym是第m个观测值,o是观测值误差协方差矩阵,f是观测值算子协方差矩阵。
[0083]
(o+f)-1
(hm(mm(x))-ym)是在tm矩阵添加到伴随模型变量中的强制项。
[0084]
其中4d-var目标函数的梯度为:
[0085][0086]
其中,是数值预测模型的伴随模型算子由时间t的积分计算得出m到时间t0.r等于(o+f)。4d-var可以直接同化间接观测,例如温度和降水,并同时全局同化不同的观测值,并增加了动态和数学附加约束的灵活性。4d-var还可以有效地利用时间密集观测中包含的大气动力场信息。
[0087]
s2:收集所有要预测区域的空气质量数据以及影响空气质量的因素数据集。数据集的时间范围可实时更新至预测当天的前一天甚至前一个小时,并将收集到的数据集为训练集,验证集以及测试集三个部分,训练集用于用于训练模型(拟合参数),验证集用于确定网络结构或者控制模型复杂程度的超参数(拟合超参数),测试集用来评估模最终模型的性能如何。最后根据样本集的规模数量将训练集,验证集和测试集按照常用的60:20:20比例进行划分。
[0088]
s3:由于收集数据集规模较大,各个数据之间的差异也较大,这些差异的影响会导致模型的拟合过程困难,所以需要将这些原始数据集进行预处理,使用数据归一化等常见
预处理操作将原始数据控制在更小的特定区间范围,进而更好地训练和拟合深度学习模型。
[0089]
s4:采用的相关模型进行数据分析,本系统选用的深度学习模型为long short-term memory(lstm)模型、向量回归(svr,support vector regression)和思维进化算法(mea,mind evolutionary algorithm)模型来相互结合。其中lstm通过网络中节点之间的信息传递的方式来获取图中的依存关系,得到污染物的空间特征。svr模型参数的估计被表述为二次优化问题,其目标是最小化结构风险。这克服了过拟合问题,可以有效解决底层优化问题。
[0090]
s4:在完成lstm-mea-svr模型定义之后,需要使用数据集对模型进行拟合。对于拟合度较低模型进行神经网络优化权参数,减少正则化参数,添加多项式污染物特征。对于过拟合的模型采用增大数据训练量和正则化参数,最终达到模型拟合效果。
[0091]
s5:预测结束后,采用k折交叉验证方法进行敏感性分析,即将原始得预测数据分成k组,将每个子集数据分别作为一次验证集,其余的k-1组子集数据则作为训练集,由此可得到k个模型,用这k个模型最终的验证集的分类准确性评价指标作为模型的敏感性分析性能指标。并计算召回率来进行辅助验证预测的合理性。
[0092]
要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物料或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物料或者设备所固有的要素。
[0093]
尽管已经示出和描述了本发明新型的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明新型的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明新型的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于lstm-mea-svr空气质量预报的系统,其特征在于:包括数据处理、预测系统和模型分析,所述数据处理包括获得数据、网络数据、数据预处理、数据特征分析、回归模型筛选数据和影响因子相关性分析,所述数据预处理与网络数据之间设有数据通道一,所述回归模型筛选数据与网络数据之间设有数据通道二,所述数据预处理与数据特征分析之间设有数据通道三,所述回归模型筛选数据与影响因子相关性分析之间设有数据通道四;所述预测系统包括数据整理分析、数据预测和模型参数优化,所述数据整理分析与数据特征分析和影响因子相关性分析之间均设有数据通道五,所述数据整理分析与数据预测之间设有数据通道六,所述数据预测与模型参数优化之间设有数据通道七;所述模型分析包括拟合优度分析、召回率分析和数据输出,所述拟合优度分析与模型参数优化之间设有数据通道八,所述召回率分析与模型参数优化之间设有数据通道九,所述数据输出与拟合优度分析和召回率分析之间均设有数据通道十;所述数据预处理对收集到的空气质量数据进行预处理,并将数据进行标准化处理。2.根据权利要求1所述的一种基于lstm-mea-svr空气质量预报的系统,其特征在于:所述数据的获得采用激光雷达,通过建立了区域激光雷达立体探测网、地面常规监测网、卫星平台等多源观测的数据质量控制体系。3.根据权利要求2所述的一种基于lstm-mea-svr空气质量预报的系统,其特征在于:建立数据预处理的模型以及通过mea-svr来进行模型参数的优化来克服过拟合问题的模型。4.根据权利要求3所述的一种基于lstm-mea-svr空气质量预报的系统,其特征在于:所述数据预处理中包括除去异常值、使用全局化的插值方法以及标准化处理数据,对收集到的空气质量数据进行预处理,并将数据进行标准化处理,使数据稳定在某一合理范围内,从而有利于深度学习模型的拟合,可以提升拟合优度,从而提升预测的精准度。为了帮助本研究中研究的预测模型的训练过程,可以使用以下等式将数据归一化作为预处理方法:其中,x
i
是预测值,xref
i
是观测值,是事件的所有观察到的规范化值i随机处理是基于统计和概率形成的建模理论,用于分析数据,在大多数情况下,随机进程按时间编制索引。5.根据权利要求4所述的一种基于lstm-mea-svr空气质量预报的系统,其特在于:所述mea是一种学习方法,通过收敛和异化操作不断迭代优化。个体在解决方案空间中随机生成,所有个体形成一个组。其中几个小组被选为上级组,其他组被保留为临时组。每个人的分数是根据适应度函数计算的。上组和临时亚组的数量为5个。在亚组中选择收敛,而在整个组中进行异化。算法执行时,收敛和异化同时进行,相互补充,共同提高了整体搜索效率。当优势组的子组全部成熟(分数不再增加)时,将不需要收敛操作。在临时亚组中,如果最高亚组得分低于任何高级亚组,则无需执行异化操作。此时,系统达到全局最优值。6.根据权利要求5所述的一种基于lstm-mea-svr空气质量预报的系统,其特在于:通过极小化目标函数使学习模型达到最合理的拟合优度,通过建立mea-svr来进行模型参数的优化,来克服了过拟合问题,可以有效解决底层优化问题,因此该方法的泛化能力较高,在svr中非线性映射用于映射数据x
i
进入高维特征空间,将多维非线性问题表述为高维线性
问题,其中回归函数如下:优化问题以最小化结构风险函数:其中,约束条件:其中,w∈r
n
,b∈r和φ表示从空间到特征空间的高维特征映射。其中,(*)表示矢量符号。采用拉格朗日函数的对偶优化问题可以写成如下:其中,约束条件:其中,k(x
i
,x
j
)是对偶问题的解决方案所依赖的内核函数,c称为正则化参数,ε是错误敏感度参数,σ控制模型非线性水平。在mea-svr算法中,最佳惩罚因子c、阈值ε和rbf核的方差σ2等参数只能对算法性能有很大的影响。因此,引入mea算法来优化这些参数。7.根据权利要求6所述的一种基于lstm-mea-svr空气质量预报的系统,其特在于:在对lstm-mea-svr定义后,使用学习模型输出预测的结果,是将数据集划分为训练集、验证集与测试集,分别占60%,20%,20%的比例,训练通过初始的深度学习模型得到预测结果。8.根据权利要求7所述的一种基于lstm-mea-svr空气质量预报的系统,其特在于:所述拟合优度分析,通过计算模型的结果与测试集数据的平均绝对误差mae和均方根误差rmse和一致性指数ia,来判断拟合优度,具体函数如下:和一致性指数ia,来判断拟合优度,具体函数如下:和一致性指数ia,来判断拟合优度,具体函数如下:其中,p
i
为预测值,o
i
为实际值,n为样本数,和是平均值。9.根据权利要求求1~8所述所述的一种基于lstm-mea-svr空气质量预报的系统,使用方法:
s1:第一步先建立多源污染物分布模型,提出基于生成对抗网络的垂直廓线立体遥测数据生成方法,并以此生成对抗网络的训练数据,得到插值后垂直廊线分解结果,其次,在大气污染物的预报方面,运用深度神经网络对数据进行深度分析,其可以对模型反演数据中的不确定性部分和随机性部分进行建模,即以有限点位的观测数据中挖掘出内蕴的变化规律,具体地,从城市观测数据中挖掘得到同一时段不同位置的数据变化规律,从观测数据中挖掘得到相邻区域不同时间的数据变化规律,在深度数据挖掘的过程中,将地理信息、气象信息等可能影响观测结果的数据一并输入网络进行综合分析。其中,运用4d-var,在考虑到时间维度的同时,同时考虑了多个时间的观测结果。公式如下:其中x是模型控制变量,x
b
是背景字段,b是是背景字段误差协方差矩阵,h
m
是观察运算符,m
m
(x)是模型预测,y
m
是第m个观测值,o是观测值误差协方差矩阵,f是观测值算子协方差矩阵。(o+f)-1
(h
m
(m
m
(x))-y
m
)是在tm矩阵添加到伴随模型变量中的强制项。其中4d-var目标函数的梯度为:其中,是数值预测模型的伴随模型算子由时间t的积分计算得出m到时间t0.r等于(o+f)。4d-var可以直接同化间接观测,例如温度和降水,并同时全局同化不同的观测值,并增加了动态和数学附加约束的灵活性。4d-var还可以有效地利用时间密集观测中包含的大气动力场信息。s2:收集所有要预测区域的空气质量数据以及影响空气质量的因素数据集。数据集的时间范围可实时更新至预测当天的前一天甚至前一个小时,并将收集到的数据集为训练集,验证集以及测试集三个部分,训练集用于用于训练模型(拟合参数),验证集用于确定网络结构或者控制模型复杂程度的超参数(拟合超参数),测试集用来评估模最终模型的性能如何。最后根据样本集的规模数量将训练集,验证集和测试集按照常用的60:20:20比例进行划分。s3:由于收集数据集规模较大,各个数据之间的差异也较大,这些差异的影响会导致模型的拟合过程困难,所以需要将这些原始数据集进行预处理,使用数据归一化等常见预处理操作将原始数据控制在更小的特定区间范围,进而更好地训练和拟合深度学习模型。s4:采用的相关模型进行数据分析,本系统选用的深度学习模型为long short-term memory(lstm)模型、向量回归(svr,support vector regression)和思维进化算法(mea,mind evolutionary algorithm)模型来相互结合。其中lstm通过网络中节点之间的信息传递的方式来获取图中的依存关系,得到污染物的空间特征。svr模型参数的估计被表述为二次优化问题,其目标是最小化结构风险。这克服了过拟合问题,可以有效解决底层优化问
题。s4:在完成lstm-mea-svr模型定义之后,需要使用数据集对模型进行拟合。对于拟合度较低模型进行神经网络优化权参数,减少正则化参数,添加多项式污染物特征。对于过拟合的模型采用增大数据训练量和正则化参数,最终达到模型拟合效果。s5:预测结束后,采用k折交叉验证方法进行敏感性分析,即将原始得预测数据分成k组,将每个子集数据分别作为一次验证集,其余的k-1组子集数据则作为训练集,由此可得到k个模型,用这k个模型最终的验证集的分类准确性评价指标作为模型的敏感性分析性能指标。并计算召回率来进行辅助验证预测的合理性。
技术总结
本发明公开了一种基于LSTM-MEA-SVR空气质量预报的系统,包括数据处理、预测系统和模型分析,所述数据处理包括网络数据、数据预处理、数据特征分析、回归模型筛选数据和影响因子相关性分析,所述预测系统包括数据整理分析、数据预测和模型参数优化,所述模型分析包括拟合优度分析、召回率分析和数据输出。本发明新型涉及大气质量预报技术领域,具体为一种基于LSTM-MEA-SVR空气质量预报的系统。SVR空气质量预报的系统。SVR空气质量预报的系统。
技术研发人员:邹堉莹 项衍 杨建文 刘岳阳 路然 王继云 陈奕佳
受保护的技术使用者:安徽大学
技术研发日:2023.04.26
技术公布日:2023/9/22
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/