一种工业时序数据处理方法与流程

未命名 09-29 阅读:153 评论:0


1.本发明涉及工业时序数据技术领域,尤其是一种工业时序数据处理方法。


背景技术:

2.众多工业互联网工程项目为工业企业产生了海量的工业数据,未来基于数据驱动的以工业ai为呈现形式的各种智能化场景越来越多,而工业ai模型的研发需要建立在高质量的工业数据集的基础之上,模型训练所用数据集的质量高低将大大影响模型的精度及效率,也会直接影响数智化场景的实践价值。
3.时序数据是工业数据中一种重要的数据形式,现实情况下工业时序数据的数据集质量往往存在问题,达不到模型训练的要求,主要表现在两点:数据缺失和数据维度不佳。传统方式遇到缺失值的情况,往往采用缺失值丢弃的方法继续训练模型,然而对于工业场景而言,数据丢弃的方法不可取,主要原因是工业场景本身就缺乏数据,对于工业行业来说大多存在历史生产数据积累薄弱的问题,概其缘由原因有二:其一是成本问题,数据采集天生具有周期长、波动小、成本大、精度低、频率低的问题,企业需要耗费较大数据采集成本;其二是历史问题,部分企业上马信息化及业务系统的时间较晚,只能拿出几百上千条的历史生产数据,故而对于本身数据缺乏的工业场景来说,丢弃数据对模型的训练可能会产生更大的不利影响。此外,传统方式使用质量不佳的数据集往往会严重影响模型的精度,影响研发结果,工业时序数据往往是对某连续变量的连续采样,采样的频率不一定能满足所有的模型需要,对于不同的神经网络模型,输入维度的不同,对最终的模型预测精度也不相同,如何在不重新测量采样的情况下,改变数据的维度是急需解决的问题。


技术实现要素:

4.为解决工业生产数据存在数据缺失和数据维度过少的缺陷,本发明的目的在于提供一种对缺失值进行填补,在不重新测量采样的情况下,改变数据的维度,从而优化数据集的工业时序数据处理方法。
5.为实现上述目的,本发明采用了以下技术方案:一种工业时序数据处理方法,该方法包括下列顺序的步骤:
6.(1)获取原始工业时序数据集;
7.(2)对获取的原始工业时序数据集中的工业时序数据进行预处理,得到预处理后的工业时序数据集;
8.(3)对预处理后的工业时序数据集进行时域指标提取;
9.(4)对提取的时域指标进行维度判断,如果维度较多,采用主成分分析pca降维,如果维度较低,则采用缺失值填补法扩充数据维度,否则,得到工业时序数据集。
10.所述步骤(1)具体是指:在企业的工业互联网平台、企业的生产业务系统上获取原始工业时序数据集,所述原始工业时序数据集是指企业生产数据,包括工时数据、设备数据、原料数据、能耗数据和产品质量数据。
11.所述步骤(2)具体是指:采用缺失值填补法将一条时间窗口为m的时序数据空缺值填补,设设备a在采集日采集到的一条电力时序数据包括从0至m个时间戳,其中,第i个数值缺失,则选取相同类型的设备b、c、d在采集日相同时间段采集到的时序数据,然后计算设备a与设备b、c、d之间的距离,即计算d
ab
、d
ac
、d
ad
,比较d
ab
,d
ac
,d
ad
,选距离值最小的k个距离,然后对k个距离做归一化,得到:
[0012][0013]
式中,d
ab
=max(a,b)=设备a与设备b在除缺失值外其他数值的差的绝对值的最大值;d
ac
=max(a,c)=设备a与设备c在除缺失值外其他数值的差的绝对值的最大值;d
ad
=max(a,d)=设备a与设备d在除缺失值外其他数值的差的绝对值的最大值;
[0014]
依次得到y
ac
、y
ad
,然后用1-y
ab
,1-y
ac
,1-y
ac
,依次得到w
ab
、w
ac
、w
ad
,然后用w
ab
、w
ac
、w
ad
作为设备b、c、d在第n个时间戳的权重,加权求和得到ai:
[0015]
ai=w
ab
bi+w
ac
ci+w
ad
di
[0016]wab
=1-y
ab
、w
ac
=1-y
ac
、w
ad
=1-y
ad
[0017]
式中,bi是设备b采集的时序数据第i个数值,ci是设备c采集的时序数据第i个数值,di是设备d采集的时序数据第i个数值,w
ab
是设备b在第i个时间戳的权重,w
ac
是设备c在第i个时间戳的权重,w
ad
是设查d在第i个时间戳的权重,ai是计算后补到缺失的值。
[0018]
所述步骤(3)具体是指:所述时域指标包括均值绝对平均值方差δ1、标准差δ2、方根幅值x
t
、均方根值x
rms
、峰值x
p
、最大值x
max
、最小值x
min
、波形指标w、峰值指标c、脉冲指标i、裕度指标l、偏斜度s和峭度k,其计算公式如下:
[0019][0020][0021][0022][0023]
[0024][0025]
x
p
=max|x(n)|
[0026]
x
max
=max|x(n)|
[0027]
x
min
=min|x(n)|
[0028][0029][0030][0031][0032][0033][0034]
式中,n代表数据条数,x(n)代表第n条数据。
[0035]
在步骤(4)中,所述主成分分析pca具体是指:
[0036]
首先,对变量进行规定:样本x=(x1,x2,...,x
p
),其中有p个样本,每一个样本有n个维度的属性,即x∈r
p
×n,存在一个降维矩阵a,满足a∈rm×n,得到axi为降维后的样本;令y=ax
t
,得到y∈rm×
p
,即其每一行为变化之后的特征,每一列表示一个样本的情况,对于其中的一个特征进行分析,得到需要优化的目标为:
[0037]
由于且xi经过了标准化和归一化,因此为0,对于目标函数得到:
[0038][0039]
其中,a1表示第一列特征,∑为协方差矩阵,加入对于向量的长度的约束aix
it
=1,同时,不同的ai存在多种正交的组合,令a
iakt
=a
kait
=0,得到优化问题:
[0040][0041]
利用拉格朗日的方法进行求解:
[0042]
[0043]
对a1求一阶导数,令其为零使目标函数最大:
[0044][0045]
得到根据特征回量的定义,是∑的特征向量,λ1是特征值,代入目标函数得到:
[0046][0047]
对a2进行计算,a
iakt
=a
kait
=0,得到对应的优化问题:
[0048][0049]
使用拉格朗日进行求解,令导数为0:
[0050][0051][0052]
得到其中∑

是一个对称阵,对最大的结果进行猜想,若β为0,那么就得到第二个最大的值是λ2;根据a1a
2t
=a2a
1t
=0的信息,对于这个式子乘上a1有:
[0053][0054]
得到β为0,λ2是特征根,a2是对应的第二大的特征向量,取m个最大的特征向量组成降维矩阵。
[0055]
由上述技术方案可知,本发明的有益效果为:第一,针对工业时序数据集收集维度不够的问题,提出了增广方案,默认的

经验’是参数越多越好,也可以理解为参数里面包含学习到的训练数据的特征,有用的参数越多,学习的东西也自然越多,但是部分场景下数据本身可以分析学习的特征是比较少的,比如电流电压,本发明通过时序分析增加的特征的维度;第二,针对数据缺失问题,提出了数据补充方案,通过最近特征的数据来补充缺失值,这样,在数据条数本身较少的情况下,尽力做到不浪费每一条数据;第三,当数据维度过高时,模型也会遇到过拟合的风险,或者某些特征维度线性相关,针对这类问题也有对应的补充方案,通过pca降维,降低数据的维度,在模型十分复杂时,数据集维度较多,但彼此相关性较高的情况下,本发明可以起到降低参数量,防止过拟合的作用。
附图说明
[0056]
图1为本发明的方法流程图。
具体实施方式
[0057]
如图1所示,一种工业时序数据处理方法,该方法包括下列顺序的步骤:
[0058]
(1)获取原始工业时序数据集;
[0059]
(2)对获取的原始工业时序数据集中的工业时序数据进行预处理,得到预处理后的工业时序数据集;
[0060]
(3)对预处理后的工业时序数据集进行时域指标提取;
[0061]
(4)对提取的时域指标进行维度判断,如果维度较多,采用主成分分析pca降维,如果维度较低,则采用缺失值填补法扩充数据维度,否则,得到工业时序数据集。
[0062]
时域分析是指控制系统在一定的输入下,根据输出量的时域表达式,分析系统的稳定性、瞬态和稳态性能。由于时域分析是直接在时间域中对系统进行分析的方法,所以时域分析具有直观和准确的优点。
[0063]
主成分分析pca是一种简化数据集的技术,它是一个线性变换,这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
[0064]
所述步骤(1)具体是指:在企业的工业互联网平台、企业的生产业务系统上获取原始工业时序数据集,所述原始工业时序数据集是指企业生产数据,包括工时数据、设备数据、原料数据、能耗数据和产品质量数据。
[0065]
所述步骤(2)具体是指:采用缺失值填补法将一条时间窗口为m的时序数据空缺值填补,设设备a在采集日采集到的一条电力时序数据包括从0至m个时间戳,其中,第i个数值缺失,则选取相同类型的设备b、c、d在采集日相同时间段采集到的时序数据,然后计算设备a与设备b、c、d之间的距离,即计算d
ab
、d
ac
、d
ad
,比较d
ab
,d
ac
,d
ad
,选距离值最小的k个距离,然后对k个距离做归一化,得到:
[0066][0067]
式中,d
ab
=max(a,b)=设备a与设备b在除缺失值外其他数值的差的绝对值的最大值;d
ac
=max(a,c)=设备a与设备c在除缺失值外其他数值的差的绝对值的最大值;d
ad
=max(a,d)=设备a与设备d在除缺失值外其他数值的差的绝对值的最大值;
[0068]
依次得到y
ac
、y
ad
,然后用1-y
ab
,1-y
ac
,1-y
ac
,依次得到w
ab
、w
ac
、w
ad
,然后用w
ab
、w
ac
、w
ad
作为设备b、c、d在第n个时间戳的权重,加权求和得到ai:
[0069]
ai=w
ab
bi+w
ac
ci+w
ad
di
[0070]wab
=1-y
ab
、w
ac
=1-y
ac
、w
ad
=1-y
ad
[0071]
式中,bi是设备b采集的时序数据第i个数值,ci是设备c采集的时序数据第i个数值,di是设备d采集的时序数据第i个数值,w
ab
是设备b在第i个时间戳的权重,w
ac
是设备c在第i个时间戳的权重,w
ad
是设查d在第i个时间戳的权重,ai是计算后补到缺失的值。
[0072]
所述步骤(3)具体是指:所述时域指标包括均值绝对平均值方差δ1、标准差δ2、方根幅值x
t
、均方根值x
rms
、峰值x
p
、最大值x
max
、最小值x
min
、波形指标w、峰值指标c、脉冲指标i、裕度指标l、偏斜度s和峭度k,其计算公式如下:
[0073]
[0074][0075][0076][0077][0078][0079]
x
p
=max|x(n)|
[0080]
x
max
=max|x(n)|
[0081]
x
min
=min|x(n)|
[0082][0083][0084][0085][0086][0087][0088]
式中,n代表数据条数,x(n)代表第n条数据。
[0089]
在步骤(4)中,所述主成分分析pca具体是指:
[0090]
首先,对变量进行规定:样本x=(x1,x2,

,x
p
),其中有p个样本,每一个样本有n个维度的属性,即x∈r
p
×n,存在一个降维矩阵a,满足a∈rm×n,得到axi为降维后的样本;令y=ax
t
,得到y∈rm×
p
,即其每一行为变化之后的特征,每一列表示一个样本的情况,对于其中的
一个特征进行分析,得到需要优化的目标为:
[0091]
由于且xi经过了标准化和归一化,因此为0,对于目标函数得到:
[0092][0093]
其中,a1表示第一列特征,σ为协方差矩阵,加入对于向量的长度的约束aix
it
=1,同时,不同的ai存在多种正交的组合,令a
iakt
=a
kait
=0,得到优化问题:
[0094][0095]
利用拉格朗日的方法进行求解:
[0096][0097]
对a1求一阶导数,令其为零使目标函数最大:
[0098][0099]
得到根据特征回量的定义,是∑的特征向量,λ1是特征值,代入目标函数得到:
[0100][0101]
对a2进行计算,a
iakt
=a
kait
=0,得到对应的优化问题:
[0102][0103]
使用拉格朗日进行求解,令导数为0:
[0104][0105][0106]
得到其中∑

是一个对称阵,对最大的结果进行猜想,若β为0,那么就得到第二个最大的值是λ2;根据a1a
2t
=a2a
1t
=0的信息,对于这个式子乘上a1有:
[0107][0108]
得到β为0,λ2是特征根,a2是对应的第二大的特征向量,取m个最大的特征向量组成降维矩阵。
[0109]
综上所述,本发明针对数据缺失问题,提出了数据补充方案,通过最近特征的数据来补充缺失值,这样,在数据条数本身较少的情况下,尽力做到不浪费每一条数据;当数据
维度过高时,模型也会遇到过拟合的风险,或者某些特征维度线性相关,针对这类问题也有对应的补充方案,通过pca降维,降低数据的维度,在模型十分复杂时,数据集维度较多,但彼此相关性较高的情况下,本发明可以起到降低参数量,防止过拟合的作用。
[0110]
本领域普通技术人员可以理解实现本技术的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0111]
以上所述并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种工业时序数据处理方法,其特征在于:该方法包括下列顺序的步骤:(1)获取原始工业时序数据集;(2)对获取的原始工业时序数据集中的工业时序数据进行预处理,得到预处理后的工业时序数据集;(3)对预处理后的工业时序数据集进行时域指标提取;(4)对提取的时域指标进行维度判断,如果维度较多,采用主成分分析pca降维,如果维度较低,则采用缺失值填补法扩充数据维度,否则,得到工业时序数据集。2.根据权利要求1所述的工业时序数据处理方法,其特征在于:所述步骤(1)具体是指:在企业的工业互联网平台、企业的生产业务系统上获取原始工业时序数据集,所述原始工业时序数据集是指企业生产数据,包括工时数据、设备数据、原料数据、能耗数据和产品质量数据。3.根据权利要求1所述的工业时序数据处理方法,其特征在于:所述步骤(2)具体是指:采用缺失值填补法将一条时间窗口为m的时序数据空缺值填补,设设备a在采集日采集到的一条电力时序数据包括从0至m个时间戳,其中,第i个数值缺失,则选取相同类型的设备b、c、d在采集日相同时间段采集到的时序数据,然后计算设备a与设备b、c、d之间的距离,即计算d
ab
、d
ac
、d
ad
,比较d
ab
,d
ac
,d
ad
,选距离值最小的k个距离,然后对k个距离做归一化,得到:式中,d
ab
=max(a,b)=设备a与设备b在除缺失值外其他数值的差的绝对值的最大值;d
ac
=max(a,c)=设备a与设备c在除缺失值外其他数值的差的绝对值的最大值;d
ad
=max(a,d)=设备a与设备d在除缺失值外其他数值的差的绝对值的最大值;依次得到y
ac
、y
ad
,然后用1-y
ab
,1-y
ac
,1-y
ac
,依次得到w
ab
、w
ac
、w
ad
,然后用w
ab
、w
ac
、w
ad
作为设备b、c、d在第n个时间戳的权重,加权求和得到ai:ai=w
ab
bi+w
ac
ci+w
ad
diw
ab
=1-y
ab
、w
ac
=1-y
ac
、w
ad
=1-y
ad
式中,bi是设备b采集的时序数据第i个数值,ci是设备c采集的时序数据第i个数值,di是设备d采集的时序数据第i个数值,w
ab
是设备b在第i个时间戳的权重,w
ac
是设备c在第i个时间戳的权重,w
ad
是设查d在第i个时间戳的权重,ai是计算后补到缺失的值。4.根据权利要求1所述的工业时序数据处理方法,其特征在于:所述步骤(3)具体是指:所述时域指标包括均值绝对平均值方差δ1、标准差δ2、方根幅值x
t
、均方根值x
rms
、峰值x
p
、最大值x
max
、最小值x
min
、波形指标w、峰值指标c、脉冲指标i、裕度指标l、偏斜度s和峭度k,其计算公式如下:度k,其计算公式如下:
x
p
=max|x(n)|x
max
=max|x(n)|x
min
=min|x(n)|=min|x(n)|=min|x(n)|=min|x(n)|=min|x(n)|=min|x(n)|式中,n代表数据条数,x(n)代表第n条数据。5.根据权利要求1所述的工业时序数据处理方法,其特征在于:在步骤(4)中,所述主成分分析pca具体是指:首先,对变量进行规定:样本x=(x1,x2,

,x
p
),其中有p个样本,每一个样本有n个维度的属性,即x∈r
p
×
n
,存在一个降维矩阵a,满足a∈r
m
×
n
,得到ax
i
为降维后的样本;令y=ax
t
,得到y∈r
m
×
p
,即其每一行为变化之后的特征,每一列表示一个样本的情况,对于其中的一个特征进行分析,得到需要优化的目标为:
由于且x
i
经过了标准化和归一化,因此为0,对于目标函数得到:其中,a1表示第一列特征,σ为协方差矩阵,加入对于向量的长度的约束a
i
x
it
=1,同时,不同的a
i
存在多种正交的组合,令a
i
a
kt
=a
k
a
it
=0,得到优化问题:利用拉格朗日的方法进行求解:对a1求一阶导数,令其为零使目标函数最大:得到根据特征回量的定义,是σ的特征向量,λ1是特征值,代入目标函数得到:对a2进行计算,a
i
a
kt
=a
k
a
it
=0,得到对应的优化问题:使用拉格朗日进行求解,令导数为0:使用拉格朗日进行求解,令导数为0:得到其中σ

是一个对称阵,对最大的结果进行猜想,若β为0,那么就得到第二个最大的值是λ2;根据a1a
2t
=a2a
1t
=0的信息,对于这个式子乘上a1有:得到β为0,λ2是特征根,a2是对应的第二大的特征向量,取m个最大的特征向量组成降维矩阵。

技术总结
本发明涉及一种工业时序数据处理方法,包括:获取原始工业时序数据集;对获取的原始工业时序数据集中的工业时序数据进行预处理;对预处理后的工业时序数据集进行时域指标提取;对提取的时域指标进行维度判断,如果维度较多,采用主成分分析PCA降维,如果维度较低,则采用缺失值填补法扩充数据维度,否则,得到工业时序数据集。本发明针对数据缺失问题,提出了数据补充方案,通过最近特征的数据来补充缺失值,这样,在数据条数本身较少的情况下,尽力做到不浪费每一条数据;当数据维度过高时,通过PCA降维,降低数据的维度,在模型十分复杂时,数据集维度较多,但彼此相关性较高的情况下,本发明可以起到降低参数量,防止过拟合的作用。作用。作用。


技术研发人员:李晓洁 谢贻富 许成林 刘胜军 范武松 张重庆 白旭
受保护的技术使用者:安徽祯欣互联科技有限公司
技术研发日:2022.12.23
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐