一种交直变换器的深度确定性策略梯度控制方法与流程
未命名
08-29
阅读:146
评论:0

1.本发明涉及交直变换器领域,具体是一种交直变换器的深度确定性策略梯度控制方法。
背景技术:
2.随着化石能源的枯竭,新能源引起了广泛的关注,交直流微电网因其能充分发挥分布式电源的价值和效益、协调大电网和分布式电源之间的矛盾,得到了广泛应用。但由于风光占比高、且地理位置集中,当天气变化时,交直流微电网将受到较大的扰动。交直流微电网在各种扰动下的稳定运行能力,将成为影响电力系统安全稳定运行的关键。
3.交直变换器拥有高功率密度、高效率等优点,是交直流微电网中源荷并网的关键设备,由此提升交直变换器的稳定性是提升交直流微电网运行稳定的关键。
4.对于交直变换器广泛采用的pi控制器大多基于特定工作点线性化小信号模型设计,其控制参数相互耦合,对结构和参数不确定的强非线性系统控制效果不佳;研究人员采用自适应pi增益控制器,遗传算法和牛顿法等与pi控制相结合,一定程度上提升了pi控制器的瞬态响应能力性能,但其本质仍然基于小信号分析模型,对小扰动稳定控制能力较强,当系统遭遇大扰动时,基于pi控制的线性控制策略易发生饱和、动态性能差,增大了直流微电网失稳风险。为应对大扰动情况,有学者采用大信号分析建模,采用逆系统解耦控制解决交直变换器出现较大电压扰动的情况;有学者提出高阶滑模控制保持大扰动下变换器的输出电压稳定性。但以上控制方法不具有针对不同环境的自学习、自完善优势,适用范围较窄。因此,现阶段的交直变换器的控制方法有诸多的缺点。
技术实现要素:
5.本发明为了解决交直变换器不具有针对不同环境的自学习、自完善的问题,提出了一种交直变换器的深度确定性策略梯度控制方法。本发明根据交直变换器输入输出状态设计了基于动作评价神经网络架构的深度确定性策略梯度算法,根据决策过程中生成的系统数据在线学习不断自我修正和进化,并对其决策行为进行评价,通过最大化奖励提升输出动作的决策精度,增强交直变换器应对新问题的适应能力,保障其输出电压的稳定性,实现交直变换器的自适应和自稳定性。
6.本发明是采用如下技术方案实现的:一种交直变换器的深度确定性策略梯度控制方法,所述交直变换器包括全桥电路、交流侧滤波电感和直流稳压电容,本发明是一种用于上述交直变换器的控制方法,设计了基于动作评价架构的深度确定性策略梯度算法,增强交直变换器应对新问题的适应能力,实现交直变换器的自适应和自稳定性。其所述方法具体展开如下:
7.首先从交直变换器环境中测量得到由动作网络动作值a
t
控制后的状态量s
t
=(ue,fe,he),并存入缓存区中待用,ue为输出电压uo与输出电压参考值u
ref
之间的偏值,fe为输出电压频率f与输出电压频率参考值f
ref
之间的偏值,he为输出电压相位ho与输出电压相位参
考值h
ref
之间的偏值;
8.将状态量s
t
在评价网络中根据奖励函数r
t
训练得到输出奖励v
t
,对动作网络的动作值a
t
进行评价,如果奖励比上一时刻高,则调整下一时刻动作值a
t+1
与当前时刻动作值a
t
趋势相同,如果奖励比上一时刻低,则调整下一时刻动作值a
t+1
与当前时刻动作值a
t
相反,如此调整动作网络的动作值;
9.随后将状态量s
t
作为动作网络输入,经过动作网络训练后得到动作值a
t+1
=(a,b,c),a、b、c分别为输出电压、输出电压频率和输出电压相位的控制量,将产生的动作值a
t+1
输入至交直变换器进行对输出电压、输出电压频率和输出电压相位的控制;
10.再从交直变换器环境中测量得到由动作网络动作值a
t+1
控制后的状态量s
t+1
=(ue,fe,he);并利用奖励函数r
t
对动作网络的动作值a
t+1
进行评价,进而调整动作网络的动作值,最终对交直变换器进行自适应控制,使得交直变换器具有良好性能。
11.上述的一种交直变换器的深度确定性策略梯度控制方法,总误差e(t)=ue+fe+he,奖励函数r
t
设置为
12.1)系统允许最大电压偏差为5%,故偏差的边界值为|e(t)|=5%,当|e(t)|≥5%,设定r
t
=-1000,使得动作网络停止动作值输出,结束该周期的训练过程;
13.2)当1%≤|e(t)|<5%时,|e2(t)|变化幅度明显,设f(|e(t)|)=50|e2(t)|-0.5,附加常数1奖励值来避免训练过程终止,实现奖励由负到正阶跃;
14.3)当0.5%≤|e(t)|<1%时,|e(t)|较e2(t)变换幅度大,设f(|e(t)|)=-500|e(t)|+6;
15.4)当0≤|e(t)|<0.5时,交直变换器的输出电压能保持在相对稳定的状态,设随着|e(t)|的变化r
t
增减更加明显。
16.本发明所提的一种交直变换器的深度确定性策略梯度控制方法,与现有技术相比,所具有的优点与积极效果在于:1.所使用的深度确定性策略梯度算法通过在线学习自动调整交直变换器控制量使得其可以根据变换器的工作状态自适应调节,有效的提高了变换器的的效率和自适应能力。2.所使用的深度确定性策略梯度算法可以有效的保障交直变换器的可靠性。
附图说明
17.图1为本发明所涉及深度确定性策略梯度算法的控制过程图。
18.图2为本发明所涉及交直变换器结构图。
19.图1中:深度确定性策略梯度算法包括动作网络、评价网络和缓存区。
20.图2中:c为直流稳压电容,v1、v2、v3、v4为全桥电路中igbt,l为交流侧电感。
具体实施方式
21.一种交直变换器的深度确定性策略梯度控制方法,如图1所示,首先从交直变换器环境中测量得到由动作网络动作值a
t
控制后的状态量s
t
=(ue,fe,he),并存入缓存区中待用,ue为输出电压uo与输出电压参考值u
ref
之间的偏值,fe为输出电压频率f与输出电压频率参考值f
ref
之间的偏值,he为输出电压相位ho与输出电压相位参考值h
ref
之间的偏值;将状态量s
t
在评价网络中根据奖励函数r
t
训练得到输出奖励v
t
,对动作网络的动作值a
t
进行评价,如果奖励比上一时刻高,则调整下一时刻动作值a
t+1
与当前时刻动作值a
t
趋势相同,如果奖励比上一时刻低,则调整下一时刻动作值a
t+1
与当前时刻动作值a
t
相反,如此调整动作网络的动作值;随后将状态量s
t
作为动作网络输入,经过动作网络训练后得到动作值a
t+1
=(a,b,c),a、b、c分别为输出电压、输出电压频率和输出电压相位的控制量,将产生的动作值a
t+1
输入至交直变换器进行对输出电压、输出电压频率和输出电压相位的控制;再从交直变换器环境中测量得到由动作网络动作值a
t+1
控制后的状态量s
t+1
=(ue,fe,he);并利用奖励函数r
t
对动作网络的动作值a
t+1
进行评价,进而调整动作网络的动作值,最终对交直变换器进行自适应控制,使得交直变换器具有良好性能。
22.具体实施如下:
23.评价网络:深度确定性策略梯度算法采用基于价值的方法训练评价网络,利用时间差分方法计算设置奖励函数r
t
。在每一次动作后,对交直变换器输出状态量进行评价所获得奖励值,并以此作为动作导向。
24.为了保证深度确定性策略梯度算法学习的稳定性,评价网络、动作网络的权重系数θ
q'
、θ
μ'
通过式(1)进行更新。
25.θq和θ
μ
分别为评价网络和动作网络的初始权重系数,τ为更新系数。
26.动作网络:将环境信息中的输出电压uo与输出电压参考值u
ref
之间的偏值ue,输出电压频率f与输出电压频率参考值f
ref
之间的偏值fe,输出电压相位ho与输出电压相位参考值h
ref
之间的偏值he作为动作网络的输入,以减小ue、fe、he作为控制目标,经过动作网络输出动作值实现控制过程。通过深度确定性策略梯度算法的动作网络产生动作值a
t
=(a,b,c),分别控制交直变换器的输出电压、输出电压相位以及输出电压频率。动作值a
t
作为占空比输入到pwm发生器,产生pwm信号交直变换器控制开关管的通断。
27.缓存区:训练过程中过渡数据保存到缓存区中,随机抽取批量的经验值样本,用于训练深度确定性策略梯度算法评价网络、动作网络的权重系数。构建容量为c1的缓存区存储当前状态量s
t
,动作a
t
完成之后,获得奖励v
t
和下一时刻状态量s
t+1
。初始化状态量是s0=[0,0,0],动作值a
t
=(a,b,c)是基于动作网络选择的,转移状态(s
t
,v
t
,a
t
,s
t+1
)均存储在缓存区中。
[0028]
奖励函数:通过评价网络评价本次动作,进而调整动作网络的动作值。设定奖励函数r
t
随着偏差ue,fe,he增大而减小,进而动态调整动作网络的输出动作值a
t
,以寻求最大奖励。为了加快收敛速度,根据偏差范围,设置式(2)中四分段奖励函数r
t
。设置总误差e(t)=ue+fe+he,由于指数函数爆炸性增长的特点,r
t
随着e
f(|e(t)|)
增减变化明显,在输出电压发生
偏差时奖惩分明,能够提高训练的效率;四分段奖励函数满足所有动作空间,能实现对交直变换器输出电压稳定的连续性控制。
[0029][0030]
1)系统允许最大电压偏差为5%,故偏差的边界值为|e(t)|=5%,当|e(t)|≥5%,设定r
t
=-1000,使得动作网络停止动作值输出,结束该周期的训练过程;
[0031]
2)当1%≤|e(t)|<5%时,|e2(t)|变化幅度明显,设f(|e(t)|)=50|e2(t)|-0.5,附加常数1奖励值来避免训练过程终止,实现奖励由负到正阶跃;
[0032]
3)当0.5%≤|e(t)|<1%时,|e(t)|较e2(t)变换幅度大,设f(|e(t)|)=-500|e(t)|+6;
[0033]
4)当0≤|e(t)|<0.5时,交直变换器的输出电压能保持在相对稳定的状态,设随着|e(t)|的变化r
t
增减更加明显。
技术特征:
1.一种交直变换器的深度确定性策略梯度控制方法,其特征在于:首先从交直变换器环境中测量得到由动作网络动作值a
t
控制后的状态量s
t
=(u
e
,f
e
,h
e
),并存入缓存区中待用,u
e
为输出电压u
o
与输出电压参考值u
ref
之间的偏值,f
e
为输出电压频率f与输出电压频率参考值f
ref
之间的偏值,h
e
为输出电压相位h
o
与输出电压相位参考值h
ref
之间的偏值;将状态量s
t
在评价网络中根据奖励函数r
t
训练得到输出奖励v
t
,对动作网络的动作值a
t
进行评价,如果奖励比上一时刻高,则调整下一时刻动作值a
t+1
与当前时刻动作值a
t
趋势相同,如果奖励比上一时刻低,则调整下一时刻动作值a
t+1
与当前时刻动作值a
t
相反,如此调整动作网络的动作值;随后将状态量s
t
作为动作网络输入,经过动作网络训练后得到动作值a
t+1
=(a,b,c),a、b、c分别为输出电压、输出电压频率和输出电压相位的控制量,将产生的动作值a
t+1
输入至交直变换器进行对输出电压、输出电压频率和输出电压相位的控制;再从交直变换器环境中测量得到由动作网络动作值a
t+1
控制后的状态量s
t+1
=(u
e
,f
e
,h
e
);并利用奖励函数r
t
对动作网络的动作值a
t+1
进行评价,进而调整动作网络的动作值,最终对交直变换器进行自适应控制,使得交直变换器具有良好性能。2.根据权利要求1所述的一种交直变换器的深度确定性策略梯度控制方法,其特征在于:总误差e(t)=u
e
+f
e
+h
e
,奖励函数r
t
设置为1)系统允许最大电压偏差为5%,故偏差的边界值为|e(t)|=5%,当|e(t)|≥5%,设定r
t
=-1000,使得动作网络停止动作值输出,结束该周期的训练过程;2)当1%≤|e(t)|<5%时,|e2(t)|变化幅度明显,设f(|e(t)|)=50|e2(t)|-0.5,附加常数1奖励值来避免训练过程终止,实现奖励由负到正阶跃;3)当0.5%≤|e(t)|<1%时,|e(t)|较e2(t)变换幅度大,设f(|e(t)|)=-500|e(t)|+6;4)当0≤|e(t)|<0.5时,交直变换器的输出电压能保持在相对稳定的状态,设随着|e(t)|的变化r
t
增减更加明显。
技术总结
本发明涉及交直变换器领域,具体是一种交直变换器的深度确定性策略梯度控制方法,解决了交直变换器不具有针对不同环境的自学习、自完善的问题。该方法采用深度确定性策略梯度方法,根据交直变换器输入输出状态设计了基于动作评价神经网络架构的深度确定性策略梯度算法,根据决策过程中生成的系统数据在线学习不断自我修正和进化,并对其决策行为进行评价,通过最大化奖励提升输出动作的决策精度,增强交直变换器应对新问题的适应能力,保障其输出电压的稳定性,实现交直变换器的自适应和自稳定性。本发明适用于交直变换器,具有良好的技术经济性。术经济性。术经济性。
技术研发人员:闫福录 滑勉 赵峰 梁晅 荀之
受保护的技术使用者:国网山西省电力公司临汾供电公司
技术研发日:2023.06.05
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种金属制品回收装置的制作方法 下一篇:一种用于膜结构包边的焊接机的制作方法