一种基于深度强化学习的峰值功率需求预测控制方法
未命名
10-19
阅读:124
评论:0

1.本发明涉及建筑节能技术领域,具体为一种基于深度强化学习的峰值功率需求预测控制方法。
背景技术:
2.建筑行业是全球能源消耗最大的领域之一,对于建筑能耗的管理和优化已成为当务之急。在建筑能耗管理和优化过程中,峰值功率需求控制是一个重要的策略。通过实现峰值功率需求的控制,可以减少建筑的能源消耗,提高能源利用效率和建筑的管理水平。但是,实现峰值功率需求的控制存在一定的困难。
3.传统的基于规则的控制策略存在很多局限性,如无法适应复杂的环境变化和需求变化等。虽然近年来深度强化学习技术在峰值功率需求预测和控制方面得到了广泛应用,但是现有研究仍存在一定的缺陷。首先,传统的深度强化学习方法在处理连续状态空间时的计算成本较高,导致算法收敛缓慢。其次,现有研究往往只关注峰值功率需求的控制,而忽略了预测对于优化控制策略的重要性。因此,需要在预测和控制方面进行创新,以提高能耗管理和优化的效率和准确性。
技术实现要素:
4.本发明的目的在于提供一种基于深度强化学习的峰值功率需求预测控制方法,以解决上述背景技术中提出的传统的基于规则的控制策略存在很多局限性,如无法适应复杂的环境变化和需求变化等。虽然近年来深度强化学习技术在峰值功率需求预测和控制方面得到了广泛应用,但是现有研究仍存在一定的缺陷。首先,传统的深度强化学习方法在处理连续状态空间时的计算成本较高,导致算法收敛缓慢。其次,现有研究往往只关注峰值功率需求的控制,而忽略了预测对于优化控制策略的重要性的问题。
5.为实现上述目的,本发明提供如下技术方案:一种基于深度强化学习的峰值功率需求预测控制方法,包括以下步骤:
6.步骤一、使用energyplus模拟并获取四栋建筑一段时间内的数据样本作为数据集;
7.步骤二、将建筑能耗的控制动作分为大小相同的m个区间,得到不同的动作空间,通过将动作控制空间划分为多个等距离的区间,可以将离散的动作控制空间转化为连续的数值范围,使其可以被更好地处理和建模;
8.步骤三、将数据按8:2的比例划分为训练集和测试集,并将训练集下范围内的能耗数据进行重构;将能耗数据进行分类标注,标签区间为[1,m],组成新的样本及标签,并对其进行归一化处理;
[0009]
步骤四、构建深度森林模块,将步骤三中的数据集作为深度森林模块的输入,对深度森林分类器进行训练;分类器训练完成后,将归一化样本作为原始特征向量重新传入分类器;通过多粒度扫描获取变换后的特征向量;深度森林中的级联森林结构将变换后的特
征向量作为输入,输出数据对应的各个动作类别的概率;
[0010]
步骤五、构建第一个深度强化学习模块,用于预测能耗数据;将输入归一化后的新构建样本与深度森林模块输出的动作区间类别概率相结合,作为q神经网络的输入;q神经网络计算所有动作的q值,并通过目标q网络计算出目标q值;两者之间的td误差被计算出来,用来更新q网络的参数;
[0011]
步骤六、利用训练好的模型对新的能耗数据进行预测和分类,并与实际观测值进行比较和验证,以评估模型的泛化能力和预测精度;
[0012]
步骤七、构建第二个深度强化学习模块,用于控制建筑群中的储能设备,以优化峰值负荷;在每个时间步骤t,agent使用结合深度森林的深度强化学习模块预测建筑群的未来能源需求,并将其与当前的建筑状态、天气和时间结合起来形成一个新的状态元组s
t
,输入另一个深度强化学习模块;agent根据该状态元组选择一个行动a
t
,通过控制四栋建筑中的储能设备来影响整个系统的峰值负荷;
[0013]
步骤八、agent得到新的状态元组后s
t
,使用actor网络预测下一步的动作a
t
;
[0014]
步骤九、通过上述的迭代更新,agent能够逐步学习到最优的行动策略,并实现建筑群峰值负荷的优化控制。
[0015]
优选地,步骤三中对训练集范围数据进行样本和标签的重构,需要选择合适的属性作为特征,通过交叉验证,选择合适的前n个历史能耗数据作为特征;则对t时刻而言,将[e
t-n
,e
t-n-1
…
,e
t-1
]作为新样本,e
t
为其对应的新标签。
[0016]
优选地,步骤五中,算法通过梯度下降来最小化q网络与目标q网络之间的平均均方误差,从而优化模型的训练效果。
[0017]
优选地,在步骤八中,actor网络将将s
t
作为输入,输出一个a
t
的概率分布,然后agent使用该概率分布采样出一个行动a
t
;接着,agent将a
t
作为输入,结合当前的状态s
t
,通过critic网络计算出目标q值q
target
(s
t
,a
t
);最后,agent使用adam优化算法来更新actor网络和critic网络的参数,以最大化目标q值;在优化过程中,为了防止网络参数的震荡,使用软更新策略更新目标actor网络和目标critic网络的参数。
[0018]
优选地,通过深度森林模块,将原先较大地预测空间分为n个子空间,每个子空间中的动作用统一的公式表示,这种公式巧妙地利用通用项的性质来压缩行动空间,将压缩空间中的每个行动都表示为整个子空间中的一个行动;
[0019][0020]
在该公式中,x和z分别表示行动空间的上限和下限,n表示压缩空间的最终值;通过这种方式压缩行动空间,可以大大减小行动空间的大小,以应对大预测空间导致的预测精度降低的问题。
[0021]
优选地,步骤五中将能耗预测问题建模为mdp建模,并构建相应的状态、动作和立即奖赏函数;
[0022]
其中:
[0023]
状态:用s表示;s
t
由步骤三中归一化后的样本及步骤四中深度森林模块输出的概率共同组成,即
[0024]
动作:用a表示,每一个动作对应一个能耗预测值;
[0025]
立即奖赏函数:用r表示;在t时刻,a
t
为能耗预测值,其与真实能耗值差值的绝对值可看作是agent在t时刻获得的奖赏,表示如下:
[0026]
r1=|en
pre-en
true
|。
[0027]
优选地,步骤五中利用q网络与目标q网络两者的td误差更新更新参数θ,具体为:
[0028][0029]
其中,(s,a,r,s')是从经验池获取的四元组,a'是t+1时刻agent所执行的动作,和θi分别表示目标q网络和q网络的参数,r则是在t时刻状态s
t
下执行动作a
t
所获取的奖赏。
[0030]
优选地,步骤七中,将建筑中储能设备的控制问题建模为mdp建模,并构建相应的状态、动作和立即奖赏函数;
[0031]
其中:
[0032]
状态:控制系统的状态变量主要由两部分组成;第一部分包括集群建筑的状态变量,分为时间变量、区域相关变量和建筑相关变量;时间变量包括月、时、日类型;区域相关变量包括天气信息和电价,包括室外干球温度、相对湿度、直接和漫射太阳辐射、太阳能发电以及预测未来5-8小时和11-15小时的室外温度和湿度;与建筑有关的变量包括室内温度、室内湿度和不可移动设备的使用;第二部分包括动态状态变量,如热泵的性能系数,热水和冷水储罐的充电状态,以及由预测的下一时间步骤t的建筑能耗;
[0033]
动作:每个建筑下的储能系统由两个可控单元组成,分别代表热水和冷水储罐;为了保证能源供需不出现短缺,将行动空间的上下限设定为最大储能容量的1/3,行动空间表示为{a
11
,a
12
,a
21
,a
22
,a
31
,a
32
,a
41
,a
42
};
[0034]
立即奖赏函数:控制部分的奖励函数应考虑功率峰值调节效果和电力成本,因为它们都会影响系统定时控制的质量;电力调峰的质量主要体现在奖励函数中的能耗变量上,而成本判断则基于当下电价的影响;因此,奖励函数设计如下:
[0035]
r2=α*en
t
+β*[(en
t
/10)3]*pr
t
[0036]
其中,en
t
代表当前的电力需求值,该值经过平滑处理以提高计算精度,pr
t
代表时间t的当前电价;该方程中的奖励函数抓住了电力需求和价格之间的相互作用,目的是找到一个平衡峰值电力需求和电力成本的中间值;其中,a和β的设置值分别为0.8和0.2。
[0037]
优选地,步骤八actor网络的更新中,通过最大化当前状态下采取行动a
t
所能得到的q值,即maxq(s
t
,a
t
),来更新actor网络的参数;这个更新过程使用了梯度上升的方法,使得actor网络能够逐步提高其策略的质量;具体如下:
[0038][0039]
critic网络,其目标是最小化预测的q值与真实的q值的误差,即使用预测的q值作为目标,通过最小化均方误差来训练critic网络的参数,td目标定义为yi=r+γq(s',μ(s'|θ
μ
′
)|θq),具体如下:
[0040]
l=1/n∑i(y
i-q(si,ai|θq))2[0041]
目标actor网络和目标critic网络都采用“软更新”的方法来保证算法的稳定性,而不是直接复制网络参数,具体如下:
[0042][0043]
本发明有益效果:
[0044]
本方法可以高效地解决建筑负荷预测和储能设备控制问题。该方法可以通过对建筑负荷数据的学习来预测未来的负荷情况,并根据储能设备的实时状态和建筑负荷的预测情况,生成最优的控制策略。相较于传统的基于规则和经验的控制方法,该方法不需要手动设计控制策略,可以根据数据自动学习最优的策略,从而避免了传统方法中存在的人为因素和局限性,具有更好的灵活性和适应性。同时,该方法还能够有效地降低建筑的能耗成本,提高能源利用效率,对实现智慧能源的目标有着重要的推动作用。
附图说明
[0045]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046]
图1为本发明的整体架构图;
[0047]
图2为本发明的图1中的数据集生成架构放大图;
[0048]
图3为本发明的图1中的预测阶段架构放大图;
[0049]
图4为本发明的图1中的control phase架构放大图;
[0050]
图5为本发明的图2中的预测阶段的数据预处理架构放大图;
[0051]
图6为本发明的图2中的预测阶段的深度森林分类器架构放大图;
[0052]
图7为本发明的图2中的预测阶段的基于dqn的能源消耗预测架构放大图。
具体实施方式
[0053]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
[0054]
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0055]
实施例
[0056]
如图1-7所示,本技术的实施例公开了一种基于深度强化学习的峰值功率需求预测控制方法,包括以下步骤:
[0057]
步骤一、参考美国能源部(doe)开发的商业参考建筑,使用energyplus模拟并获取四栋建筑一段时间内的数据样本作为数据集;
[0058]
步骤二、将建筑能耗的控制动作分为大小相同的m个区间,得到不同的动作空间,通过将动作控制空间划分为多个等距离的区间,可以将离散的动作控制空间转化为连续的
数值范围,使其可以被更好地处理和建模;
[0059]
步骤三、将数据按8:2的比例划分为训练集和测试集,并将训练集下范围内的能耗数据进行重构。将能耗数据进行分类标注,标签区间为[1,m],组成新的样本及标签,并对其进行归一化处理;
[0060]
步骤四、构建深度森林模块,将步骤三中的数据集作为深度森林模块的输入,对深度森林分类器进行训练。分类器训练完成后,将归一化样本作为原始特征向量重新传入分类器。通过多粒度扫描获取变换后的特征向量。深度森林中的级联森林结构将变换后的特征向量作为输入,输出数据对应的各个动作类别的概率;
[0061]
步骤五、构建第一个深度强化学习模块,用于预测能耗数据,该深度强化学习模块采用dqn架构,将输入归一化后的新构建样本与深度森林模块输出的动作区间类别概率相结合,作为q神经网络的输入。q神经网络计算所有动作的q值,并通过目标q网络计算出目标q值。两者之间的td误差被计算出来,用来更新q网络的参数。具体来说,算法通过梯度下降来最小化q网络与目标q网络之间的平均均方误差,从而优化模型的训练效果,具体表述为:
[0062][0063]
其中,(s,a,r,s')是从经验池获取的四元组,a'是t+1时刻agent所执行的动作,和θi分别表示目标q网络和q网络的参数,r则是在t时刻状态s
t
下执行动作a
t
所获取的奖赏。具体地,该部分是将能耗预测问题建模为mdp建模,并构建相应的状态、动作和立即奖赏函数。
[0064]
其中:
[0065]
(a)状态:用s表示。s
t
由步骤三中归一化后的样本及步骤四中深度森林模块输出的概率共同组成,即
[0066]
(b)动作:用a表示,每一个动作对应一个能耗预测值。
[0067]
(c)立即奖赏函数:用r表示。在t时刻,a
t
为能耗预测值,其与真实能耗值差值的绝对值可看作是agent在t时刻获得的奖赏,表示如下:
[0068]
r1=|en
pre-en
true
|
[0069]
步骤六、利用训练好的模型对新的能耗数据进行预测和分类,并与实际观测值进行比较和验证,以评估模型的泛化能力和预测精度;
[0070]
步骤七、构建第二个深度强化学习模块,用于控制建筑群中的储能设备,以优化峰值负荷。在每个时间步骤t,agent使用结合深度森林的深度强化学习模块预测建筑群的未来能源需求,并将其与当前的建筑状态、天气和时间结合起来形成一个新的状态元组s
t
,输入另一个深度强化学习模块。agent根据该状态元组选择一个行动a
t
,通过控制四栋建筑中的储能设备(热水和冷水储罐)来影响整个系统的峰值负荷。具体地,该部分是将建筑中储能设备的控制问题建模为mdp建模,并构建相应的状态、动作和立即奖赏函数。
[0071]
其中:
[0072]
(a)状态:控制系统的状态变量主要由两部分组成。第一部分包括集群建筑的状态变量,分为时间变量、区域相关变量和建筑相关变量。时间变量包括月、时、日类型;区域相关变量包括天气信息和电价,包括室外干球温度、相对湿度、直接和漫射太阳辐射、太阳能发电以及预测未来5-8小时和11-15小时的室外温度和湿度,其中优选为6小时和12小时的
室外温度和湿度;与建筑有关的变量包括室内温度、室内湿度和不可移动设备的使用。第二部分包括动态状态变量,如热泵的性能系数(cop),热水和冷水储罐的充电状态(soc),以及由预测的下一时间步骤t的建筑能耗。
[0073]
(b)动作:每个建筑下的储能系统由两个可控单元组成,分别代表热水和冷水储罐。为了保证能源供需不出现短缺,将行动空间的上下限设定为最大储能容量的1/3,行动空间表示为{a
11
,a
12
,a
21
,a
22
,a
31
,a
32
,a
41
,a
42
}。
[0074]
(c)立即奖赏函数:控制部分的奖励函数应考虑功率峰值调节效果和电力成本,因为它们都会影响系统定时控制的质量。电力调峰的质量主要体现在奖励函数中的能耗变量上,而成本判断则基于当下电价的影响。因此,奖励函数设计如下:
[0075]
r2=α*en
t
+β*[(en
t
/10)3]*pr
t
[0076]
其中,en
t
代表当前的电力需求值,该值经过平滑处理以提高计算精度,pr
t
代表时间t的当前电价。该方程中的奖励函数抓住了电力需求和价格之间的相互作用,目的是找到一个平衡峰值电力需求和电力成本的中间值。其中,α和β的设置值分别为0.8和0.2。
[0077]
步骤八、控制模块采用ddpg架构,agent得到新的状态元组后s
t
,使用actor网络预测下一步的动作a
t
。具体地,actor网络将将s
t
作为输入,输出一个a
t
的概率分布,然后agent使用该概率分布采样出一个行动a
t
。接着,agent将a
t
作为输入,结合当前的状态s
t
,通过critic网络计算出目标q值q
target
(s
t
,a
t
)。最后,agent使用adam优化算法来更新actor网络和critic网络的参数,以最大化目标q值。在actor网络的更新中,通过最大化当前状态下采取行动a
t
所能得到的q值,即maxq(s
t
,a
t
),来更新actor网络的参数。这个更新过程使用了梯度上升的方法,使得actor网络能够逐步提高其策略的质量。具体如下:
[0078][0079]
critic网络类似于步骤五中地q网络,其目标是最小化预测的q值与真实的q值的误差,即使用预测的q值作为目标,通过最小化均方误差来训练critic网络的参数,td目标定义为yi=r+γq(s',μ(s'|θ
μ
′
)|θq),具体如下:
[0080]
l=1/n∑i(y
i-q(si,ai|θq))2[0081]
目标actor网络和目标critic网络都采用“软更新”的方法来保证算法的稳定性,而不是直接复制网络参数,具体如下:
[0082][0083]
步骤九、通过上述的迭代更新,agent能够逐步学习到最优的行动策略,并实现建筑群峰值负荷的优化控制。
[0084]
具体地,整个预测控制方法的具体算法流程如下:
[0085]
s1、初始化状态类m,对应于样本分类的个数;
[0086]
s2、初始化经验池d1,初始化经验池d2;
[0087]
s3、初始化q函数q1以及目标函数q'1;
[0088]
s4、初始化actor网络以及目标actor网络,actor网络参数θa以及目标actor网络参数θ
a'
;初始化critic网络以及目标critic网络,critic网络参数θc以及目标critic网络参数θ
c'
;
[0089]
s5、划分数据集,对训练集范围的数据进行重构,组成新的样本及标签值,归一化数据;
[0090]
s6、训练深度森林分类器;
[0091]
s7、设置训练循环数,进入训练,对于每一轮episode,进行步骤s8至s17;
[0092]
s8、随机选择一个数据样本,使用训练好的深度森林分类器对该样本进行分类,输出类别概率,并利用该类别概率及原始样本构建新状态s
1t
;
[0093]
s9、使用当前状态s
1t
,根据动作值q函数q1计算所有动作的q值,并使用∈-greedy策略选择动作a1;
[0094]
s10、执行动作a1,观测到新的状态s
1t+1
和即时奖励r1,将经验(s
1t
,a1,r1,s
1t+1
)存储到回放内存d1中;
[0095]
s11、从经验池d1中随机抽取一批经验,使用经验数据更新动作值函数q1;
[0096]
s12、每n步更新一次目标函数q'1;
[0097]
s13、如果预测精度达到预设百分比,则使用预测值构建新的状态s
2t
;
[0098]
s14、actor网络根据新状态s
2t
,并使用∈-greedy策略选择动作a2;
[0099]
s15、执行动作a2,观测到新的状态s
2t+1
和即时奖励r2,将经验(s
2t
,a2,r2,s
2t+1
)存储到经验池d2中;
[0100]
s16、从经验池d2中随机采样一批经验,使用经验更新critic网络参数θc和actor网络参数θa;
[0101]
s17、每隔一段时间,利用softupdate更新目标critic网络参数θ
c'
和目标actor网络参数θ
a'
。
[0102]
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
[0103]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于深度强化学习的峰值功率需求预测控制方法,其特征在于:包括以下步骤:步骤一、使用energyplus模拟并获取四栋建筑一段时间内的数据样本作为数据集;步骤二、将建筑能耗的控制动作分为大小相同的m个区间,得到不同的动作空间,通过将动作控制空间划分为多个等距离的区间,可以将离散的动作控制空间转化为连续的数值范围,使其可以被更好地处理和建模;步骤三、将数据按8:2的比例划分为训练集和测试集,并将训练集下范围内的能耗数据进行重构;将能耗数据进行分类标注,标签区间为[1,m],组成新的样本及标签,并对其进行归一化处理;步骤四、构建深度森林模块,将步骤三中的数据集作为深度森林模块的输入,对深度森林分类器进行训练;分类器训练完成后,将归一化样本作为原始特征向量重新传入分类器;通过多粒度扫描获取变换后的特征向量;深度森林中的级联森林结构将变换后的特征向量作为输入,输出数据对应的各个动作类别的概率;步骤五、构建第一个深度强化学习模块,用于预测能耗数据;将输入归一化后的新构建样本与深度森林模块输出的动作区间类别概率相结合,作为q神经网络的输入;q神经网络计算所有动作的q值,并通过目标q网络计算出目标q值;两者之间的td误差被计算出来,用来更新q网络的参数;步骤六、利用训练好的模型对新的能耗数据进行预测和分类,并与实际观测值进行比较和验证,以评估模型的泛化能力和预测精度;步骤七、构建第二个深度强化学习模块,用于控制建筑群中的储能设备,以优化峰值负荷;在每个时间步骤t,agent使用结合深度森林的深度强化学习模块预测建筑群的未来能源需求,并将其与当前的建筑状态、天气和时间结合起来形成一个新的状态元组s
t
,输入另一个深度强化学习模块;agent根据该状态元组选择一个行动a
t
,通过控制四栋建筑中的储能设备来影响整个系统的峰值负荷;步骤八、agent得到新的状态元组后s
t
,使用actor网络预测下一步的动作a
t
;步骤九、通过上述的迭代更新,agent能够逐步学习到最优的行动策略,并实现建筑群峰值负荷的优化控制。2.根据权利要求1所述的一种基于深度强化学习的峰值功率需求预测控制方法,其特征在于:步骤三中对训练集范围数据进行样本和标签的重构,需要选择合适的属性作为特征,通过交叉验证,选择合适的前n个历史能耗数据作为特征;则对t时刻而言,将[e
t-n
,e
t-n-1
…
,e
t-1
]作为新样本,e
t
为其对应的新标签。3.根据权利要求1所述的一种基于深度强化学习的峰值功率需求预测控制方法,其特征在于:步骤五中,算法通过梯度下降来最小化q网络与目标q网络之间的平均均方误差,从而优化模型的训练效果。4.根据权利要求1所述的一种基于深度强化学习的峰值功率需求预测控制方法,其特征在于:在步骤八中,actor网络将将s
t
作为输入,输出一个a
t
的概率分布,然后agent使用该概率分布采样出一个行动a
t
;接着,agent将a
t
作为输入,结合当前的状态s
t
,通过critic网络计算出目标q值o
target
(s
t
,a
t
);最后,agent使用adam优化算法来更新actor网络和critic网络的参数,以最大化目标q值;在优化过程中,为了防止网络参数的震荡,使用软更新策略更新目标actor网络和目标critic网络的参数。
5.根据权利要3所述的一种基于深度强化学习的峰值功率需求预测控制方法,其特征在于:通过深度森林模块,将原先较大地预测空间分为n个子空间,每个子空间中的动作用统一的公式表示,这种公式巧妙地利用通用项的性质来压缩行动空间,将压缩空间中的每个行动都表示为整个子空间中的一个行动;在该公式中,x和z分别表示行动空间的上限和下限,n表示压缩空间的最终值;通过这种方式压缩行动空间,可以大大减小行动空间的大小,以应对大预测空间导致的预测精度降低的问题。6.根据权利要求5所述的一种基于深度强化学习的峰值功率需求预测控制方法,其特征在于:步骤五中将能耗预测问题建模为mdp建模,并构建相应的状态、动作和立即奖赏函数;其中:状态:用s表示;s
t
由步骤三中归一化后的样本及步骤四中深度森林模块输出的概率共同组成,即动作:用a表示,每一个动作对应一个能耗预测值;立即奖赏函数:用r表示;在t时刻,a
t
为能耗预测值,其与真实能耗值差值的绝对值可看作是agent在t时刻获得的奖赏,表示如下:r1=|en
pre-en
true
|。7.根据权利要求6所述的一种基于深度强化学习的峰值功率需求预测控制方法,其特征在于:步骤五中利用q网络与目标q网络两者的td误差更新更新参数θ,具体为:其中,(s,a,r,s')是从经验池获取的四元组,a'是t+1时刻agent所执行的动作,和θ
i
分别表示目标q网络和q网络的参数,r则是在t时刻状态s
t
下执行动作a
t
所获取的奖赏。8.根据权利要求1所述的一种基于深度强化学习的峰值功率需求预测控制方法,其特征在于:步骤七中,将建筑中储能设备的控制问题建模为mdp建模,并构建相应的状态、动作和立即奖赏函数;其中:状态:控制系统的状态变量主要由两部分组成;第一部分包括集群建筑的状态变量,分为时间变量、区域相关变量和建筑相关变量;时间变量包括月、时、日类型;区域相关变量包括天气信息和电价,包括室外干球温度、相对湿度、直接和漫射太阳辐射、太阳能发电以及预测未来5-8小时和11-15小时的室外温度和湿度;与建筑有关的变量包括室内温度、室内湿度和不可移动设备的使用;第二部分包括动态状态变量,如热泵的性能系数,热水和冷水储罐的充电状态,以及由预测的下一时间步骤t的建筑能耗;动作:每个建筑下的储能系统由两个可控单元组成,分别代表热水和冷水储罐;为了保证能源供需不出现短缺,将行动空间的上下限设定为最大储能容量的1/3,行动空间表示为{a
11
,a
12
,a
21
,a
22
,a
31
,a
32
,a
41
,a
42
};立即奖赏函数:控制部分的奖励函数应考虑功率峰值调节效果和电力成本,因为它们
都会影响系统定时控制的质量;电力调峰的质量主要体现在奖励函数中的能耗变量上,而成本判断则基于当下电价的影响;因此,奖励函数设计如下:r2=α*en
t
+β*[(en
t
/10)3]*pr
t
其中,en
t
代表当前的电力需求值,该值经过平滑处理以提高计算精度,pr
t
代表时间t的当前电价;该方程中的奖励函数抓住了电力需求和价格之间的相互作用,目的是找到一个平衡峰值电力需求和电力成本的中间值;其中,α和β的设置值分别为0.8和0.2。9.根据权利要求4所述的一种基于深度强化学习的峰值功率需求预测控制方法,其特征在于:步骤八actor网络的更新中,通过最大化当前状态下采取行动a
t
所能得到的q值,即max q(s
t
,a
t
),来更新actor网络的参数;这个更新过程使用了梯度上升的方法,使得actor网络能够逐步提高其策略的质量;具体如下:critic网络,其目标是最小化预测的q值与真实的q值的误差,即使用预测的q值作为目标,通过最小化均方误差来训练critic网络的参数,td目标定义为y
i
=r+γq(s',μ(s'|θ
μ
)|θ
q
),具体如下:l=1/n∑
i
(y
i-q(s
i
,a
i
|θ
q
))2目标actor网络和目标critic网络都采用“软更新”的方法来保证算法的稳定性,而不是直接复制网络参数,具体如下:
技术总结
本发明涉及建筑节能技术领域,且公开了一种基于深度强化学习的峰值功率需求预测控制方法,包括以下步骤:获取四栋建筑一段时间内的数据样本作为数据集,将建筑能耗的控制动作分为大小相同的M个区间,将数据按8:2的比例划分为训练集和测试集,构建深度森林模块,构建第一个深度强化学习模块,利用训练好的模型对新的能耗数据进行预测和分类,构建第二个深度强化学习模块,使用Actor网络预测下一步的动作a
技术研发人员:傅启明 刘璐 马杰 陈建平 陆悠
受保护的技术使用者:苏州科技大学
技术研发日:2023.06.25
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/