基于改进双智能体D3QN的城市电网N-1新增风险负荷转供方法与流程

未命名 09-23 阅读：69 评论：0

基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法
技术领域
1.本发明属于城市电网风险预防及拓扑重构技术领域，特别是涉及到一种基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法。

背景技术：

2.城市电网中的拓扑设计与备自投装置的配合减少或抵消了大部分n-1的不良影响，但n-1事件将破坏配合，存在可能导致n-1-1风险引起大面积停电事故或连锁故障的潜在风险。因城市电网存在较多备用线路，负荷转供可通过调整开关组合状态，改变负荷的供电路径，所以负荷转供常被调度部门作为控制风险问题的手段之一。然而负荷转供预案由调度人员经验决策得出，其优劣依赖于人员经验水平，缺少实际交互环节，难以全面分析防控潜在风险。
3.现有常用风险指标难以兼顾具体严重度表征能力、n-1场景适用性和全局风险防控效果保证，亟需从n-1场景进行风险分析与防控的探讨，需建立新评价指标。目前应用于城市电网重构问题较成熟、广泛的方法有三种。一种是数学优化算法，其中有多阶段优化法、非线性规划法、动态规划法，将负荷转供转化为对数学问题的求解。一种是启发式算法，分层树搜索法、支路交换法等如可以利用启发式规则减小搜索空间和降低问题复杂度，但搜索范围较大，全局搜索困难，难以适应具有混合变量与大量非线性约束的配电网重构决策。一种是元启发式算法如粒子群优化算法、遗传算法、蚁群算法等。该类算法鲁棒性较强，但无法保证解的最优性，且求解时间较长。
4.因此如何快速得到考虑交互的负荷转供策略，为电网部门提供信息支持，降低n-1新增潜在风险、电网可能n-1-1后的停电损失程度与连锁故障可能，成为城市电网关注和亟待解决的问题。

技术实现要素：

5.本发明所要解决的技术问题是：提供基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，针对城市电网n-1新增风险，新建针对表征的风险优化指标，以三阶段优化，针对负荷转供问题特性改进深度强化学习得到改进双智能体d3qn方法，求解风险防控转供策略。
6.基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，包括以下步骤，且以下步骤顺次进行，
7.步骤一、分析电网n-1新增风险，引入备自投装置建立针对新增风险防控的负荷转供优化指标；
8.步骤二、根据所述步骤一建立优化指标的优先度将负荷转供优化分为三阶段，将三阶段模型转为深度强化学习的数学模型；
9.步骤三、采用深度强化学习d3qn算法模型为基础，设置双智能体及双经验池，分别
分析负荷转供的闭合和断开，降低动作空间维度，提高优秀样本利用率；
10.步骤四、在d3qn算法基础设置预动作-变化探索值选择策略，替代原d3qn算法中的贪婪策略，启用即时奖励知识添加新选择策略并为各策略安排两个随训练过程变化的探索值，积累优质样本，提高训练速率，输出风险防控转供策略。
11.所述步骤一负荷转供优化指标为：
12.f1＝min(nr)
13.其中，nr为电网中仅有一条含备用供电路径的单供变电站数；
14.f2＝min(pr)
15.其中，pr为电网中仅有一条含备用供电路径的风险负荷母线所带负荷量；
16.f3＝min(p
lmax
)
17.其中，p
lmax
为电网中最高支路负载率，最高负载率低于70时，此值为0。
18.所述步骤二三阶段模型的划分依据为：
19.第一阶段，保证变电站有含备用供电路径的两条供电路径，使变电站单供风险最小化；单供风险状态的变电站通过分列运行方式将部分负荷转供至上级、同级变电站的供电路径中，或利用备自投配合使变电站形成两条供电路径，脱离变电站单供风险；
20.第二阶段，维持单供变电站数目，将负荷最大量转至处于预动作的备自投保障区域，保证两条供电路径，使负荷损失风险最小化；
21.第三阶段，维持第一阶段和第二阶段前两阶段的优化成果，将高负载率支路下游的负荷转移至低负载率的支路，均衡各支路的负载率保证电网稳定供电。
22.所述步骤三建立的双智能体分别学习负荷转供中闭合操作与断开操作，且每次动作仅一个智能体输出实际动作，双智能体的回报函数为：
[0023][0024]
式中，r1、r2、r3、r4为智能体奖励部分，p1、p2、p3、p4为智能体惩罚部分；
[0025]
奖励部分为：
[0026]
以减少风险负荷量和单供变电站数为目标，建立智能体第一、二阶段所能获得的奖励：
[0027][0028]
r2＝p
trans
[0029]
式中，n
del
，和p
loadi
表示累计减少的单供变电站数和第i个变电站全站带的有功负荷量；p
trans
表示风险负荷转变为安全负荷的累计量；
[0030]
第一阶段和第二阶段目标完成后，进入第三阶段优化，降低线路负载率：
[0031][0032]
式中，r表示当前状态r1和r2的奖励，p3表示当前状态与辐射状运行相关的惩罚函数，p
m0
和p
m1
表示当前动作前后的负载率最高支路的负载率；
[0033]
负荷转供过程中导致配电网出现环网，通过设置奖励r4使每次负荷转供后恢复配电辐射状结构，
[0034][0035]
式中，g表示当前动作后的配电网拓扑状态，g表示电网中所有配电网辐射状结构组合；
[0036]
惩罚部分为：
[0037]
针对智能体动作过程不满足电压幅值约束情况建立惩罚：
[0038][0039]
式中，ui表示第i个节点的电压标幺值，而u
imin
和u
imax
表示此节点的电压标幺值下限和上限；
[0040]
根据各支路电压等级、设备型号相应的传输功率极限值，设定惩罚：
[0041][0042]
式中，pi表示第i个支路上传输的功率值，而p
imax
表示此支路上传输的功率上限；
[0043]
根据开关操作时间，设置开关动作惩罚：
[0044][0045]
式中，no表示当前的开关动作数，当no＝8时，此项惩罚抵消降低风险的奖励；
[0046]
根据变压器及负荷风险，设置以下惩罚：
[0047][0048]
式中，n
del0
,n
del1
为动作前后累计减少的单供变电站数；p
trans0
,p
trans1
为动作前后累计风险负荷量。
[0049]
所述步骤三双经验池中，样本数据根据q值，及奖励值自高至低分别存储在两个经验池，q函数与q值为深度强化学习中一种价值函数与某情况下的价值，在d3qn中可由两个神经网络表达为：
[0050][0051]
式中，si表示第i个状态，ai表示第i次动作，θ表示神经网络的参数，aa为所有动作
集合，为动作向量做中心化处理。
[0052]
所述步骤四预动作-变化探索值选择策略为：
[0053]
采用即时奖励值作为下一动作选择的参考，每次选择动作前，q值未合适时，进行预动作运算潮流，得到下一时刻状态和即时奖励集合，添加选择即时奖励最大动作的选择机制，使智能体前期探索过程中积累优质样本；
[0054]
采用贪婪策略保证算法收敛性，设置两个探索值ε，以三种策略配合的方式进行探索；设定的探索值ε1和ε2，并取[0,1]的随机数，其落在不同区域即采取不同动作选择策略：
①
为即时奖励最大动作；
②
为贪婪策略动作；
③
为随机动作；ε1和ε2的变化公式：
[0055][0056][0057]
式中，m为当前episode数目，m为episode最大训练数目，其中ε
1max
＝0.95，ε
1min
＝0.55，ε
2max
＝0.45，ε
2min
＝0.05。
[0058]
通过上述设计方案，本发明可以带来如下有益效果：
[0059]
本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，新建了针对n-1风险更有表征能力的优化指标，利用三阶段模型避免多目标引起的局部最优和权重平衡难题，而且针对负荷转供特性设置的双智能体降低动作空间维度并解决多环网难题，预动作-变化探索值选择策略替代传统贪婪策略，从动作选择和样本质量提高训练速率。本发明方法无需先验知识并实现与电网环境的逐步交互，比经验决策更能保证风险防控能力，从而能够得到更符合工程实际的城市电网n-1风险防控策略。
附图说明
[0060]
以下结合附图和具体实施方式对本发明作进一步的说明：
[0061]
图1为本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法流程示意图。
[0062]
图2为本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法双智能体d3qn训练过程示意图。
[0063]
图3为本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法贪婪策略探索值ε的变化方式示意图。
[0064]
图4为本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法基于双智能体d3qn的负荷转供方法流程示意图。
[0065]
图5为本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法实施例某地局部电网拓扑示意图。
[0066]
图6为本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法实施例采用不同算法平均训练奖励对比示意图。
[0067]
图7为本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法实施例负荷转供开关投切位置示意图。
[0068]
图8为本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法实施例不同负荷转供策略负载率对比示意图。
[0069]
图9为本发明基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法实施例三阶段与多目标对比示意图。
具体实施方式
[0070]
基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，如图1所示，包括以下步骤，
[0071]
步骤1：电网n-1新增风险分析，考虑备自投装置建立针对新增潜在风险防控的负荷转供优化指标；
[0072]
步骤2：根据优化指标优先度将转供优化分为三阶段，将三阶段模型转为深度强化学习的数学模型；
[0073]
步骤3：在d3qn方法基础设置双智能体及双经验池，分别分析负荷转供的闭合、断开两种动作，同时降低动作空间维度，避免出现多环网问题，减少优秀样本弃用；
[0074]
步骤4：在d3qn方法基础设置预动作-变化探索值选择策略，替代传统贪婪策略，启用即时奖励知识添加新选择策略并为各策略安排两个随训练过程变化的探索值，能快速积累优质样本同时保证收敛性和高训练速率，最终输出风险防控转供策略。
[0075]
具体的，步骤一进行n-1风险分析，并考虑备自投装置建立优化指标：
[0076]
城市电网中的拓扑设计与备自投装置的配合减少或抵消了大部分n-1的不良影响，但n-1事件将破坏配合，存在可能导致n-1-1引起大面积停电事故或连锁故障的潜在风险。n-1发生后，为不产生实际停电损失，n-1附近备自投会自动动作，但同时导致变电站、负荷母线缺少备自投保障，这类变电站、负荷母线由具有两条供电路径(含备自投备用)经n-1仅剩一条供电路径(在供电)，所以防控n-1风险最好方法即重新使这类变电站、负荷母线通过其它备自投保障具有两条供电路径(含备用)。再考虑到n-1发生和前期转供导致部分支路重载，则建立以下优化指标：
[0077]
f1＝min(nr)
ꢀꢀ
(1)
[0078]
其中nr为电网中仅有一条供电路径(含备用)的单供变电站数。
[0079]
f2＝min(pr)
ꢀꢀ
(2)
[0080]
其中pr为电网中仅有一条供电路径(含备用)的风险负荷母线所带负荷量。
[0081]
f3＝min(p
lmax
)
ꢀꢀ
(3)
[0082]
其中p
lmax
为电网中最高支路负载率，最高负载率若低于70，则此值为0。
[0083]
具体的，其三阶段划分及三阶段负荷转供模型转为深度强化学习的数学模型：
[0084]
考虑城市电网严控电力三级事件(城市电网发生任意停电事故时，110kv等级以上的全站失压变电站数少于一个，负荷损失量少于50mw)，负荷转供将按风险优化优先度分三阶段进行。
[0085]
第一阶段，尽可能保证变电站有两条供电路径(含备用)，即变电站单供风险最小化。单供风险状态的变电站可以通过分列运行方式将部分负荷转供至上级、同级变电站的供电路径中或利用备自投配合，使变电站形成两条供电路径，使其脱离变电站单供风险。
[0086]
第二阶段，在不增加单供变电站数目的前提，将负荷尽可能转至处于预动作的备自投保障区域，保证其两条供电路径(含备用)，即负荷损失风险最小化。
[0087]
第三阶段，在保证不损害前两阶段的优化成果的前提，尽可能将高负载率支路下游的负荷转移至低负载率的支路，适当均衡各支路的负载率有利于电网的稳定供电，避免连锁故障发生。
[0088]
不同于多目标模型的同时优化，三阶段优化避免负荷风险优化时占用过多负载率导致变电站风险优化效果微小，与权重设置平衡难题。
[0089]
状态空间应联系于拓扑重构决策优劣的影响因素。对于利用拓扑重构实现负荷转供的问题，最基本的变量因素是电网中各开关的状态，令一定电压等级以上的未n-1线路、母联和变压器开关状态作为状态空间的量：
[0090]
s＝[x,nr,pr]
ꢀꢀ
(4)
[0091]
式中：x为未故障支路开关状态变量集合，nr为风险变电站数，pr为风险负荷量。
[0092]
负荷转供策略中的具体操作是由一系列的开关投切动作构成的，考虑到输出的负荷转供策略是计及开关动作顺序的，学习过程中每次动作应只对一个开关进行投切，将未n-1线路、变压器和母联开关的投切操作选择作为动作空间：
[0093][0094]
式中：a为决定是否对电网的某开关进行投切的0-1变量，向量中仅有一个变量呈1，代表投切该开关，当a0＝1，表示不动作，m为处于断开状态的开关数，n为处于闭合状态的开关数。
[0095]
每次动作空间中有且仅有一个变量为1，保证每次动作最终只选择投切一个开关。智能体学习过程中出现电压越限、线路过载或者出现孤岛时，也可通过学历在后续转供避开这类动作，并摸索出最优转供策略方案。
[0096]
智能体需根据回报函数判断某一状态的优劣。面对本文提到的负荷转供策略，回报函数需要考虑风险负荷量及安全负荷量、单供变电站数量、线路负载率的变化，此外还有电网相应的约束，比如节点电压、支路传输极限和配电网拓扑是否呈辐射状，同时将一次负荷转供的开关动作总次数作为评判转供策略优劣的标准之一。双智能体将分别设置不同的回报函数，下面介绍回报函数涉及的内容。
[0097]
1)奖励部分
[0098]
负荷转供的首要目标是n-1后电网再次发生n-1-1时的风险并改善可靠性，因此最重要的是减少风险负荷量和单供变电站数，下面分别是智能体第一、二阶段所能获得的奖励。
[0099]
[0100]
r2＝p
trans
ꢀꢀ
(7)
[0101]
式中n
del
，和p
loadi
表示累计减少的单供变电站数和第i个变电站全站带的有功负荷量；p
trans
表示风险负荷转变为安全负荷的累计量。
[0102]
在风险负荷量和单供变电站无法再减少的情况下，进入第三阶段优化，在允许范围内降低线路负载率：
[0103][0104]
式中r表示当前状态r1和r2的奖励，p3表示当前状态与辐射状运行相关的惩罚函数，p
m0
和p
m1
表示当前动作前后的负载率最高支路的负载率。
[0105]
负荷转供过程中必然导致配电网出现环网，为使每次负荷转供后恢复配电辐射状结构，设立奖励：
[0106][0107]
式中，g表示当前动作后的配电网拓扑状态，g表示电网中所有配电网辐射状结构组合。
[0108]
2)惩罚部分
[0109]
节点电压的正常维持是保证电网正常运行的基本要求之一，电压幅值应保持在上下限内，针对智能体动作过程不满足此约束情况给出惩罚：
[0110][0111]
式中ui表示第i个节点的电压标幺值，而u
imin
和u
imax
表示此节点的电压标幺值下限和上限。
[0112]
当支路传输功率超过其极限值时，该设备的故障概率会大大提高，对于不同电压等级、不同设备型号的支路都有相应的传输功率极限值，依此设定惩罚：
[0113][0114]
式中pi表示第i个支路上传输的功率值，而p
imax
表示此支路上传输的功率上限。
[0115]
负荷转供应在尽可能少的动作次数下完成，以降低运维的成本与失误的可能性，节省操作时间，防止配电网结构变化过大，为故障消除后恢复原运行方式增加难度，设下开关动作成本：
[0116][0117]
式中，no表示当前的开关动作数，当no＝8时，此项惩罚将抵消降低风险的奖励，调度部门认为这类转供的开关动作数在八次以内是比较合适的。
[0118]
负荷转供的某些动作可能导致变压器、负荷风险不减反增，为此添加以下惩罚：
[0119][0120]
式中n
del0
,n
del1
为动作前后累计减少的单供变电站数；p
trans0
,p
trans1
为动作前后累计风险负荷量。
[0121]
具体的，城市电网负荷转供因涉及大量开关状态二进制变量，动作空间维度庞大，导致现有优化方法求解难度很高。在本文负荷转供问题中，闭合开关的目的是连通支路，利用备自投降低变电站、母线负荷风险；断开开关的目的是断开环路，形成辐射网。智能体学习过程中常常连续闭合开关动作，形成多个环网，难以恢复辐射网，不利于训练效果。根据两种动作目的不同，设置两个智能体分别训练、集中交互，保证负荷转供一闭一断的动作顺序的同时，将原始动作空间划分为两个子空间，提高训练速率。
[0122]
如图2和图4所示，设置两个动作空间不同的智能体，分别学习负荷转供中闭合操作与断开操作，每次动作仅一个智能体输出实际动作；状态空间设置相同，目的是为了使两个智能体共享一个变化的状态。两者的回报函数分别为：
[0123][0124]
因机器的储存空间问题，d3qn经验池容量是有限的；负荷转供过程是一系列开关动作组合的，其状态空间必然是巨大的，导致智能体将遇到很大占比的无用样本。将样本根据q值与奖励高低划分两类，分别放入两组经验池，当更新网络时可按比例抽取两组经验池样本作为数据，保证经验池存有一定数量的优秀样本供智能体优先学习，避免弃用优秀样本情况。
[0125]
设置预动作-变化探索值选择策略的具体内容包括：
[0126]
传统随机贪婪策略以高概率选择q值最大动作，以低概率选择随机动作，需要大量探索计算，且易陷入局部最优，即使利用随机动作跳出局部最优，也难以影响学习方向。
[0127]
考虑到智能体给出奖励是对动作的评判，也部分影响q值大小。若利用即时奖励值作为下一动作选择的参考，于神经网络未训练成熟前，即q值未合适时，将有更高概率探索到最优动作。
[0128]
在每次选择动作前，进行预动作运算潮流，得到可能的下一时刻状态和即时奖励集合，利用该信息添加选择即时奖励最大动作的选择机制，使智能体于前期探索能快速积
累优质样本。为保证算法收敛性，本文保留贪婪策略，即需要设置两个探索值ε，以三种策略配合的方式进行探索。
[0129]
综上所述，设定的探索值ε1和ε2将随图3变化，并取[0,1]的随机数，其落在不同区域即采取不同动作选择策略：
①
为即时奖励最大动作；
②
为贪婪策略动作；
③
为随机动作。ε1和ε2的变化公式：
[0130][0131][0132]
式中，m为当前episode数目，m为episode最大训练数目，其中ε
1max
＝0.95，ε
1min
＝0.55，ε
2max
＝0.45，ε
2min
＝0.05。
[0133]
实施例：以某地区局部电网模型为例，采用仿真环境pypower；如图5所示，
[0134]
n-1发生在sb220-jm2201m处。原始拓扑jm站母线分列运行并同时由sb站和dh站供电，n-1导致jm站、sb站和dh站所组成的环形结构被破坏，jm220kv母联备自投装置随之动作，导致这三个220kv站减少了一条潜在供电路径，但sb站仍保证自身有两条潜在供电路径并不陷入风险状态。此外，jm站仅由dh站供电，而dh站仅由sz站供电，两者都处于单供风险状态，其所带的部分110kv站，如lc站、lf站、lh站、gc站、sg站以及两站之下的cf站都处于变电站单供风险状态。负荷风险存在于wj站、yg站、hb站、txl站、hl站内。
[0135]
双智能体d3qn的神经网络由输入层、隐藏层、价值函数层、优势函数层及输出层组成，其中两智能体的隐藏层分别有72、64个和24、16个神经元，价值函数层都只有一个神经元，优势函数层分别有64和16个神经元，折扣系数γ为0.97，经验回放池容量皆为1000条，学习采样样本数为200条，学习率初始值为0.001且将随着进程降低以达到较好的收敛效果，探索值ε的具体设定在要求书中。
[0136]
改进双智能体d3qn与其他算法的训练效果对比如图6所示，训练前期，因智能体动作易使潮流不收敛，导致奖励水平较低，而改进da-d3qn因动作选择机制引入即时奖励机制，比起其它方法获得更高平均奖励。训练后期，各方法仍有一定振荡是因为智能体一直有概率尝试随机动作，避免陷入局部最优。
[0137]
智能方法给出的负荷转供策略和经验决策策略对比如表1所示。
[0138]
表1负荷转供结果对比
[0139][0140]
负荷转供位置如图7所示，改进双智能体d3qn给出转供策略具体思路为sb220kv站串供dh110kv2m母线并为lc站、cf站、lh站、lf站、yg站、qy站一半母线供电；zh220kv站串供jm110kv2m母线并为sg站、gc站站一半母线供电；将cf站、lh站、lf站一半负荷转移至jm110kv1m，减轻负载程度。
[0141]
经验决策方法(预案)给出的转供策略为zh220kv站和bb220kv站分别串供jm110kv1m母线和dh110kv1m。虽转供开关动作较少，但忽略了较多变压器、负荷风险及串供路径较长的问题。两者的n-1-1校验对比已整理于表2，负载率对比如图8所示。
[0142]
表2 n-1-1最严重后果对比
[0143][0144][0145]
图9为三阶段优化与多目标优化效果对比。多目标优化，即将三优化部分一起优化，无三阶段规范优化次序，将更易导致训练陷入局部最优，智能体前期可能选择较多负荷风险奖励占比大的动作，导致部分支路负载过高，无法优化周围单供变电站风险。
[0146]
如选择闭合gc-hq线路而非b2线路，两者即时奖励值相近，但前者无法继续优化sg站单供风险，总奖励值将低于后者，多目标优化平均奖励值略低于三阶段优化的原因也在此。
[0147]
为体现本文新建优化指标的有效性，将以常用风险指标(各故障概率与后果严重度乘积和)进行对比优化，故障概率与线路负载程度相关。两者优化策略如下表3所示。
[0148]
表3优化指标效果对比
[0149][0150]
转供策略后，电网n-1风险被降低到最低水平。因而，本方法可以用于以智能方法实现电网n-1新增风险防控，且有较好适用性。
[0151]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例的技术方案的精神和范围。

技术特征：
1.基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，其特征是：包括以下步骤，且以下步骤顺次进行，步骤一、分析电网n-1新增风险，引入备自投装置建立针对新增风险防控的负荷转供优化指标；步骤二、根据所述步骤一建立优化指标的优先度将负荷转供优化分为三阶段，将三阶段模型转为深度强化学习的数学模型；步骤三、采用深度强化学习d3qn算法模型为基础，设置双智能体及双经验池，分别分析负荷转供的闭合和断开，降低动作空间维度，提高优秀样本利用率；步骤四、在d3qn算法基础设置预动作-变化探索值选择策略，替代原d3qn算法中的贪婪策略，启用即时奖励知识添加新选择策略并为各策略安排两个随训练过程变化的探索值，积累优质样本，提高训练速率，输出风险防控转供策略。2.根据权利要求1所述的基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，其特征是：所述步骤一负荷转供优化指标为：f1＝min(n
r
)其中，n
r
为电网中仅有一条含备用供电路径的单供变电站数；f2＝min(p
r
)其中，p
r
为电网中仅有一条含备用供电路径的风险负荷母线所带负荷量；f3＝min(p
lmax
)其中，p
lmax
为电网中最高支路负载率，最高负载率低于70时，此值为0。3.根据权利要求1所述的基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，其特征是：所述步骤二三阶段模型的划分依据为：第一阶段，保证变电站有含备用供电路径的两条供电路径，使变电站单供风险最小化；单供风险状态的变电站通过分列运行方式将部分负荷转供至上级、同级变电站的供电路径中，或利用备自投配合使变电站形成两条供电路径，脱离变电站单供风险；第二阶段，维持单供变电站数目，将负荷最大量转至处于预动作的备自投保障区域，保证两条供电路径，使负荷损失风险最小化；第三阶段，维持第一阶段和第二阶段前两阶段的优化成果，将高负载率支路下游的负荷转移至低负载率的支路，均衡各支路的负载率保证电网稳定供电。4.根据权利要求1所述的基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，其特征是：所述步骤三建立的双智能体分别学习负荷转供中闭合操作与断开操作，且每次动作仅一个智能体输出实际动作，双智能体的回报函数为：式中，r1、r2、r3、r4为智能体奖励部分，p1、p2、p3、p4为智能体惩罚部分；奖励部分为：以减少风险负荷量和单供变电站数为目标，建立智能体第一、二阶段所能获得的奖励：
r2＝p
trans
式中，n
del
，和p
loadi
表示累计减少的单供变电站数和第i个变电站全站带的有功负荷量；p
trans
表示风险负荷转变为安全负荷的累计量；第一阶段和第二阶段目标完成后，进入第三阶段优化，降低线路负载率：式中，r表示当前状态r1和r2的奖励，p3表示当前状态与辐射状运行相关的惩罚函数，p
m0
和p
m1
表示当前动作前后的负载率最高支路的负载率；负荷转供过程中导致配电网出现环网，通过设置奖励r4使每次负荷转供后恢复配电辐射状结构，式中，g表示当前动作后的配电网拓扑状态，g表示电网中所有配电网辐射状结构组合；惩罚部分为：针对智能体动作过程不满足电压幅值约束情况建立惩罚：式中，u
i
表示第i个节点的电压标幺值，而u
imin
和u
imax
表示此节点的电压标幺值下限和上限；根据各支路电压等级、设备型号相应的传输功率极限值，设定惩罚：式中，p
i
表示第i个支路上传输的功率值，而p
imax
表示此支路上传输的功率上限；根据开关操作时间，设置开关动作惩罚：式中，n
o
表示当前的开关动作数，当n
o
＝8时，此项惩罚抵消降低风险的奖励；根据变压器及负荷风险，设置以下惩罚：式中，n
del0
,n
del1
为动作前后累计减少的单供变电站数；p
trans0
,p
trans1
为动作前后累计风
险负荷量。5.根据权利要求1所述的基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，其特征是：所述步骤三双经验池中，样本数据根据q值，及奖励值自高至低分别存储在两个经验池，q函数与q值为深度强化学习中价值函数，在d3qn中可由两个神经网络表达为：式中，s
i
表示第i个状态，a
i
表示第i次动作，θ表示神经网络的参数，a
a
为所有动作集合，为动作向量做中心化处理。6.根据权利要求1所述的基于改进双智能体d3qn的城市电网n-1新增风险负荷转供方法，其特征是：所述步骤四预动作-变化探索值选择策略为：采用即时奖励值作为下一动作选择的参考，每次选择动作前，q值未合适时，进行预动作运算潮流，得到下一时刻状态和即时奖励集合，添加选择即时奖励最大动作的选择机制，使智能体前期探索过程中积累优质样本；采用贪婪策略保证算法收敛性，设置两个探索值ε，以三种策略配合的方式进行探索；设定的探索值ε1和ε2，并取[0,1]的随机数，其落在不同区域即采取不同动作选择策略：
①
为即时奖励最大动作；
②
为贪婪策略动作；
③
为随机动作；ε1和ε2的变化公式：的变化公式：式中，m为当前episode数目，m为episode最大训练数目，其中ε
1max
＝0.95，ε
1min
＝0.55，ε
2max
＝0.45，ε
2min
＝0.05。

技术总结
本发明基于改进双智能体D3QN的城市电网N-1新增风险负荷转供方法，属于城市电网风险预防及拓扑重构技术领域，新建了针对N-1风险更有表征能力的优化指标，利用三阶段模型避免多目标引起的局部最优和权重平衡难题，而且针对负荷转供特性设置的双智能体降低动作空间维度并解决多环网难题，预动作-变化探索值选择策略替代传统贪婪策略，从动作选择和样本质量提高训练速率。本发明方法无需先验知识并实现与电网环境的逐步交互，比经验决策更能保证风险防控能力，从而能够得到更符合工程实际的城市电网N-1风险防控策略。1风险防控策略。1风险防控策略。

技术研发人员：安军黎梓聪宋磊周毅博石岩孟繁波吕长会赵博毕建航鲁宇时雨
受保护的技术使用者：国网吉林省电力有限公司经济技术研究院吉林省长春电力勘测设计院有限公司
技术研发日：2023.06.25
技术公布日：2023/9/22

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

基于改进双智能体D3QN的城市电网N-1新增风险负荷转供方法与流程

版权声明

评论

航空之家

相关推荐

文章排行

最近发表

标签列表

基于改进双智能体D3QN的城市电网N-1新增风险负荷转供方法与流程

版权声明

相关文章

评论

航空之家

相关推荐

文章排行

最近发表

标签列表