适用于客货联运的灵活公交动态调度方法

未命名 10-22 阅读:90 评论:0


1.本发明涉及灵活公交调度技术领域,具体地说,尤其涉及一种实现客货联运的灵活公交动态调度方法。


背景技术:

2.传统公交具有线路固定、发车频次高和覆盖范围广的特点,但也面临着平峰期车内空闲空间大、长期赤字等困境。需求响应公交(demand responsive transit,drt)作为出行需求多样化和信息化的产物,旨在提供柔性半集约的出行服务,其结合了传统公交和出租车的优势,同时具备高可承载性和高机动性。但这种离散化的服务模式成本较高,在实际运营中平峰期的运力资源也未能得到充分利用。
3.城市中飞速增长的货运量需要较高效的运输方式,借助于地铁、出租车的客货联运模式因此逐渐发展起来。但目前的客货联运模式无法实时匹配对应的客货订单,其调度过程在时间和空间上均受到较大的灵活性限制,无法实现灵活优化。
4.公开号为cn114331060a的中国专利申请公开了一种maas背景下面向高铁站接驳的drt车辆路径生成方法,建立了进站方向静态调度模型与出站方向动态调度模型以生成drt路线,该动静态结合的方法能够为drt的研究带来一定的技术支持,但其并未完全实现实时响应,且所实现的drt路径受到固定起讫点的限制,灵活性不足。
5.城市客货联运模式中,乘客或货物订单均具备对应时间窗、容量及站点匹配约束,对于提前预约的静态订单尚可做详细规划,但对于随机出现的动态订单,传统的客货联运模型中无法有效处理,即未能实现“实时响应”。客货联运的调度问题,其目标为动态调度系统总成本最小,但乘客的乘坐体验(体现为实际行程时间与最短行程时间的比值)、所有订单的服务率(即实际完成订单数目与总订单数目的比值)及动态订单的实时响应(含服务/拒单)情况也间接影响着动态调度系统的性能。


技术实现要素:

6.本发明的目的在于解决传统客货联运调度方法无法有效处理随机出现的动态订单的问题,提供一种适用于客货联运的灵活公交动态调度方法,不仅可以降低运营成本,还能够提升交通运输效率。
7.为了实现上述目的,本发明所采用的技术方案如下:
8.一种适用于客货联运的灵活公交动态调度方法,包括以下步骤:
9.基于滚动时域框架建立马尔科夫决策过程模型,通过马尔科夫决策过程模型解释drt动态调度系统灵活公交客货联运调度问题;
10.将调度环境信息抽象为强化学习各要素,将灵活公交车辆抽象为智能体,根据动态调度特性设计适配马尔科夫决策过程模型的收益函数;
11.以总成本最少为优化目标,基于多智能体强化学习中的qtran_alt算法求解马尔科夫决策过程模型,完成灵活公交客货联运调度。
12.建立马尔科夫决策过程模型,具体如下:
13.依据滚动时域框架将运营周期划分为等长的时间片t={t|t=1,2,

,|t},在每个时间片的固定位置对各智能体车辆做决策,以实现实时响应;
14.定义马尔科夫决策过程模型的假设条件及参数变量、状态、约束条件、动作、状态转移等。
15.表1模型参数与变量定义
16.[0017][0018][0019]
状态分为全局环境状态和局部车辆状态,定义为:
[0020][0021][0022]
式中,表示全局环境信息,表示局部车辆集合,t表示时间片序号,k表示车辆集合,k表示车辆编号;p表示订单基础信息,包括起讫点、需求量(乘客/包裹数量)、乘客订单出发时间窗/货物订单全服务时间窗上下界、订单属性(乘客/同城快件/联合快递件);p
t
表示时间片t中的订单状态信息,包括订单状态(尚未被接/正在运送/已完成)、实际接取时间、实际送达时间、拒单状态;表示时间片t内全局环境状态;表示时间片t内局部车辆状态,其值为∑
k∈kst,k
,其中s
t,k
表示时间片t内车辆k的状态,包括下一动作、车上载客量、车上载货量、下一动作完成时间、当前时间片序号及下一动作的出发时间片序号等。
[0023]wt,k
表示在时间片t内第k辆车到达下一动作站点的时间,若其值处于当前时间片内,则说明已到达下一站点,第k辆车在下一时间片可做决策,否则需跳过当前决策阶段,待其先完成当前任务再决策;u
t,k
表示在时间片t内第k辆车的任务状态,以站点编号计,包括无任务、有任务(在站点接送客/装卸货或者正在前往下一站点),若其值为0,则表示该智能体车辆回车场(无任务);若值为非车场站点编号,表示其有任务(在该站点接送客/装卸货或正在前往此站点),此时需根据w
t,k
及t联合判断;表示在时间片t内第k辆车的载客状态;h
t,k
表示在时间片t内第k辆车的载货状态;x
t,k
为第k辆车当前任务的出发时间片序号,依当前站点到下一站点的距离而定,其默认值为0:若t小于x
t,k
,则当前车辆在站点i等待;若t等于x
t,k
,则当前车辆开始运行。
[0024]
灵活公交客货联运马尔科夫决策过程模型的约束条件为:
[0025][0026][0027][0028][0029][0030][0031][0032][0033][0034][0035]
[0036][0037][0038][0039]
式中,表示时间片t内车辆k到达站点j时的上车乘客数;表示时间片t内车辆k到达站点j时静态订单的上车乘客数;表示时间片t内车辆k到达站点j时动态订单的上车乘客数;表示时间片t内车辆k在站点j服务的乘客静态订单集合;mn表示订单n的容量;表示时间片t内车辆k在站点j响应的乘客动态订单集合;表示车辆k在时间片t内拒绝站点j的动态订单n时,否则i表示站点集合。
[0040]mt,k
表示时间片t内车辆k的载客量;m
t-1,k
表示时间片t-1内车辆k的载客量;表示时间片t内车辆k到达站点j时的下车乘客数;表示时间片t内车辆k到达站点j时的上车乘客数;x
t,k,i,j
表示车辆k在时间片t内已经跑完从站点i到站点j的决策路径时,x
t,k,i,j
=1;否则x
t,k,i,j
=0;m表示车辆容量,t表示时间,其绝对值表示时间片总个数。
[0041]
表示时间片t内车辆k到达站点j时静态订单的上车包裹件数;表示时间片t内车辆k到达站点j时静态订单的上车包裹件数;表示时间片t内车辆k到达站点j时动态订单的上车包裹件数;表示时间片t内车辆k在站点j服务的货物静态订单集合;表示时间片t内车辆k在站点j服务的货物动态订单集合。
[0042]
表示时间片t内车辆k的载货量;表示时间片t-1内车辆k的载货量;表示时间片t内车辆k到达站点j时的下车包裹件数;mg表示车辆额定货物容量。
[0043]zi,j
表示从站点i到站点j的车辆直达距离;ψ表示车辆的平均速度;表示车辆k在时间片t内采取等待动作时,否则h表示单个时间片间隔。表示乘客订单n的最早出发时间;表示订单n的实际接取时间,默认值为0;表示乘客订单n的最晚出发时间;表示乘客静态订单集合;表示乘客动态订单集合;表示车辆到达订单n出发站点的时间,默认值为0;表示订单n的出发站点,表示车辆接取订单n前在订单n出发站点的等待时间。
[0044]
表示订单n的实际送达时间,默认值为0;α表示在途时间余度系数;表示订单n的出发站点,表示乘客订单n的出发站点到送达站点的车辆直达距离;表示送达时间的优化限度。表示货物静态订单集合;表示货物动态订单集合;表示货物订单n的全服务时间窗下界;表示货物订单n的全服务时间窗上界。表示乘客动态订单n的初始最早出发时间;σ
t
表示时间灵活性调整限度;表示乘客动态订单n的初始出发站点,表示乘客订单n做时空灵活性调整前后的出发站点车辆直达距离;σz表示空间灵活性调整限度。
[0045]
式(3)-(8)为车辆载重量约束,表示车辆在任何时刻的载客/载货量都不能超过车辆的额定乘客/货物容量;式(9)为运行时间约束,表示每个服务订单均需在运营周期内完成;式(10)-(11)为乘客订单的出发时间窗约束,表示乘客订单的接取时间需满足其对应的出发时间窗;式(12)为在途时间约束,即乘客订单的在途时间(实际行程时间)需在直达时间(起讫点最短路径所需时间)的一定倍数以内,考虑到强化学习的特性,此处设置一个优化限度式(13)-(14)为货物订单的全服务时间窗约束,表示货物订单只需在全服务时间窗内取送货即可,并无严格的接取/送达时间约束;式(15)-(16)表示时空灵活性调整约束,对于可做时空灵活性调整的订单,其调整范围不得超过一定的时间/空间限度。
[0046]
各智能体车辆的动作则分为基本动作空间和可行动作空间,表示为:
[0047][0048][0049][0050][0051][0052]
其中,表示时间片t内智能体车辆k的基本动作空间,式(19)-(21)表示可行动作空间的约束条件;为时间片t内各车辆启用状态,其初始值为0,因车队严格按编号先后顺序派车,一旦有车辆启用则的值加1,故任一时刻的数值表示动态调度系统中运行的车辆数,动态调度系统据此为前辆智能体车辆做决策。
[0053]
表示时间片t内智能体车辆k是否首次启用,若是首次启用则值为1且此时的值加1,否则值为0;j
k,t,i
表示时间片t内智能体车辆k的各基本动作,具体处理时以热独编码处理,故此处以站点个数大小的一维张量形式表示,若某站点处于该基本动作空间内,则其对应的索引位置值为1,否则为0;表示时间片t内智能体车辆k的各等待状态,其与j
k,t,i
匹配,即j
k,t,i
中任一位置处的可选动作,在里对应索引处都有其等待状态,若其值为1则车辆需等待且此时动态调度系统会在对应的路径中记录其等待一个时间片长度,若下一时间片仍等待则等待时间累加一个时间片长度,直至值为0则出发;表示智能体车辆k在时间片t内的各拒单状态,亦与j
k,t,i
匹配,其值为表示对应动作下的拒单个数(若为0则未拒单)。
[0054]
状态转移作为获取环境奖励的关键步骤,在各智能体车辆做完决策后即开展。车辆状态根据式(22)-(26)来更新,订单信息以之做更新。更新公式为:
[0055]
[0056][0057][0058][0059][0060]
式中,a
t,k
表示时间片t内智能体车辆k的局部动作;u
t+1,k
表示在时间片t+1内第k辆车的任务状态;x
t+1,k
表示时间片t+1内第k辆车当前任务的出发时间片序号;表示智能体车辆k在时间片t内下一任务完成时需运行的直达距离;w
t+1,k
表示表示在时间片t+1内第k辆车到达下一动作站点的时间;表示在时间片t+1内第k辆车的载客状态;表示智能体车辆k在时间片t内采取动作a
t,k
后的上车乘客数;表示智能体车辆k在时间片t内采取动作a
t,k
后的下车乘客数;h
t+1,k
表示在时间片t+1内第k辆车的载货状态;表示智能体车辆k在时间片t内采取动作a
t,k
后的上车包裹数;表示智能体车辆k在时间片t内采取动作a
t,k
后的下车包裹数。
[0061]
式(22)表示智能体车辆位置的状态转移,其确保车辆状态的实时更新;式(23)表示智能体车辆当前任务完成时间的状态转移,以实时判断其是否进入下一决策阶段;式(24)和式(25)分别表示智能体车辆当前载客量与载货量的状态转移,以满足载重量约束;式(26)表示智能体车辆当前任务出发时间的状态转移,若是不满足出发条件则采取等待动作。
[0062]
根据动态调度特性设计适配马尔科夫决策过程模型的收益函数,具体为:
[0063]
在强化学习框架中,奖励函数作为迭代优化的关键要素,其设置对结果的优化起到至关重要的作用,具体运营过程中按照各成本函数来判定,将适配马尔科夫决策过程模型的收益函数定义为:
[0064]rt
=r(s
t+1
|s
t
)=∑
k∈k
[r(s
t,k
,a
t,k
)+r1(s
t,k
,a
t,k
)+r2(s
t,k
,a
t,k
)+r3(s
t,k
,a
t,k
)+r4(s
t,k
,a
t,k
)]
ꢀꢀ
(27)
[0065][0066][0067][0068][0069][0070]
式中,s
t+1
表示时间片t+1内的全局状态;r(s
t+1
|s
t
)表示状态s
t
转移到状态s
t+1
时所
产生的奖励;r(s
t,k
,a
t,k
)表示车辆k在时间片t内采取动作后所带来的运行奖励(运行成本的负值)。表示单辆车固定成本;表示单位里程成本;表示订单延误惩罚成本系数;表示拒单惩罚成本系数;δw表示站点等待惩罚成本系数;表示时间片t内车辆k的车上订单集合;δ
t
表示时间灵活性惩罚成本系数。
[0071]
在实际的运营过程中,运行成本可分为单个车辆的固定成本和里程成本,前者包含车辆折旧费用及驾驶员的薪资费用,后者则主要指燃料成本(油车的燃油费或者电车的耗电额)。本模型所研究的重点在于路径规划,且所采用的集中式训练分布式执行(centralized training with discentral execution,ctde)方式需要提前设定神经网络的大小,故总车辆数提前预设为车场车辆数,动态调度系统会依据订单情况派车,只有进入运营状态的才会计算其运行成本。
[0072]
r1(s
t,k
,a
t,k
)表示车辆k在时间片t内采取动作后导致订单未按时送达的奖励(单位惩罚成本乘以人数乘以超出时间长度所得结果的负值);r2(s
t,k
,a
t,k
)表示车辆k在时间片t内采取动作后所带来的拒单奖励(拒单惩罚成本的负值);r3(s
t,k
,a
t,k
)表示车辆k在时间片t内进行时空灵活性处理后所带来的时空灵活性调整奖励(时空灵活性惩罚成本的负值),其体现为对乘客票价的让渡,如单个乘客在时间上每做一分钟的时间灵活性调整,都可以享受|δ
t
|元的票价优惠(空间灵活性类似);r4(s
t,k
,a
t,k
)表示车辆k在时间片t内于站点等待的奖励;r
t
表示时间片t内的总奖励(站点等待惩罚成本的负值)。
[0073]
基于多智能体强化学习中的qtran_alt算法求解马尔科夫决策过程模型,具体为:
[0074]
drt动态调度系统对联合动作a
t-1
做出反馈,得到全局状态s
t
和总奖励r
t
,其在qtran_alt框架下进行值分解得到各智能体车辆k的局部奖励r
t,k
。智能体车辆k在局部状态s
t,k
下再通过qtran_alt框架做出局部动作a
t,k
,所有的局部动作组成联合动作a
t
,进而与drt动态调度系统做下一步交互,循环迭代直至运营周期结束。
[0075]
局部状态s
t,k
和局部动作a
t,k
会输入到qtran_alt框架中以式(33)-(35)训练损失函数l
td
、l
opt
及l
nopt
,进而反向传播更新到qtran_alt框架中迭代提升。
[0076]
损失函数l
td
、l
opt
及l
nopt
为:
[0077][0078][0079][0080]
式中,a
t
表示时间片t内的联合动作;r
t
表示时间片t内的总奖励;θ表示神经网络参数;q
ρt
表示联合动作价值函数;r
dqn
表示实际的动作价值;γ表示奖励的折扣系数;表示时间片t+1内的联合最优动作;θ-表示目标网络参数;l
td
表示拟合联合动作总奖励函数的损失函数;q`
ρt
表示智能体动作价值函数;表示时间片t内的联合最优动作;表示以目标q网络方式固定的联合动作价值函数;v
ρt
表示修正动作价值函数;l
opt
和l
nopt
表示拟合修正动作价值函数v
ρt
的损失函数。
[0081]
损失函数l
td
用来拟合联合动作与环境进行交互而获取总奖励的函数q
ρt
,故其为实际的动作价值r
dqn
和当前网络计算出的动作价值q
ρt
(s
t
,a
t
)之间的差值平方;l
opt
和l
nopt

用来拟合v
ρt
,v
ρt
本就是修正联合动作价值函数q
ρt
和各智能体动作价值函数之和q’ρt
的函数,加之qtran_alt算法采用了目标q网络的方式,故此处以的值和q’ρt
的差值平方来增强学习平稳率,逐步降低误差至0,从而拟合到更为准确的v
ρt
(s
t
),drt动态调度系统便可据此找到当前情况下各智能体车辆的最优路径。
[0082]
与现有技术相比,本发明通过建立马尔科夫决策过程模型,解释drt动态调度系统灵活公交客货联运调度问题,基于滚动时域框架灵活处理动态订单,以动态调度系统总成本最少为目标,采用多智能体强化学习中的qtran_alt算法求解,以期获得更低动态调度系统总成本的解,从而完成灵活公交客货联运调度。本发明不仅可以降低运营成本,还能够提升交通运输效率,同时算法具有良好的特性,具有较强的实际应用前景。
附图说明
[0083]
图1为适用于客货联运的灵活公交动态调度方法的流程图。
[0084]
图2为动态调度系统的算法运行流程图。
[0085]
图3为动态调度系统的场景示意图。
[0086]
图4为实施例1的运营环境示意图。
具体实施方式
[0087]
下面结合附图和具体实施例对本发明适用于客货联运的灵活公交动态调度方法作进一步说明。
[0088]
请参阅图1,本发明公开了一种适用于客货联运的灵活公交动态调度方法,包括以下步骤:
[0089]
基于滚动时域框架建立马尔科夫决策过程模型,通过马尔科夫决策过程模型解释drt动态调度系统灵活公交客货联运调度问题;
[0090]
将调度环境信息抽象为强化学习各要素,将灵活公交车辆抽象为智能体,根据动态调度特性设计适配马尔科夫决策过程模型的收益函数;
[0091]
以总成本最少为优化目标,基于多智能体强化学习中的qtran_alt算法求解马尔科夫决策过程模型,完成灵活公交客货联运调度。
[0092]
灵活公交可响应城市片区中出行需求灵活的乘客订单,但目前仍面临平峰期利用率低的困境。灵活公交若能在确保响应乘客出行需求的基础上,完成部分快递包裹的运输(即货运),便可进一步提升效益。如图3所示,城市内的快递派送流程为“转运中心

分拣中心

快递站点

用户”,逆向则为寄件流程。各级中转站间的收发班次不同,快递站点和分拣中心之间的收发班次较少(如每日10:00和18:00各一班),但分拣中心与转运中心之间的收发车频次较高(如24h内每隔3h即一班),导致部分快递在分拣中心和快递站点间的环节滞留(定义滞留时间超过2小时的包裹为延误包裹)。如12:00在快递站点出现的“寄件”单滞留至18:00才送往分拣中心,若能及时(如13:00)将该快递包裹送至分拣中心,便可利用分拣中心和转运中心间的较早班次(如15:00)将其运输到转运中心,提升时效性。单个片区中短时间内出现的快递具有数量少且随机性很大的特点,快递公司若为此额外派车会严重影响整体成本和效率。为了降低总成本,提升用户体验,需要制定科学合理的灵活公交客货联运调度方案。
[0093]
本发明通过考虑乘客的时空灵活性调整,提供灵活公交客货联运动态调度的解决方案。本发明实现客货联运的灵活公交调度方法的思路是:建立马尔科夫决策过程模型解释灵活公交客货联运动态调度问题;以滚动时域框架处理动态订单;以总成本最少为目标,结合多智能体强化学习中的qtran_alt算法求解。
[0094]
本发明建立马尔科夫决策过程模型的基本假设为:
[0095]
(1)车辆保持匀速行驶;(2)乘客在出发时间窗内到达出发站点,不存在早到、晚到及不到的情况;(3)货物包裹不严格区分重量体积,综合重量和体积按标准件“件数”计;(4)乘客下单后不会自行取消订单,且均能等待至动态调度系统反馈信息。
[0096]
基于滚动时域框架建立马尔科夫决策过程模型,具体为:
[0097]
依据滚动时域框架将运营周期划分为等长的时间片t={t|t=1,2,

,|t},在每个时间片的固定位置对各智能体车辆做决策,以实现实时响应;定义马尔科夫决策过程模型的假设条件及参数变量、状态、约束条件、动作、状态转移。
[0098]
状态分为全局环境状态和局部车辆状态,定义为:
[0099][0100][0101]
式中,表示全局环境信息,表示局部车辆集合,t表示时间片序号,k表示车辆集合,k表示车辆编号;p表示订单基础信息,包括起讫点、需求量(乘客/包裹数量)、乘客订单出发时间窗/货物订单全服务时间窗上下界、订单属性(乘客/同城快件/联合快递件);p
t
表示时间片t中的订单状态信息,包括订单状态(尚未被接/正在运送/已完成)、实际接取时间、实际送达时间、拒单状态;表示时间片t内局部车辆状态,其值为∑
k∈kst,k
,其中s
t,k
表示时间片t内车辆k的状态,包括下一动作、车上载客量、车上载货量、下一动作完成时间、当前时间片序号及下一动作的出发时间片序号等。
[0102]wt,k
表示在时间片t内第k辆车到达下一动作站点的时间,若其值处于当前时间片内,则说明已到达下一站点,第k辆车在下一时间片可做决策,否则需跳过当前决策阶段,待其先完成当前任务再决策。u
t,k
表示在时间片t内第k辆车的任务状态,以站点编号计,包括无任务、有任务(在站点接送客/装卸货或者正在前往下一站点),若其值为0,则表示该智能体车辆回车场(无任务);若值为非车场站点编号,表示其有任务(在该站点接送客/装卸货或正在前往此站点),此时需根据w
t,k
及t联合判断。表示在时间片t内第k辆车的载客状态;h
t,k
表示在时间片t内第k辆车的载货状态;x
t,k
为第k辆车当前任务的出发时间片序号,依当前站点到下一站点的距离而定,其默认值为0:若t小于x
t,k
,则当前车辆在站点i等待;若t等于x
t,k
,则当前车辆开始运行。
[0103]
灵活公交客货联运马尔科夫决策过程模型的约束条件为:
[0104][0105][0106]
[0107][0108][0109][0110][0111][0112][0113][0114][0115][0116][0117][0118]
式中,表示时间片t内车辆k到达站点j时的上车乘客数;表示时间片t内车辆k到达站点j时静态订单的上车乘客数;表示时间片t内车辆k到达站点j时动态订单的上车乘客数;表示时间片t内车辆k在站点j服务的乘客静态订单集合;mn表示订单n的容量;表示时间片t内车辆k在站点j响应的乘客动态订单集合;表示车辆k在时间片t内拒绝站点j的动态订单n时,否则i表示站点集合。
[0119]mt,k
表示时间片t内车辆k的载客量;m
t-1,k
表示时间片t-1内车辆k的载客量;表示时间片t内车辆k到达站点j时的下车乘客数;表示时间片t内车辆k到达站点j时的上车乘客数;x
t,k,i,j
表示车辆k在时间片t内已经跑完从站点i到站点j的决策路径时,x
t,k,i,j
=1;否则x
t,k,i,j
=0;m表示车辆容量,t表示时间,其绝对值表示时间片总个数。
[0120]
表示时间片t内车辆k到达站点j时静态订单的上车包裹件数;表示时间片t内车辆k到达站点j时静态订单的上车包裹件数;表示时间片t内车辆k到达站点j时动态订单的上车包裹件数;表示时间片t内车辆k在站点j服务的货物静态订单集合;表示时间片t内车辆k在站点j服务的货物动态订单集合。表示时间片t内车辆k的载货量;表示时间片t-1内车辆k的载货量;表示时间片t内车辆k到达站点j时的下车包裹件数;mg表示车辆额定货物容量。
[0121]zi,j
表示从站点i到站点j的车辆直达距离;ψ表示车辆的平均速度;表示车辆k在时间片t内采取等待动作时,否则h表示单个时间片间隔。表示乘客订单n
的最早出发时间;表示订单n的实际接取时间,默认值为0;表示乘客订单n的最晚出发时间;表示乘客静态订单集合;表示乘客动态订单集合;表示车辆到达订单n出发站点的时间,默认值为0;表示订单n的出发站点,表示车辆接取订单n前在订单n出发站点的等待时间。
[0122]
表示订单n的实际送达时间,默认值为0;α表示在途时间余度系数;表示订单n的出发站点,表示乘客订单n的出发站点到送达站点的车辆直达距离;表示送达时间的优化限度。表示货物静态订单集合;表示货物动态订单集合;表示货物订单n的全服务时间窗下界;表示货物订单n的全服务时间窗上界。表示乘客动态订单n的初始最早出发时间;σ
t
表示时间灵活性调整限度;表示乘客动态订单n的初始出发站点,表示乘客订单n做时空灵活性调整前后的出发站点车辆直达距离;σz表示空间灵活性调整限度。
[0123]
式(3)-(8)为车辆载重量约束,表示车辆在任何时刻的载客/载货量都不能超过车辆的额定乘客/货物容量;式(9)为运行时间约束,表示每个服务订单均需在运营周期内完成;式(10)-(11)为乘客订单的出发时间窗约束,表示乘客订单的接取时间需满足其对应的出发时间窗;式(12)为在途时间约束,即乘客订单的在途时间(实际行程时间)需在直达时间(起讫点最短路径所需时间)的一定倍数以内,考虑到强化学习的特性,此处设置一个优化限度式(13)-(14)为货物订单的全服务时间窗约束,表示货物订单只需在全服务时间窗内取送货即可,并无严格的接取/送达时间约束;式(15)-(16)表示时空灵活性调整约束,对于可做时空灵活性调整的订单,其调整范围不得超过一定的时间/空间限度。
[0124]
各智能体车辆的动作则分为基本动作空间和可行动作空间,表示为:
[0125][0126][0127][0128][0129][0130]
式中,a
t
(s
t
)表示时间片t内智能体车辆k的基本动作空间;表示时间片t内智能体车辆k的可行动作空间,式(19)-(21)表示可行动作空间的约束条件;s
t
时间片t内的全局状态;s
t,k
表示时间片t内智能体车辆k的局部状态;为时间片t内各车辆启用状态,其初始值为0,因车队严格按编号先后顺序派车,一旦有车辆启用则的值加1,故任一时刻的数值表示动态调度系统中运行的车辆数,动态调度系统据此为前辆智能体车辆做决策。
[0131]
表示时间片t内智能体车辆k是否首次启用,若是首次启用则值为1且此时
的值加1,否则值为0。j
k,t,i
表示时间片t内智能体车辆k的各基本动作,具体处理时以热独编码处理,故此处以站点个数大小的一维张量形式表示,若某站点处于该基本动作空间内,则其对应的索引位置值为1,否则为0。表示时间片t内智能体车辆k的各等待状态,其与j
k,t,i
匹配,即j
k,t,i
中任一位置处的可选动作,在里对应索引处都有其等待状态,若其值为1则车辆需等待且此时动态调度系统会在对应的路径中记录其等待一个时间片长度,若下一时间片仍等待则等待时间累加一个时间片长度,直至值为0则出发。表示智能体车辆k在时间片t内的各拒单状态,亦与j
k,t,i
匹配,其值为表示对应动作下的拒单个数。
[0132]at,k
表示时间片t内智能体车辆k的局部动作;表示时间片t内车辆k到达站点i时的上车乘客数;表示时间片t内车辆k到达站点i时的下车乘客数;表示时间片t内车辆k到达站点i时静态订单的上车包裹件数;表示时间片t内车辆k到达站点i时的下车包裹件数。表示时间片t内车辆k采取动作到站点i后的接取时间;表示时间片t内车辆k上所有车上订单到送达站点为j的最早送达时间。
[0133]
状态转移作为获取环境奖励的关键步骤,在各智能体车辆做完决策后即开展。车辆状态根据式(22)-(26)来更新,订单信息p
t
以之做更新。更新公式为:
[0134][0135][0136][0137][0138][0139]
式中,a
t,k
表示时间片t内智能体车辆k的局部动作;u
t+1,k
表示在时间片t+1内第k辆车的任务状态;x
t+1,k
表示时间片t+1内第k辆车当前任务的出发时间片序号;表示智能体车辆k在时间片t内下一任务完成时需运行的直达距离;w
t+1,k
表示表示在时间片t+1内第k辆车到达下一动作站点的时间;表示在时间片t+1内第k辆车的载客状态;表示智能体车辆k在时间片t内采取动作a
t,k
后的上车乘客数;表示智能体车辆k在时间片t内采取动作a
t,k
后的下车乘客数;h
t+1,k
表示在时间片t+1内第k辆车的载货状态;
表示智能体车辆k在时间片t内采取动作a
t,k
后的上车包裹数;表示智能体车辆k在时间片t内采取动作a
t,k
后的下车包裹数。
[0140]
式(22)表示智能体车辆位置的状态转移,其确保车辆状态的实时更新;式(23)表示智能体车辆当前任务完成时间的状态转移,以实时判断其是否进入下一决策阶段;式(24)和式(25)分别表示智能体车辆当前载客量与载货量的状态转移,以满足载重量约束;式(26)表示智能体车辆当前任务出发时间的状态转移,若是不满足出发条件则采取等待动作。
[0141]
在强化学习框架中,奖励函数作为迭代优化的关键要素,其设置对结果的优化起到至关重要的作用,具体运营过程中,可主要按照各成本函数来判定,故可将之定义为:
[0142]rt
=r(s
t+1
|s
t
)=∑
k∈k
[r(s
t,k
,a
t,k
)+r1(s
t,k
,a
t,k
)+r2(s
t,k
,a
t,k
)+r3(s
t,k
,a
t,k
)+r4(s
t,k
,a
t,k
)]
ꢀꢀ
(27)
[0143][0144][0145][0146][0147][0148]
式中,s
t+1
表示时间片t+1内的全局状态;r(s
t+1
|s
t
)表示状态s
t
转移到状态s
t+1
时所产生的奖励;r(s
t,k
,a
t,k
)表示车辆k在时间片t内采取动作后所带来的运行奖励(运行成本的负值)。表示单辆车固定成本;表示单位里程成本;表示订单延误惩罚成本系数;表示拒单惩罚成本系数;δw表示站点等待惩罚成本系数;表示时间片t内车辆k的车上订单集合;δ
t
表示时间灵活性惩罚成本系数。
[0149]
在实际的运营过程中,运行成本可分为单个车辆的固定成本和里程成本,前者包含车辆折旧费用及驾驶员的薪资费用,后者则主要指燃料成本(油车的燃油费或者电车的耗电额)。本模型所研究的重点在于路径规划,且所采用的集中式训练分布式执行(centralized training with discentral execution,ctde)方式需要提前设定神经网络的大小,故总车辆数提前预设为车场车辆数,动态调度系统会依据订单情况派车,只有进入运营状态的才会计算其运行成本。
[0150]
r1(s
t,k
,a
t,k
)表示车辆k在时间片t内采取动作后导致订单未按时送达的奖励(单位惩罚成本乘以人数乘以超出时间长度所得结果的负值);r2(s
t,k
,a
t,k
)表示车辆k在时间片t内采取动作后所带来的拒单奖励(拒单惩罚成本的负值);r3(s
t,k
,a
t,k
)表示车辆k在时间片t内进行时空灵活性处理后所带来的时空灵活性调整奖励(时空灵活性惩罚成本的负值),其体现为对乘客票价的让渡,如单个乘客在时间上每做一分钟的时间灵活性调整,都可以享受|δ
t
|元的票价优惠(空间灵活性类似);r4(s
t,k
,a
t,k
)表示车辆k在时间片t内于站点等待的奖励;r
t
表示时间片t内的总奖励(站点等待惩罚成本的负值)。
[0151]
基于多智能体强化学习中的qtran_alt算法求解马尔科夫决策过程模型,具体为:
[0152]
如图2所示,动态调度系统对联合动作a
t-1
做出反馈,得到全局状态s
t
和总奖励r
t

其在qtran_alt框架下进行值分解得到各智能体车辆k的局部奖励r
t,k
。智能体车辆k在局部状态s
t,k
下再通过qtran_alt框架做出局部动作a
t,k
,所有的局部动作组成联合动作a
t
,进而与动态调度系统做下一步交互,循环迭代直至运营周期结束。
[0153]
局部状态s
t,k
和局部动作a
t,k
会输入到qtran_alt框架中以式(33)-(35)训练损失函数l
td
、l
opt
及l
nopt
,进而反向传播更新到qtran_alt框架中迭代提升。
[0154]
损失函数l
td
、l
opt
及l
nopt
为:
[0155][0156][0157][0158]
式中,a
t
表示时间片t内的联合动作;r
t
表示时间片t内的总奖励;θ表示神经网络参数;q
ρt
表示联合动作价值函数;r
dqn
表示实际的动作价值;γ表示奖励的折扣系数;表示时间片t+1内的联合最优动作;θ-表示目标网络参数;l
td
表示拟合联合动作总奖励函数的损失函数;q`
ρt
表示智能体动作价值函数;表示时间片t内的联合最优动作;表示以目标q网络方式固定的联合动作价值函数;v
ρt
表示修正动作价值函数;l
opt
和l
nopt
表示拟合修正动作价值函数v
ρt
的损失函数。
[0159]
损失函数l
td
用来拟合联合动作与环境进行交互而获取总奖励的函数q
ρt
,故其为实际的动作价值r
dqn
和当前网络计算出的动作价值q
ρt
(s
t
,a
t
)之间的差值平方;l
opt
和l
nopt
均用来拟合v
ρt
,v
ρt
本就是修正联合动作价值函数q
ρt
和各智能体动作价值函数之和q’ρt
的函数,加之qtran_alt算法采用了目标q网络的方式,故此处以的值和q’ρt
的差值平方来增强学习平稳率,逐步降低误差至0,从而拟合到更为准确的v
ρt
(s
t
),drt动态调度系统便可据此找到当前情况下各智能体车辆的最优路径。
[0160]
下面通过具体实施例对本发明适用于客货联运的灵活公交动态调度方法进行详细说明。
[0161]
实施例1
[0162]
如图4所示,实施例1运营环境共有24个节点,为匹配实际的运行情况以检验动态调度系统的性能,设置了中间站点0为车场,站点13为分拣中心,将5个站点设为快递站点(站点2、8、11、21、22),其余站点均为公交站点,其中路径长度单位为百米。为进一步符合实际情况,将9个站点设为中央商务区(central business district,cbd)站点(站点0、7、8、9、10、12、13、15、16),其包含公交站点和快递站点,在cbd站点范围内的客货订单需求会更多。
[0163]
整个运营周期总时长为3个小时(9:00—12:00),单个时间片的长度为10分钟,智能体车辆的总数为10,其平均运行速度为20km/h。其中,drt动态调度系统会根据当前运行环境中的订单数量来实时派车,只有drt车辆从车场出发前去服务订单才算进入运行环境,此时相应地增加该车辆的固定成本。实施例1的相关模型参数如表2所示。
[0164]
表2实施例1相关模型参数
[0165][0166][0167]
相比于客货联运模式,只响应乘客订单的模式仍旧用到了6辆车,在总成本上达到了4835.5元,比前者略高了1.95%。在服务率上,只响应乘客订单的模式能够完全服务所有的乘客订单,其值达到100.00%,比客货联运模式高了3.84%,但订单数量上也就是多服务了1个订单而已。乘客订单的平均延误时间和延误率倒是几乎一致,差值分别控制在0.05min和0.46%以内。
[0168]
综合来看,客货联运模式在总成本增长了1.95%的范围内,保证延误情况不受过大影响,额外服务了乘客订单量50%的货物订单,极大地提高了drt车辆的利用率。虽然订单的服务率上,加了货物订单后,其值由100.00%略下降到96.30%,但在本实施例中其差距为一个订单。在相同的运营环境下,动态调度系统求解到的客货联运模式最优路径结果和只响应乘客订单模式的最优路径结果示例分别如表3和表4所示。
[0169]
表3实施例1客货联运最优求解结果
[0170][0171][0172]
表4实施例1只响应乘客订单的最优求解结果
[0173][0174]
实施例2
[0175]
广州市黄埔区总面积480.56平方公里,下辖16个街道和1个镇,交通需求密度较小,适宜drt实施;同时具备大型物流分拣中心和众多快递点,2021年全区交通运输仓储和邮政业营收收入554.92亿元,同比增长20.4%,在货运方面有良好的设施基础,但同时也面临前述货车限行、快递公司收发车频次低的问题,全区货运动态调度系统尚待进一步降本增效。
[0176]
实施例2选取黄埔区南部区域,结合现有公交站点、物流分拣中心、快递站点及车场的实际情况进行需求响应客货联运实际实施例求解(站点详情见下段)。其中,货运部分主要是drt企业与京东物流合作进行,分拣中心选取“京东华南第一物流中心”的分拣部,各快递点也为所选区域中实际支持京东快递服务的站点。广州市黄埔区南部区域中,以广园快速路为界,快速路以南居民区较多,市民出行需求密度较大,快速路以北则工业区居多,市民出行需求较少。结合实际情况,选取了1个车场、1个分拣中心、22个公交站点及16个快递站点,其中快递站点也自带公交站点属性,允许乘客上下车。
[0177]
实施例2中,以整天为运营周期,其长度定为10小时(8:30——18:30)。时间片长度照样设为10分钟,其符合动态调度系统的决策节奏与乘客的等待容忍限度。考虑到黄埔区的实际道路情况和车辆运行限速等因素,drt车辆的平均运行速度设为30km/h。车场中的总车辆数还是10辆,同样地,drt动态调度系统会根据当前运行环境中的订单数量来实时派车,只有车从车场出发前去服务订单才算进入运行环境,此时相应地增加该车辆的固定成本。其余参数与实施例1一致。实施例2的最优求解结果如表5所示。
[0178]
表5实施例2的最优求解结果
[0179][0180]
综上所述,本发明具有以下优点和有益效果:
[0181]
本发明通过建立马尔科夫决策过程模型,解释drt动态调度系统灵活公交客货联运调度问题,基于滚动时域框架灵活处理动态订单,以动态调度系统总成本最少为目标,采用多智能体强化学习中的qtran_alt算法求解,以期获得更低动态调度系统总成本的解,从而完成灵活公交客货联运调度。本发明不仅可以降低运营成本,还能够提升交通运输效率,同时算法具有良好的特性,具有较强的实际应用前景。
[0182]
上述说明是针对本发明较佳可行实施例的详细说明,但实施例并非用以限定本发明的专利申请范围,凡本发明所揭示的技术精神下所完成的同等变化或修饰变更,均应属于本发明所涵盖专利范围。

技术特征:
1.一种适用于客货联运的灵活公交动态调度方法,其特征在于,包括以下步骤:基于滚动时域框架建立马尔科夫决策过程模型,通过马尔科夫决策过程模型解释drt动态调度系统灵活公交客货联运调度问题;将调度环境信息抽象为强化学习各要素,将灵活公交车辆抽象为智能体,根据动态调度特性设计适配马尔科夫决策过程模型的收益函数;以总成本最少为优化目标,基于多智能体强化学习中的qtran_alt算法求解马尔科夫决策过程模型,完成灵活公交客货联运调度。2.根据权利要求1所述的适用于客货联运的灵活公交动态调度方法,其特征在于,建立马尔科夫决策过程模型,具体为:依据滚动时域框架将运营周期划分为等长的时间片t={t|t=1,2,

,|t|},在每个时间片的固定位置对各智能体车辆做决策,以实现实时响应;定义马尔科夫决策过程模型的假设条件、参数变量、状态、约束条件、动作及状态转移;马尔科夫决策过程模型的假设条件为:车辆保持匀速行驶;乘客在出发时间窗内到达出发站点,不存在早到、晚到及不到的情况;货物包裹不严格区分重量体积,综合重量和体积按标准件“件数”计;乘客下单后不会自行取消订单,且均能等待至动态调度系统反馈信息;状态分为全局环境状态和局部车辆状态,定义为:状态分为全局环境状态和局部车辆状态,定义为:式中,表示全局环境信息,表示局部车辆集合,t表示时间片序号,k表示车辆集合,k表示车辆编号;p表示订单基础信息;p
t
表示时间片t中的订单状态信息;表示时间片t内全局环境状态;表示时间片t内局部车辆状态,其值为σ
k∈k
s
t,k
,s
t,k
表示时间片t内车辆k的状态;w
t,k
表示在时间片t内第k辆车到达下一动作站点的时间,若其值处于当前时间片内,则说明已到达下一站点,第k辆车在下一时间片可做决策,否则需跳过当前决策阶段,待其先完成当前任务再决策;u
t,k
表示在时间片t内第k辆车的任务状态,以站点编号计,包括无任务、有任务,若其值为0,则表示该智能体车辆回车场;若值为非车场站点编号,表示其有任务,此时需根据w
t,k
及t联合判断;表示在时间片t内第k辆车的载客状态;h
t,k
表示在时间片t内第k辆车的载货状态;x
t,k
为第k辆车当前任务的出发时间片序号,依当前站点到下一站点的距离而定,其默认值为0:若t小于x
t,k
,则当前车辆在站点i等待;若t等于x
t,k
,则当前车辆开始运行;灵活公交客货联运马尔科夫决策过程模型的约束条件为:灵活公交客货联运马尔科夫决策过程模型的约束条件为:
式中,表示时间片t内车辆k到达站点j时的上车乘客数;表示时间片t内车辆k到达站点j时静态订单的上车乘客数;表示时间片t内车辆k到达站点j时动态订单的上车乘客数;表示时间片t内车辆k在站点j服务的乘客静态订单集合;m
n
表示订单n的容量;表示时间片t内车辆k在站点j响应的乘客动态订单集合;表示车辆k在时间片t内拒绝站点j的动态订单n时,否则i表示站点集合;m
t,k
表示时间片t内车辆k的载客量;m
t-1,k
表示时间片t-1内车辆k的载客量;表示时间片t内车辆k到达站点j时的下车乘客数;表示时间片t内车辆k到达站点j时的上车乘客数;x
t,k,i,j
表示车辆k在时间片t内已经跑完从站点i到站点j的决策路径时,x
t,k,i,j
=1;否则x
t,k,i,j
=0;m表示车辆容量,t表示时间,其绝对值表示时间片总个数;表示时间片t内车辆k到达站点j时静态订单的上车包裹件数;表示时间片t内车辆k到达站点j时静态订单的上车包裹件数;表示时间片t内车辆k到达站点j时动态订单的上车包裹件数;表示时间片t内车辆k在站点j服务的货物静态订单集合;表示时间片t内车辆k在站点j服务的货物动态订单集合;表示时间片t内车辆k的载货量;表示时间片t-1内车辆k的载货量;表示时间片t内车辆k到达站点j时的下车包裹件数;m
g
表示车辆额定货物容量;z
i,j
表示从站点i到站点j的车辆直达距离;ψ表示车辆的平均速度;表示车辆k在时间
片t内采取等待动作时,否则h表示单个时间片间隔;表示乘客订单n的最早出发时间;表示订单n的实际接取时间,默认值为0;表示乘客订单n的最晚出发时间;表示乘客静态订单集合;表示乘客动态订单集合;表示车辆到达订单n出发站点的时间,默认值为0;表示订单n的出发站点,表示车辆接取订单n前在订单n出发站点的等待时间;表示订单n的实际送达时间,默认值为0;α表示在途时间余度系数;表示订单n的出发站点,表示乘客订单n的出发站点到送达站点的车辆直达距离;表示送达时间的优化限度;表示货物静态订单集合;表示货物动态订单集合;表示货物订单n的全服务时间窗下界;表示货物订单n的全服务时间窗上界;表示乘客动态订单n的初始最早出发时间;σ
t
表示时间灵活性调整限度;表示乘客动态订单n的初始出发站点,表示乘客订单n做时空灵活性调整前后的出发站点车辆直达距离;σ
z
表示空间灵活性调整限度;在约束条件中,式(3)-(8)为车辆载重量约束,表示车辆在任何时刻的载客/载货量都不能超过车辆的额定乘客/货物容量;式(9)为运行时间约束,表示每个服务订单均需在运营周期内完成;式(10)-(11)为乘客订单的出发时间窗约束,表示乘客订单的接取时间需满足其对应的出发时间窗;式(12)为在途时间约束,即乘客订单的在途时间需在直达时间的一定倍数以内,考虑到强化学习的特性,此处设置一个优化限度式(13)-(14)为货物订单的全服务时间窗约束,表示货物订单只需在全服务时间窗内取送货即可,并无严格的接取/送达时间约束;式(15)-(16)表示时空灵活性调整约束,对于可做时空灵活性调整的订单,其调整范围不得超过一定的时间/空间限度;各智能体车辆的动作则分为基本动作空间和可行动作空间,表示为:各智能体车辆的动作则分为基本动作空间和可行动作空间,表示为:各智能体车辆的动作则分为基本动作空间和可行动作空间,表示为:各智能体车辆的动作则分为基本动作空间和可行动作空间,表示为:各智能体车辆的动作则分为基本动作空间和可行动作空间,表示为:式中,a
t
(s
t
)表示时间片t内智能体车辆k的基本动作空间;表示时间片t内智能体车辆k的可行动作空间,式(19)-(21)表示可行动作空间的约束条件;s
t
时间片t内的全局状态;s
t,k
表示时间片t内智能体车辆k的局部状态;θ
tc
为时间片t内各车辆启用状态,其初始值为0,因车队严格按编号先后顺序派车,一旦有车辆启用则θ
tc
的值加1,故任一时刻θ
tc
的数值表示动态调度系统中运行的车辆数,动态调度系统据此为前θ
tc
辆智能体车辆做决策;
表示时间片t内智能体车辆k是否首次启用,若是首次启用则值为1且此时θ
tc
的值加1,否则值为0;j
k,t,i
表示时间片t内智能体车辆k的各基本动作,具体处理时以热独编码处理,故此处以站点个数大小的一维张量形式表示,若某站点处于该基本动作空间内,则其对应的索引位置值为1,否则为0;表示时间片t内智能体车辆k的各等待状态,其与j
k,t,i
匹配,即j
k,t,i
中任一位置处的可选动作,在里对应索引处都有其等待状态,若其值为1则车辆需等待且此时动态调度系统会在对应的路径中记录其等待一个时间片长度,若下一时间片仍等待则等待时间累加一个时间片长度,直至值为0则出发;表示智能体车辆k在时间片t内的各拒单状态,亦与j
k,t,i
匹配,其值为表示对应动作下的拒单个数a
t,k
表示时间片t内智能体车辆k的局部动作;表示时间片t内车辆k到达站点i时的上车乘客数;表示时间片t内车辆k到达站点i时的下车乘客数;表示时间片t内车辆k到达站点i时静态订单的上车包裹件数;表示时间片t内车辆k到达站点i时的下车包裹件数;表示时间片t内车辆k采取动作到站点i后的接取时间;表示时间片t内车辆k上所有车上订单到送达站点为j的最早送达时间;状态转移作为获取环境奖励的关键步骤,在各智能体车辆做完决策后即开展,车辆状态根据公式(22)-(26)来更新,订单信息以之做更新,更新公式为:(26)来更新,订单信息以之做更新,更新公式为:(26)来更新,订单信息以之做更新,更新公式为:(26)来更新,订单信息以之做更新,更新公式为:(26)来更新,订单信息以之做更新,更新公式为:式中,a
t,k
表示时间片t内智能体车辆k的局部动作;u
t+1,k
表示在时间片t+1内第k辆车的任务状态;x
t+1,k
表示时间片t+1内第k辆车当前任务的出发时间片序号;表示智能体车辆k在时间片t内下一任务完成时需运行的直达距离;w
t+1,k
表示表示在时间片t+1内第k辆
车到达下一动作站点的时间;表示在时间片t+1内第k辆车的载客状态;表示智能体车辆k在时间片t内采取动作a
t,k
后的上车乘客数;表示智能体车辆k在时间片t内采取动作a
t,k
后的下车乘客数;h
t+1,k
表示在时间片t+1内第k辆车的载货状态;表示智能体车辆k在时间片t内采取动作a
t,k
后的上车包裹数;表示智能体车辆k在时间片t内采取动作a
t,k
后的下车包裹数;式(22)表示智能体车辆位置的状态转移,其确保车辆状态的实时更新;式(23)表示智能体车辆当前任务完成时间的状态转移,以实时判断其是否进入下一决策阶段;式(24)和式(25)分别表示智能体车辆当前载客量与载货量的状态转移,以满足载重量约束;式(26)表示智能体车辆当前任务出发时间的状态转移,若是不满足出发条件则采取等待动作。3.根据权利要求2所述的适用于客货联运的灵活公交动态调度方法,其特征在于,根据动态调度特性设计适配马尔科夫决策过程模型的收益函数,具体为:在强化学习框架中,奖励函数作为迭代优化的关键要素,其设置对结果的优化起到至关重要的作用,具体运营过程中按照各成本函数来判定,将适配马尔科夫决策过程模型的收益函数定义为:r
t
=r(s
t+1
|s
t
)=∑
k∈k
[r(s
t,k
,a
t,k
)+r1(s
t,k
,a
t,k
)+r2(s
t,k
,a
t,k
)+r3(s
t,k
,a
t,k
)+r4(s
t,k
,a
t,k
)]
ꢀꢀꢀ
(27)(27)(27)(27)(27)式中,s
t+1
表示时间片t+1内的全局状态;r(s
t+1
|s
t
)表示状态s
t
转移到状态s
t+1
时所产生的奖励;r(s
t,k
,a
t,k
)表示车辆k在时间片t内采取动作后所带来的运行奖励;r1(s
t,k
,a
t,k
)表示车辆k在时间片t内采取动作后导致订单未按时送达的奖励;r2(s
t,k
,a
t,k
)表示车辆k在时间片t内采取动作后所带来的拒单奖励;r3(s
t,k
,a
t,k
)表示车辆k在时间片t内进行时空灵活性处理后所带来的时空灵活性调整奖励;r4(s
t,k
,a
t,k
)表示车辆k在时间片t内于站点等待的奖励;r
t
表示时间片t内的总奖励;表示单辆车固定成本;表示单位里程成本;表示订单延误惩罚成本系数;表示拒单惩罚成本系数;δ
w
表示站点等待惩罚成本系数;表示时间片t内车辆k的车上订单集合;δ
t
表示时间灵活性惩罚成本系数。4.根据权利要求3所述的适用于客货联运的灵活公交动态调度方法,其特征在于,基于多智能体强化学习中的qtran_alt算法求解马尔科夫决策过程模型,具体为:动态调度系统对联合动作a
t-1
做出反馈,得到全局状态s
t
和总奖励r
t
,其在qtran_alt框架下进行值分解得到各智能体车辆k的局部奖励r
t,k
;智能体车辆k在局部状态s
t,k
下再通过qtran_alt框架做出局部动作a
t,k
,所有的局部动作组成联合动作a
t
,进而与动态调度系统
做下一步交互,循环迭代直至运营周期结束;局部状态s
t,k
和局部动作a
t,k
会输入到qtran_alt框架中以式(33)-(35)训练损失函数l
td
、l
opt
及l
nopt
,进而反向传播更新到qtran_alt框架中迭代提升;损失函数l
td
、l
opt
及l
nopt
分别表示为:分别表示为:分别表示为:式中,a
t
表示时间片t内的联合动作;r
t
表示时间片t内的总奖励;θ表示神经网络参数;q
ρt
表示联合动作价值函数;r
dqn
表示实际的动作价值;γ表示奖励的折扣系数;表示时间片t+1内的联合最优动作;θ-表示目标网络参数;l
td
表示拟合联合动作总奖励函数的损失函数;q`
ρt
表示智能体动作价值函数;表示时间片t内的联合最优动作;表示以目标q网络方式固定的联合动作价值函数;v
ρt
表示修正动作价值函数;l
opt
和l
nopt
表示拟合修正动作价值函数v
ρt
的损失函数。

技术总结
本发明公开了一种适用于客货联运的灵活公交调度方法,包括以下步骤:基于滚动时域框架建立马尔科夫决策过程模型,通过马尔科夫决策过程模型解释灵活公交客货联运动态调度问题;将调度环境信息抽象为强化学习各要素,将灵活公交车辆抽象为智能体,根据动态调度特性设计出适配马尔科夫决策过程模型的收益函数;以动态调度系统总成本最少为优化目标,基于多智能体强化学习算法中的Qtran_alt框架求解,从而完成灵活公交客货联运调度。本发明基于滚动时域框架灵活处理动态订单,采用多智能体强化学习中的Qtran_alt算法求解模型,以期获得更低系统总成本的解。本发明不仅可以降低运营成本,还能够提升交通运输效率,同时算法具有良好的特性,具有较强的实际应用前景。具有较强的实际应用前景。具有较强的实际应用前景。


技术研发人员:巫威眺 周霄 卢凯 张泽岳
受保护的技术使用者:华南理工大学
技术研发日:2023.06.16
技术公布日:2023/10/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

评论

相关推荐