一种基于强化学习的毫米波车联网智能通信波束调节方法
未命名
10-21
阅读:91
评论:0
1.本发明属于车联网通信技术领域,特别涉及一种智能通信波束调节技术。
背景技术:
2.毫米波指的是频率范围在30ghz到300ghz的电磁波,其频率较高,可用的频谱资源丰富,可以提供较高的吞吐量。由于毫米波频率较高,路径损耗严重,因此毫米波通信系统的发射机和接收机处会布设大量天线,利用波束成形技术将毫米波的能量集中在特定方向,提升天线增益,抵抗路径损耗,因此毫米波通信具有定向性。由于毫米波定向性的特点,不同于全向通信,基于毫米波的通信系统面临着波束对准,波束管理的挑战。
3.车联网指的是车辆与车辆、基础设施、行人、路边单元、云计算中心等建立的网络,通过传递导航信息、位置信息、路况信息、娱乐信息、计算数据等,为网络的使用者提供服务。
4.车联网现有的专用短程通信技术(dedicated short range communication,dsrc)和基于蜂窝移动网络的车联技术(long term evolution-vehicle to everything,lte-v2x)分别支持的27mbps和100mbps速率,远远不能满足大型传感信息、新型宽带业务的传输,因此考虑将毫米波引入车联网。然而,毫米波高路径损耗,定向性的特点,使得毫米波车联网的波束调节存在诸多挑战。基于定向性的特点,毫米波链路波束宽度的调整将影响到诸多的系统性能。例如,波束对齐难度、波束服务时间、增益、干扰情况、天线元件使用等。为了优化车联网系统的总体传输能力,波束宽度的调整是不可忽视的一环。
5.然而现有的毫米波车联网v2i场景下的通信波束调节研究大多假设波束宽度固定,或调整波束宽度时缺乏对业务和其他资源的关注,系统的传输能力还有很大的优化空间。例如,王佳豪提出了一种非均匀的毫米波基站波束优化方案,指出了波束宽度与其在道路上投影点距离有关,通过优化各扇区的波束宽度,提升车辆驶过基站覆盖范围内的下行传输速率,但未考虑功率的联合优化,也未考虑波束宽度调整与业务的关系。智能算法在解决非凸优化问题上的表现优于传统算法,在波束调节方面被广泛应用,如yan l等人利用低频获取的信道状态信息预测车辆位置进行目标发现,并利用机器学习算法解决车辆运行过程中与基站切换和波束切换问题。可见现有研究虽部分提到毫米波波束宽度的调整,但未考虑到波束宽度与基站覆盖范围内用户业务的关系,且部分文章假设了波束与车辆的一一对应关系,未考虑根据车辆下行速率需求较低情况下,由一个波束服务多个车辆的可能,也缺乏对波束宽度、功率的联合调整。
技术实现要素:
6.为解决上述技术问题,本发明提出一种基于强化学习的毫米波车联网智能通信波束调节方法,根据车辆的位置和业务需求决定由一个波束服务单个车辆或多个车辆,并联合了波束宽度调整与功率资源调整,在基站配置的功率资源、天线资源有限的情况下调整各波束的宽度及功率配置,达到在满足车辆业务需求、天线元件数量限制的情况下优化系
统下行吞吐量的目的。
7.本发明采用的技术方案为:一种基于强化学习的毫米波车联网智能通信波束调节方法,包括如下步骤:
8.s1、车辆请求阶段,车辆与基站关联,并上报其下行业务需求、位置信息;
9.s2、决策阶段,基站根据其覆盖范围内车辆上报的业务需求进行通信波束调节,决定生成波束的具体方向及宽度,及各波束的发射功率,生成资源管理决策;具体包括以下分步骤;
10.s21、调用第一层强化学习网络进行车辆分组,具体的:
11.s211、每个回合基站根据车辆位置,按照45
°
的扇区宽度对车辆进行初始分组;
12.s212、根据当前分组状态,调用第一层强化学习网络,选择车辆分组调整的动作,并在环境中执行动作,到达下一车辆分组状态;
13.s213、将步骤s212得到的下一车辆分组状态输入第二层强化学习网络,获得第一奖励;
14.s214、将第一层强化学习网络状态转移过程中的状态变化、动作、奖励形成的四元组存储于第一经验回放池,从第一经验回放池中抽取样本训练第一层强化学习网络;
15.s215、若找到满足基站覆盖范围内车辆业务需求的车辆分组及波束宽度功率管理方案或回合迭代次数达到预设,则本回合结束;否则,转到s212;
16.s22、调用第二层强化学习网络进行波束宽度功率联合调整,具体的:
17.s221、每个回合根据步骤s213的分组状态,获得各分组最小波束宽度,平均分配各分组的功率,作为初始状态;
18.s222、根据当前波束宽度功率管理状态,调用第二层强化学习网络,选择波束宽度功率联合调整的动作,并在环境中执行动作,到达下一波束宽度功率管理状态;
19.s223、根据下一波束宽度功率管理状态获得第二奖励,对于不符合限制因素的状态,奖励设置为负;否则奖励设置为该分组该波束宽度功率配置下达到的下行系统吞吐量;
20.s224、将第二层强化学习网络状态转移过程中的状态变化、动作、奖励形成的四元组存储于第二经验回放池,从第二经验回放池中抽取样本训练第二层强化学习网络;
21.s225、若找到满足基站覆盖范围内车辆业务需求的车辆分组及波束宽度功率管理方案或回合迭代次数达到预设,则本回合结束;否则,转到步骤s222;
22.s3、在数据通信阶段,按照收敛后的第一层强化学习网络得到的资源管理决策进行波束对准及资源分配后,进行数据传输。
23.本发明的有益效果:本发明的方法应用于v2i场景下,基站可作为车辆的集中管理器,可获得车辆基本信息,如:车辆位置、速度、业务需求等,集中地调度毫米波波束的下行配置策略,调整毫米波波束的对准、宽度及发射功率。本发明考虑了毫米波波束宽度、功率配置对波束对齐时间、下行传输速率的影响,考虑了波束宽度对天线元件使用的影响以及车辆业务需求与波束宽度的关系,将系统吞吐量优化问题分解为车辆分组问题和波束宽度功率联合调整问题。在车辆分组问题中,根据车辆不同业务对下行速率需求的差异及车辆的位置进行车辆的分组,决定波束与分组的对应关系。在波束宽度功率联合调整问题中,将天线元件数量、基站总发射功率及用户业务需求作为限制条件,调整各分组波束宽度、功率配置,最大化系统吞吐量。
附图说明
24.图1为强化学习网络结构;
25.图2为毫米波波束理论图;
26.图3为毫米波车联网v2i场景图;
27.图4为本发明的方案流程图。
具体实施方式
28.为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
29.本发明提出的基于强化学习的毫米波车联网智能通信波束调节方法,采用两层强化学习方案,两层强化学习算法均采用深度确定性策略梯度算法(deep deterministic policy gradient,ddpg),网络结构上无差别,网络结构图见图1。第一层算法首先确定车辆分组方案,将分组方案传递给第二层强化学习网络。第二层算法在天线资源受限、基站总功率有限、车辆业务需求不同的情况下,对各波束宽度、功率进行联合细化调整,以寻找到一种满足所有用户业务需求并尽可能提升系统吞吐量的策略,并将收益反馈给第一层强化学习网络,以评价第一层波束选择方案的价值,最终给出最优化系统下行吞吐量的车辆分组及各分组的波束宽度与功率配置方案。
30.为了探讨毫米波波束宽度对系统性能的影响,将图2所示的毫米波波束建模为图3。
31.波束宽度与天线增益的关系为τ={t,r},t表示发射天线,r表示接收天线,i表示毫米波波束i,为波束的宽度,本实施例中取值为3db,θ表示波束偏角,即收发节点连线与发射/接收波束主瓣中心线的夹角。毫米波链路信干扰比与天线增益直接相关p
it
为发射功率,gi为链路增益等于路径损耗的倒数,和分别为发射和接收天线增益n0为噪声的功率谱密度,b为链路带宽,n为系统中毫米波波束个数。实际用于传输的时间是调度周期时间减掉请求阶段tr、决策阶段td、波束对准阶段ta后剩余的时间,因请求阶段和决策阶段为定值,所以影响实际传输时间的阶段只有波束对准阶段,而波束宽度只与波束对齐阶段时间有关,为t
p
为导频传播时间,ψi为扇区宽度。则可用信息传输时间为:ts=t-t
r-t
d-t
ia
=t
t-t
ia
。毫米波链路的信道容量为波束宽度与天线元件使用数量ai的关系为,的关系为,表示向上取整。
32.综上波束宽度越窄,增益越大,对齐时间越大,天线元件使用越多,因此在天线元件配置数量有限时,过窄的波束可能导致天线资源的不足,过宽的波束可能导致天线增益
的不足,在基站可以产生多个毫米波波束的情况下,权衡各波束宽度配置,并结合功率调整,进行联合资源管理,有助于在满足车辆业务需求的情况下,提升系统的吞吐量。
33.波束选择算法的状态、动作、奖励模型如下:
34.(1)车辆分组算法状态模型:
[0035][0036]
状态模型刻画了车辆的分组情况,维度等于车辆数量,group_numi表示车辆i属于的分组的组号。
[0037]
(2)车辆分组算法动作模型
[0038][0039]
动作模型刻画了分组调整情况,维度等于车辆数量,a
i,t
表示车辆i采取的分组调整政策,a
i,t
∈{x1,x2,x3,x4},即有四种可采取动作:
[0040]
动作x1:保持在原分组
[0041]
动作x2:单独成为一个分组
[0042]
动作x3:加入左侧最近车辆所在分组
[0043]
动作x4:加入右侧最近车辆所在分组
[0044]
(3)车辆分组算法奖励模型
[0045][0046]
智能体采取动作后,达到新的状态空间,奖励用于评价转移过程的收益奖励的设置,即评价波束选择结果的好坏。因此,将奖励设置为与该种波束选择方案下,采用波束宽度功率联合调整算法细调后达到的智能体探索到的吞吐量最大值max(r
sum
)相关。若吞吐量最大值为0,代表波束宽度调整算法无法达到限制条件,未探索到合适的调整方案,则奖励设置为u,取值为200。反之奖励为智能体探索到的吞吐量最大值的κ倍,κ取值为10-9
。
[0047]rsum
表示该种波束选择方案下,采用波束宽度功率联合调整算法细调后达到的智能体一次探索(迭代)到的吞吐量值。
[0048]
车辆分组算法流程如下:
[0049]
[0050][0051]
分组的确定,代表了波束的数量、各波束覆盖车辆、波束最小宽度的确定。但最小宽度下的系统总吞吐量不一定是最优的,因此需要在确定波束选择后,调整每个波束的宽度及功率,最大化系统吞吐量。而波束宽度的调整受限于天线元件资源,功率的调整受限于基站总功率,各波束之间的宽度、功率调整,就是对天线资源及功率资源的竞争博弈。下面将介绍基于强化学习的波束宽度功率联合调整算法的状态、动作、奖励模型。
[0052]
(1)波束宽度功率联合调整状态模型:
[0053][0054]
状态模型刻画了分组的波束宽度,维度等于第一步决定的分组数量的两倍,m为分组个数,bw
i,t
表示分组i的波束宽度,pt
i,t
表示分组i的功率。
[0055]
(2)波束宽度功率联合调整动作模型
[0056][0057]
动作模型刻画了分组波束宽度的调整情况,a
i,t
、p
i,t
表示分组i的波束宽度、功率的调整量。
[0058]
(3)波束宽度功率联合调整奖励模型
[0059][0060]
其中v取值为200,ξ取值为10-9
,r
sum
表示当前迭代第二层强化学习网络在目前的波束选择方案下探索到的系统下行吞吐量。对于不符合限制因素的状态,如车辆需求下行速
率不符、天线元件数量不足、总功率超界、波束宽度超过最大限制等。如:天线元件数量设置为256个,若生成该状态下的波束所需天线元件数量超过256,则属于天线元件数量不足;总功率设置为43dbm,若该状态下的各波束分配的功率之和大于43dbm,则属于总功率超界。又如:车辆需求业务的下行速率为1gbps,该状态下波束能为该车辆提供的下行速率仅为0.7gbps,则属于车辆需求下行速率不符。奖励设置为负。否则奖励设置为该分组该波束宽度功率配置下达到的下行系统吞吐量。波束宽度的最大限制即不能大于扇区级波束宽度,又不能覆盖到下一个分组的车辆。
[0061]
波束宽度功率联合调整算法流程如下:
[0062][0063][0064]
本发明的方案流程图如图4所示。
[0065]
本发明的智能通信波束调节方法是基于车辆业务速率需求驱动的,根据车辆的位置和业务需求决定由一个波束服务单个车辆或多个车辆,并联合了波束宽度调整与功率资源调整,在基站配置的功率资源、天线资源有限的情况下调整各波束的宽度及功率配置,达到在满足车辆业务需求、天线元件数量限制的情况下优化系统下行吞吐量的目的。
[0066]
本发明的智能通信波束调节方法使用双层强化学习架构,以求得最优化系统下行吞吐量的车辆分组方式与波束宽度、功率配置方案,两层强化学习之间有着耦合关系,第一层强化学习架构用于解决车辆分组问题,本方法将强化学习动作设计为车辆分组的变化,而不是采用穷举的方式解决车辆分组问题,降低了算法的复杂度。车辆分组的结果,作为第二层架构的输入,决定了第二层状态空间与动作空间的维度,第二层架构用于波束宽度功率的细化调整,并将收敛后的系统最大吞吐量作为奖励评价第一层车辆分组的优劣。
[0067]
强化学习收敛后会以最短的步骤寻找到系统吞吐量最大值的分组及波束宽度功率配置方式,这里收敛后的吞吐量即为公式(3)中的最大吞吐量max(r
sum
)。
[0068]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
技术特征:
1.一种基于强化学习的毫米波车联网智能通信波束调节方法,其特征在于,包括如下步骤:s1、车辆请求阶段,车辆与基站关联,并上报其下行业务需求、位置信息;s2、决策阶段,基站根据其覆盖范围内车辆上报的业务需求进行通信波束调节,决定生成波束的具体方向及宽度,及各波束的发射功率,生成资源管理决策;具体包括以下分步骤;s21、调用第一层强化学习网络进行车辆分组;s22、根据步骤s21得到的车辆分组结果,调用第二层强化学习网络进行波束宽度功率联合调整;并将第二层强化学习网络收敛后得到的当前分组对应的波束宽度功率配置下达到的下行系统吞吐量作为第一层强化学习网络的奖励指标;s3、在数据通信阶段,按照收敛后的第一层强化学习网络得到的资源管理决策进行波束对准及资源分配后,进行数据传输。2.根据权利要求1所述的一种基于强化学习的毫米波车联网智能通信波束调节方法,其特征在于,步骤s21具体包括以下分步骤:s211、每个回合基站根据车辆位置,按照45
°
的扇区宽度对车辆进行初始分组;s212、根据当前分组状态,调用第一层强化学习网络,选择车辆分组调整的动作,并在环境中执行动作,到达下一车辆分组状态;s213、将步骤s212得到的下一车辆分组状态输入第二层强化学习网络,获得第一奖励;s214、将第一层强化学习网络状态转移过程中的状态变化、动作、奖励形成的四元组存储于第一经验回放池,从第一经验回放池中抽取样本训练第一层强化学习网络;s215、若找到满足基站覆盖范围内车辆业务需求的车辆分组及波束宽度功率管理方案或回合迭代次数达到预设,则本回合结束;否则,转到s212。3.根据权利要求2所述的一种基于强化学习的毫米波车联网智能通信波束调节方法,其特征在于,步骤s22具体包括以下分步骤:s221、每个回合根据步骤s213的分组状态,获得各分组最小波束宽度,平均分配各分组的功率,作为初始状态;s222、根据当前波束宽度功率管理状态,调用第二层强化学习网络,选择波束宽度功率联合调整的动作,并在环境中执行动作,到达下一波束宽度功率管理状态;s223、根据下一波束宽度功率管理状态获得第二奖励,对于不符合限制因素的状态,奖励设置为负;否则奖励设置为该分组该波束宽度功率配置下达到的下行系统吞吐量;s224、将第二层强化学习网络状态转移过程中的状态变化、动作、奖励形成的四元组存储于第二经验回放池,从第二经验回放池中抽取样本训练第二层强化学习网络;s225、若找到满足基站覆盖范围内车辆业务需求的车辆分组及波束宽度功率管理方案或回合迭代次数达到预设,则本回合结束;否则,转到步骤s222。4.根据权利要求3所述的一种基于强化学习的毫米波车联网智能通信波束调节方法,其特征在于,第一层强化学习网络训练过程中的奖励设置为:
其中,表示第一层强化学习网络训练过程中的奖励,r
sum
表示当前分组对应的波束宽度功率配置下一次迭代达到的下行系统吞吐量,max(r
sum
)表示各分组对应的波束宽度功率配置下达到的下行系统吞吐量的最大值,u取值为200,κ取值为10-9
。5.根据权利要求4所述的一种基于强化学习的毫米波车联网智能通信波束调节方法,其特征在于,第二层强化学习网络训练过程中的奖励设置为:不符合限制具体包括:车辆需求下行速率不符、天线元件数量不足、总功率超界、波束宽度超过最大限制;v取值为200,ξ取值为10-9
。
技术总结
本发明公开一种基于强化学习的毫米波车联网智能通信波束调节方法,应用于车联网通信技术领域,针对现有的毫米波车联网V2I场景下的通信波束调节研究大多假设波束宽度固定,或调整波束宽度时缺乏对业务和其他资源的关注,系统的传输能力还有很大的优化空间的问题;本发明将系统吞吐量优化问题分解为车辆分组问题和波束宽度功率联合调整问题。在车辆分组问题中,根据车辆不同业务对下行速率需求的差异及车辆的位置进行车辆的分组,决定波束与分组的对应关系。在波束宽度功率联合调整问题中,将天线元件数量、基站总发射功率及用户业务需求作为限制条件,调整各分组波束宽度、功率配置,最大化系统吞吐量。最大化系统吞吐量。最大化系统吞吐量。
技术研发人员:冷甦鹏 刘美 黄晓燕 邓云迪
受保护的技术使用者:电子科技大学
技术研发日:2023.07.12
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
航空商城 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/