车辆的协同控制方法、装置及车辆与流程

未命名 08-29 阅读:113 评论:0


1.本发明涉及车辆热管理和能量管理领域,具体而言,涉及一种车辆的协同控制方法、装置及车辆。


背景技术:

2.电动汽车的热管理与能量管理是保证电动汽车正常行驶的必要技术。其中,电动汽车的热管理是指对车辆的发动机、传动系统、底盘以及乘客舱等设备或系统的热量进行控制和管理,以保证车辆正常运行和乘客的舒适性;车辆的能量管理是指在车辆行驶过程中,对车辆能量的产生、转换、传递和利用进行有效的控制和管理,以保证车辆性能、安全、经济、环保和可靠。
3.通常,在高温环境下,电动汽车的电池温度过高容易导致电池的使用寿命缩短,而在低温环境下,电动汽车的能量存储容量会受到影响从而导致车辆的续航里程减少,为了解决前述问题,现有技术通常对车辆的热管理进行优化控制以延长电池的使用寿命,或者,对车辆的能量管理进行优化控制以降低车辆的能耗和排放、提高车辆的续航里程,然而,现有技术难以实现对车辆的热管理和能量管理进行协同优化控制,从而导致车辆的可靠性和安全性较差。
4.由上分析可知,针对上述相关技术难以兼顾车辆的热管理和能量管理的优化控制导致车辆可靠性和安全性较差的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供了一种车辆的协同控制方法、装置及车辆,以至少解决相关技术难以兼顾车辆的热管理和能量管理的优化控制导致车辆可靠性和安全性较差的技术问题。
6.根据本发明实施例的一个方面,提供了一种车辆的协同控制方法,包括:
7.采用目标协同管理模型对车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,目标协同管理模型用于对车辆进行热管理和能量管理的协同策略优化;按照目标策略控制车辆执行协同管理指令。
8.可选地,目标协同管理模型采用训练样本集通过强化学习训练得到,训练样本集包括:热管理训练数据和能量管理训练数据,车辆的协同控制方法还包括:采用热管理训练数据和能量管理训练数据对初始协同管理模型进行训练,得到样本预测值;利用样本预测值和训练样本集的样本真实值确定训练损失;基于训练损失对初始协同管理模型的模型参数进行优化,得到目标协同管理模型。
9.可选地,车辆的协同控制方法还包括:采用热管理训练数据和能量管理训练数据对初始协同管理模型进行迭代训练,其中,迭代训练的每个迭代轮次得到的目标协同管理模型作为下一迭代轮次的初始协同管理模型;响应于当前迭代轮次中训练损失满足预设条件,结束迭代训练。
10.可选地,采用热管理训练数据和能量管理训练数据对初始协同管理模型进行训练,得到样本预测值包括:基于热管理训练数据和能量管理训练数据中的多个当前状态参数,利用初始协同管理模型预测得到多个经验元组,其中,多个经验元组包括:多个当前状态参数,多个动作参数、多个奖励参数和多个预测状态参数;对多个经验元组进行随机采样,得到采样结果;利用采样结果计算得到样本预测值。
11.可选地,车辆的协同控制方法还包括:根据热管理和能量管理对应的预设物理规则,确定初始协同管理模型对应的强化学习的状态和动作;根据热管理和能量管理对应的协同优化需求,构建强化学习的第一目标函数;根据第一目标函数确定初始协同管理模型对应的强化学习的奖励函数。
12.可选地,预设物理规则至少包括:车辆动力学规则、电池荷电计算规则、空调换热规则和电池能耗计算规则。
13.可选地,协同优化需求包括电池寿命优化需求和电池能耗优化需求,根据协同优化需求,构建强化学习的第一目标函数包括:根据电池寿命优化需求,利用电池的当前电流和电流阈值构建第二目标函数;根据电池能耗优化需求,利用车辆的多个耗电设备的电功率构建第三目标函数;基于第二目标函数、第三目标函数和预设权重系数,确定第一目标函数。
14.可选地,热状态参数为车辆的热管理系统的系统状态参数,热管理系统至少包括以下之一:散热子系统、加热子系统和空调子系统,能量状态参数为车辆的能量管理系统的系统状态参数,能量管理系统至少包括以下之一:电机子系统、发动机子系统、电池子系统和电附件子系统。
15.可选地,采用目标协同管理模型对热状态参数和能量状态参数进行状态分析,生成目标策略包括:采用目标协同管理模型对热状态参数和能量状态参数进行分析预测,得到目标动作参数;基于目标动作参数,生成目标策略。
16.根据本发明实施例的另一方面,还提供了一种车辆的协同控制装置,包括:
17.生成模块,用于采用目标协同管理模型对车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,目标协同管理模型用于对车辆进行热管理和能量管理的协同策略优化;控制模块,用于按照目标策略控制车辆执行协同管理指令。
18.可选地,目标协同管理模型采用训练样本集通过强化学习训练得到,训练样本集包括:热管理训练数据和能量管理训练数据,车辆的协同控制方法还包括:第一训练模块,用于采用热管理训练数据和能量管理训练数据对初始协同管理模型进行训练,得到样本预测值;利用样本预测值和训练样本集的样本真实值确定训练损失;基于训练损失对初始协同管理模型的模型参数进行优化,得到目标协同管理模型。
19.可选地,车辆的协同控制方法还包括:第二训练模块,用于采用热管理训练数据和能量管理训练数据对初始协同管理模型进行迭代训练,其中,迭代训练的每个迭代轮次得到的目标协同管理模型作为下一迭代轮次的初始协同管理模型;响应于当前迭代轮次中训练损失满足预设条件,结束迭代训练。
20.可选地,上述第二训练模块还用于:基于热管理训练数据和能量管理训练数据中的多个当前状态参数,利用初始协同管理模型预测得到多个经验元组,其中,多个经验元组包括:多个当前状态参数,多个动作参数、多个奖励参数和多个预测状态参数;对多个经验
元组进行随机采样,得到采样结果;利用采样结果计算得到样本预测值。
21.可选地,车辆的协同控制方法还包括:确定模块,用于根据热管理和能量管理对应的预设物理规则,确定初始协同管理模型对应的强化学习的状态和动作;根据热管理和能量管理对应的协同优化需求,构建强化学习的第一目标函数;根据第一目标函数确定初始协同管理模型对应的强化学习的奖励函数。
22.可选地,上述确定模块还用于:预设物理规则至少包括:车辆动力学规则、电池荷电计算规则、空调换热规则和电池能耗计算规则。
23.可选地,上述确定模块还用于:协同优化需求包括电池寿命优化需求和电池能耗优化需求,根据协同优化需求,构建强化学习的第一目标函数包括:根据电池寿命优化需求,利用电池的当前电流和电流阈值构建第二目标函数;根据电池能耗优化需求,利用车辆的多个耗电设备的电功率构建第三目标函数;基于第二目标函数、第三目标函数和预设权重系数,确定第一目标函数。
24.可选地,上述生成模块还用于:热状态参数为车辆的热管理系统的系统状态参数,热管理系统至少包括以下之一:散热子系统、加热子系统和空调子系统,能量状态参数为车辆的能量管理系统的系统状态参数,能量管理系统至少包括以下之一:电机子系统、发动机子系统、电池子系统和电附件子系统。
25.可选地,上述生成模块还用于:采用目标协同管理模型对热状态参数和能量状态参数进行状态分析,生成目标策略包括:采用目标协同管理模型对热状态参数和能量状态参数进行分析预测,得到目标动作参数;基于目标动作参数,生成目标策略。
26.根据本发明实施例的另一方面,还提供了一种车辆,包括车载存储器和车载处理器,其特征在于,车载存储器中存储有计算机程序,车载处理器被设置为运行计算机程序以执行前述任意一项的车辆的协同控制方法。
27.在本发明实施例中,通过采用目标协同管理模型对车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,目标协同管理模型用于对车辆进行热管理和能量管理的协同策略优化,再按照目标策略控制车辆执行协同管理指令,达到了对车辆的热管理和能量管理进行协同控制的目的,从而实现了对车辆的热管理和能量管理进行协同管理与优化以提高车辆的可靠性和安全性的技术效果,进而解决了相关技术难以兼顾车辆的热管理和能量管理的优化控制导致车辆可靠性和安全性较差技术问题。
附图说明
28.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
29.图1是根据本发明实施例的一种可选的用于车辆的协同控制方法的车辆终端的结构框图;
30.图2是根据本发明实施例的一种车辆的协同控制方法的流程图;
31.图3是根据本发明实施例的一种可选的车辆的协同控制过程的示意图;
32.图4是根据本发明实施例的另一种可选的车辆的协同控制过程的示意图;
33.图5是根据本发明实施例的又一种可选的车辆的协同控制过程的示意图;
34.图6是根据本发明实施例的一种可选的车辆的协同控制装置的结构框图;
35.图7是根据本发明实施例的另一种可选的车辆的协同控制装置的结构框图;
36.图8是根据本发明实施例的又一种可选的车辆的协同控制装置的结构框图;
37.图9是根据本发明实施例的又一种可选的车辆的协同控制装置的结构框图。
具体实施方式
38.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
39.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
40.根据本发明实施例,提供了一种车辆的协同控制方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
41.图1是根据本发明实施例的一种可选的用于车辆的协同控制方法的车辆终端的结构框图,如图1所示,车辆终端10(或与车辆具有通信关联的移动设备10)可以包括一个或多个处理器102(处理器102可以包括但不限于微处理器(microcontroller unit,mcu)或可编程逻辑器件(field programmable gate array,fpga)等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输设备106。除此以外,还可以包括:显示设备110、输入/输出设备108(即i/o设备)、通用串行总线(universal serial bus,usb)端口(可以作为计算机总线的端口中的一个端口被包括,图中未示出)、网络接口(图中未示出)、电源(图中未示出)和/或相机(图中未示出)。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述车辆终端1的结构造成限定。例如,车辆终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
42.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到车辆终端10(或移动设备)中的其他元件中的任意一个内。
43.存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的车辆的协同控制方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的车辆的协同控制方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括
相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至车辆终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
44.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括车辆终端10的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
45.在上述运行环境下,本发明实施例提供了如图2所示的车辆的协同控制方法,图2是根据本发明实施例的一种车辆的协同控制方法的流程图,如图2所示,上述图2所示的实施例可以至少包括如下实施步骤,即可以是步骤s201至步骤s202所实现的技术方案。
46.步骤s201,采用目标协同管理模型对车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,目标协同管理模型用于对车辆进行热管理和能量管理的协同策略优化;
47.需要说明的是,本发明提供的技术方案中,上述车辆可以是以车载电源作为动力,用电机驱动车轮行驶的电动汽车,该电动汽车的类型可以包括但不限于:纯电动汽车(battery electric vehicle,bev)、混合动力汽车(hybrid electric vehicle,hev)、插电式混合动力汽车(plug-in hybrid electric vehicle,phev)、增程式电动汽车(range extended electric vehicle,reev)、燃料电池电动汽车(fuel cell electric vehicle,fcev)。
48.上述步骤s201提供的一种可选方案中,上述目标协同管理模型可以是利用采集的车辆的热管理数据和能量管理数据对初始协同管理模型进行训练后得到的协同管理模型,此处需要说明的是,该初始协同管理模型可以是但不限于:基于深度确定性策略梯度算法(deep deterministic policy gradient,ddpg)的协同管理模型、基于pid(proportion integral differential)算法的协同管理模型。
49.上述步骤s201提供的一种可选方案中,上述热状态参数可以是对应的车辆热管理系统的状态参数,该热状态参数的参数值可以用于表征对应的热管理系统的状态,该热状态参数可以包括但不限于:环境温度、车辆内部的湿度、车辆内部的温度。上述能量状态参数可以是对应的车辆能量管理系统的状态参数,该能量状态参数的参数值可以用于表征对应的能量管理系统的状态,该能量管理参数可以包括但不限于:车辆的行驶速度、加速度、档位、电池的荷电状态、发动机功率、发动机扭矩、电动机功率、电动机扭矩。此处还需要说明的是,上述热管理系统可以包括但不限于:冷却系统、加热系统、空调系统、底盘散热系统,上述能量管理系统可以包括但不限于:动力源控制系统(包括发动机、电动机、电池等设备)、能量传递控制系统(包括传动系统、驱动轮等设备)、能量回收利用系统。
50.上述步骤s201提供的一种可选方案中,上述目标策略可以是在利用目标协同管理模型对车辆当前的热状态参数和能量状态参数进行状态分析后,根据分析结果生成的对应的热管理系统和能量管理系统待执行的最优动作。具体地,例如,利用目标协同管理模型对车辆当前的车内温度和车速进行分析,得到车辆当前的车内温度过高且车速过高,从而可以确定目标策略为降低车内温度与车速。
51.步骤s202,按照目标策略控制车辆执行协同管理指令。
52.上述步骤s202提供的一种可选方案中,上述协同管理指令可以是基于上述目标策略生成的一条或多条控制指令,该协同管理指令可以用于对目标策略对应的热管理系统和能量管理系统进行控制,以优化该热管理系统和能量管理系统的状态。具体地,例如,目标策略包括降低车内温度与车速,基于该目标策略,可以确定协同管理指令包括:开启空调并将空调模式调节至制冷模式、将车辆档位切换至低档位(如1档)。
53.在本发明实施例中,通过采用目标协同管理模型对车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,目标协同管理模型用于对车辆进行热管理和能量管理的协同策略优化,再按照目标策略控制车辆执行协同管理指令,达到了对车辆的热管理和能量管理进行协同控制的目的,从而实现了对车辆的热管理和能量管理进行协同管理与优化以提高车辆的可靠性和安全性的技术效果,进而解决了相关技术难以兼顾车辆的热管理和能量管理的优化控制导致车辆可靠性和安全性较差技术问题。
54.下面对本发明实施例的上述方法进行进一步介绍。
55.在一种可选的实施例中,目标协同管理模型采用训练样本集通过强化学习训练得到,训练样本集包括:热管理训练数据和能量管理训练数据,车辆的协同控制方法还包括:
56.步骤s203,采用热管理训练数据和能量管理训练数据对初始协同管理模型进行训练,得到样本预测值;
57.步骤s204,利用样本预测值和训练样本集的样本真实值确定训练损失;
58.步骤s205,基于训练损失对初始协同管理模型的模型参数进行优化,得到目标协同管理模型。
59.上述步骤s203至步骤s205提供的一种可选方案中,上述热管理训练数据和能量管理训练数据可以是利用车辆传感器采集的多组热状态参数值和能量状态参数值,也可以是从车辆的存储设备中获取的多组热状态参数历史数据和能量状态参数历史数据,此处还需要说明的是,每组热状态参数值(或热状态参数历史数据)和能量状态参数值(或能量状态参数历史数据)可以构成一个训练样本。上述样本预测值可以是利用训练样本对初始协同管理模型进行训练后得到的模型输出值。上述样本真实值可以是从车辆的存储设备中直接获取的每个训练样本对应的真实值,或者是对每个训练样本的样本数据进行计算得到的真实值。
60.上述步骤s203至步骤s205提供的一种可选方案中,上述训练损失可以是上述样本预测值和上述样本真实值之间的差值。上述初始协同管理模型的模型参数可以影响上述样本预测值的真实性,也即,在对初始协同管理模型进行训练过程中,对其模型参数不断进行优化,得到更新后的协同管理模型,使得利用后续训练样本对更新后的协同管理模型进行训练得到的样本预测值与对应的样本真实值的差距减小,从而提高样本预测值的真实性。
61.以下结合图3、图4对上述方法进行进一步说明。
62.图3是根据本发明实施例的一种可选的车辆的协同控制过程的示意图,图4是根据本发明实施例的另一种可选的车辆的协同控制过程的示意图。如图3所示,假设车辆为纯电动汽车,在对该纯电动汽车的热管理和能量管理进行协同控制时,首先建立该纯电动汽车的能量管理与热管理综合模型(即初始协同管理模型),在对该综合模型进行训练前,制定该纯电动汽车的热管理和能量管理的优化目标(如延长该纯电动汽车的电池的使用寿命并使整车的能量消耗最小),并设计该综合模型的综合控制算法。
63.如图3、图4所示,假设基于ddpg算法设计上述综合模型的综合控制算法,具体地,首先定义综合模型的状态、动作和奖励函数,接着,定义actor网络和critic网络,进一步地,对该actor网络和critic网络进行训练并与智能体进行训练,在训练过程中,当某次训练得到的训练损失满足一定条件(如训练损失小于预设的损失阈值)时,结束训练,并将此次训练过程的参数作为协同管理模型的最优模型参数,从而可以得到目标协同管理模型。
64.在一种可选的实施例中,车辆的协同控制方法还包括:
65.步骤s206,采用热管理训练数据和能量管理训练数据对初始协同管理模型进行迭代训练,其中,迭代训练的每个迭代轮次得到的目标协同管理模型作为下一迭代轮次的初始协同管理模型;
66.步骤s207,响应于当前迭代轮次中训练损失满足预设条件,结束迭代训练。
67.上述步骤s206至步骤s207提供的一种可选方案中,上述预设条件可以是由技术人员预设的训练损失的最小值,当某个迭代轮次对应的训练损失小于(或者等于)该最小值时,可以确定当前迭代轮次对应的训练损失为最优值,进一步地,基于该训练损失的最优值,可以确定最优的目标协同管理模型。
68.以下结合图5对上述方法进行进一步说明。
69.图5是根据本发明实施例的又一种可选的车辆的协同控制过程的示意图,如图5所示,进一步地,对初始协同管理模型进行训练,具体方法可以是:首先初始化智能体的参数、目标actor网络参数、目标critic网络参数,接着,基于当前热状态参数对应的热管理系统的状态和当前能量状态参数对应的能量管理系统的状态,是智能体执行状态对应的动作,并获得对应的奖励和下一状态。进一步地,将当前状态、动作、奖励和下一个状态转化为经验元组,并将经验元组存储于经验池中,使得智能体能够从经验池中选取存储的数据进行学习。进一步地,从经验池中随机采样一批经验元组,分别计算该经验元组对应的样本真实值与样本预测值,并计算该经验元组对应的损失函数。进而,通过最小化损失函数,确定协同actor网络参数和critic网络参数的优化值,并利用该优化值更新actor网络和critic网络,以确定更新的协同管理模型。在对初始协同管理模型进行训练过程中,对协同管理模型不断进行优化更新,从而得到最优的目标协同管理模型。
70.在上述可选的实施例中,可以达到的技术效果是:通过利用车辆的热管理训练数据和能量管理训练数据对热管理和能量管理的协同管理模型进行训练与优化,以确定最优的目标协同管理模型,提高了后续利用该目标协同管理模型生成的目标策略的准确度,从而有利于提高车辆的可靠性和安全性。
71.在一种可选的实施例中,在步骤s206中,采用热管理训练数据和能量管理训练数据对初始协同管理模型进行训练,得到样本预测值包括:
72.步骤s2061,基于热管理训练数据和能量管理训练数据中的多个当前状态参数,利用初始协同管理模型预测得到多个经验元组,其中,多个经验元组包括:多个当前状态参数,多个动作参数、多个奖励参数和多个预测状态参数;对多个经验元组进行随机采样,得到采样结果;
73.步骤s2062,利用采样结果计算得到样本预测值。
74.上述步骤s2061至步骤s2062提供的一种可选方案中,上述多个当前状态参数可以包括当前状态下的热状态参数和能量状态参数。上述多个动作参数可以是基于图3所示的
综合控制算法对多个当前状态参数进行计算得到的多个参数。上述多个奖励参数可以是基于(更新后的)初始协同管理模型计算得到的多个参数。上述多个预测状态参数可以是当前状态的下一状态对应的多个状态参数,该多个预测状态参数可以通过执行上述多个动作参数对应的动作得到。上述采样结果可以是对上述多个经验元组进行随机采样得到的多个经验元组,该经验元组可以作为初始协同管理模型的训练样本,用于对初始协同管理模型进行训练得到目标协同管理模型。
75.在一种可选的实施例中,车辆的协同控制方法还包括:
76.步骤s208,根据热管理和能量管理对应的预设物理规则,确定初始协同管理模型对应的强化学习的状态和动作;
77.步骤s209,根据热管理和能量管理对应的协同优化需求,构建强化学习的第一目标函数;
78.步骤s2010,根据第一目标函数确定初始协同管理模型对应的强化学习的奖励函数。
79.上述步骤s208至步骤s2010提供的一种可选方案中,上述预设物理规则可以由热管理对应的热管理规则和能量管理对应的能量管理规则组成的综合规则(如图3所示的综合模型)。此处需要说明的是,每一个热管理规则可以对应热管理系统的其中之一,具体地,例如,热管理系统包括电池设备,对应的热状态参数包括:荷电状态、负载能量、电池能量,对应的热管理规则可以用于根据当前状态的荷电状态、负载能量、电池能量确定下一状态的荷电状态。同样地,每一个能量管理规则可以对应能量管理系统的其中之一,可以用于根据当前状态的一个或多个能量状态参数确定下一状态的一个或多个能量状态参数。
80.上述步骤s208至步骤s2010提供的一种可选方案中,上述协同优化需求可以是由技术人员根据车辆的性能确定的待优化的热管理系统和能量管理系统的需求,例如,该协同优化需求为延长电池的使用寿命和使整车能量消耗最小。上述第一目标函数可以是基于热管理规则和能量管理规则确定的满足协同优化需求的最优化综合函数。上述奖励函数可以用于确定初始协同管理模型的训练结束时刻,具体地,在对初始协同管理模型进行训练过程中,基于训练样本计算奖励函数的奖励值,并计算多个奖励值的平均累积奖励,在训练开始前,技术人员可以预先设置奖励阈值,当训练过程中的平均累积奖励稳定收敛至该奖励阈值时,可以确定此时的协同管理模型为最优的目标协同管理模型,从而结束训练过程。
81.在一种可选的实施例中,在步骤s208中,预设物理规则至少包括:车辆动力学规则、电池荷电计算规则、空调换热规则和电池能耗计算规则。
82.上述步骤s208提供的一种可选方案中,上述车辆动力学规则可以用于确定车辆对应的外部合力、空气阻力、滚动阻力、坡道阻力和加速阻力之间的物理关系。上述电池荷电计算规则可以用于确定电池荷电状态、电池输出电量和电池输入电量之间的物理关系。上述空调换热规则可以用于确定蒸发器制冷剂流量、空气流量、蒸发器入口温度和蒸发器出口温度之间的物理关系。上述电池能耗计算规则可以用于确定电池功率、电机功率、空调电功率和电附件功率之间的物理关系。
83.作为一种可选的实施方式,车辆动力学规则可以如下述公式(1)所示:
84.f
total
=f
drag
+f
roll
+f
grads
+f
acc
公式(1)
85.在上述公式(1)中,f
total
为车辆的总的外部力,f
drag
为空气阻力,f
roll
为滚动阻力,fgrads
为坡道阻力,f
acc
为加速阻力。
86.作为一种可选的实施方式,电池荷电计算规则可以如下述公式(2)所示:
[0087][0088]
在上述公式(2)中,soc(t)为t时刻的电池的荷电状态,e
load
(t)为t时刻的负载能量,e
bat
(t)为t时刻的电池能量。
[0089]
作为一种可选的实施方式,空调换热规则可以如下述公式(3)所示:
[0090]qevap
=c
p,air
×
ρ
air
×vair
×
(t
evap,in-t
evap,out
)公式(3)
[0091]
在上述公式(3)中,q
evap
为空调的蒸发器中热量传递率(单位为w),c
p,air
为空气的定压比热容(单位为j/(kg
·
℃)),ρ
air
为空气密度(单位为kg/m3),v
air
为空气的体积流量(单位为m3/s),t
evap,in
为蒸发器的进口温度(单位为℃),t
evap,out
为蒸发器的出口温度(单位为℃)。
[0092]
作为一种可选的实施方式,电池能耗计算规则可以如下述公式(4)所示:
[0093]
p
batt
=pm+p
hvac
+p
aux
公式(4)
[0094]
在上述公式(4)中,pm为车辆的电机功率,p
hvac
为空调功率,p
aux
为车辆的电附件系统功率,p
batt
为电池功率。
[0095]
在一种可选的实施例中,在步骤s209中,协同优化需求包括电池寿命优化需求和电池能耗优化需求,根据协同优化需求,构建强化学习的第一目标函数包括:
[0096]
步骤s2091,根据电池寿命优化需求,利用电池的当前电流和电流阈值构建第二目标函数;
[0097]
步骤s2092,根据电池能耗优化需求,利用车辆的多个耗电设备的电功率构建第三目标函数;
[0098]
步骤s2093,基于第二目标函数、第三目标函数和预设权重系数,确定第一目标函数。
[0099]
作为一种可选的实施方式,上述当前电流记为i
t
,电流阈值记为i
max
,上述第二目标函数可以如下述公式(5)所示:
[0100][0101]
在上述公式(5)中,还需要说明的是,电流阈值i
max
可以是车辆电池的最大充电电流或最大放电电流。
[0102]
作为一种可选的实施方式,假设上述多个耗电设备包括电机、电附件系统、空调,该多个耗电设备的电功率包括:电机功率pm,空调功率p
hvac
,电附件系统功率p
aux
,时间间隔为δt,上述第三目标函数可以如下述公式(6)所示:
[0103][0104]
进一步地,假设上述预设权重系数为α,基于上述公式(5)和公式(6),可以确定下述公式(7)所示的上述第一目标函数:
[0105]
minj=αj1+(1-α)j2公式(7)
[0106]
在上述公式(7)中,需要说明的是,预设权重系数为α为基于上述协同优化需求确定的权重因子,具体地,例如,协同优化需求为延长电池寿命和使整车能量消耗最小,该预
设权重系数为α可以是控制电池寿命和能量消耗的权重因子。此处还需要说明的是,当上述协同优化需求变化时,可以对预设权重系数为α进行调整。
[0107]
依然如图3、图4所示,设计ddpg综合控制算法,具体方法可以是:定义状态s、动作a、奖励函数r,作为一种可选的实施方式,状态s可以包括:车速v、电池soc、环境温度t
env
、车内温度t
in
,动作a可以包括:电机扭矩tm、空调功率p
hvac
,奖励函数r可以由上述公式(6)所示的第一目标函数确定。
[0108]
依然如图4所示,进一步地,基于状态s、动作a定义actor网络可以如下述公式(8)所示:
[0109][0110]
基于状态s、动作a、状态值q定义critic网络可以如下述公式(9)所示:
[0111][0112]
在上述公式(8)和公式(9)中θa,为actor网络的参数、θq为critic网络的参数。
[0113]
依然如图4所示,进一步地,对actor网络和critic网络进行训练,具体方法可以是:在每个时间步t,利用上述公式(8)所示的actor网络对当前状态s
t
进行计算得到动作a
t
,执行该动作可以得到下一个状态s
t+1
和奖励r
t
,进一步地,对critic网络的参数θq和actor网络的参数θa进行更新可以分别如下述公式(10)、公式(11)所示:
[0114][0115][0116]
在上述公式(10)和公式(11)中,l(θq)为critic网络的损失函数(上述训练损失),αq为critic网络的学习率,αa为actor网络的学习率,此处需要说明的是,αq和αa可以用于调整参数更新的步长。
[0117]
本发明提供的可选技术方案中,如公式(10)所示,利用critic网络的损失函数l(θq)对参数向量θq求梯度,再基于学习率αq的大小调整更新步长,进一步地,将参数向量θq朝着梯度方向更新,从而使得critic网络输出的q值(上述样本预测值)逐渐逼近真实的q值(上述样本真实值)。
[0118]
依然如图3、图5所示,在设计完成ddpg综合控制算法后,对智能体进行训练,具体方法可以是:将上述公式(7)所示的第一目标函数作为奖励函数,并通过智能体与环境的交互进行训练,具体地,首先初始化智能体的参数θ和目标网络参数θ

,接着,利用上述公式(8)所示的actor网络对当前状态s进行计算得到动作a=μ(s|θ),并获取奖励r和下一状态s

,进一步地,将当前状态s、动作a、奖励r和下一状态s

转化为经验元组(s,a,r,s

),并将该经验元组存入经验池中,进而,从经验池中对经验元组进行随机采样,采样数记为n,得到n个经验元组,n个经验元组中第i个经验元组对应的样本真实值记为q
true
(i),同时,基于下述公式(12)计算第i个经验元组的样本预测值q
pred
(i):
[0119]qpred
(i)=q(si,ai|θ)公式(12)
[0120]
依然如图5所示,进一步地,计算n个经验元组的损失函数l(θ)可以如下述公式(13)所示:
[0121][0122]
依然如图5所示,进一步地,利用该损失函数l(θ)更新目标网络参数θ

可以如下述公式(14)所示:
[0123]
θ


τ+(1-τ)θ

公式(14)
[0124]
在上述公式(14)中,τ为预设的软更新参数,其参数值可以是0.001。
[0125]
依然如图3、图5所示,对基于ddpg综合控制算法的协同管理模型不断进行训练,当智能体学习到最佳策略(可以是训练损失满足预设条件)时,结束训练,将最后一次更新得到的协同管理模型作为目标协同管理模型。
[0126]
在上述可选的实施例中,可以达到的技术效果是:分别根据车辆的电池寿命优化需求和电池能耗优化需求,构建二者的协同管理模型,再利用真实的训练样本(经验元组)对包含该协同管理模型的智能体进行训练,从而当智能体学习到最佳策略时得到目标协同管理模型,从而使得该目标协同管理模型能够满足车辆热管理和能量管理的协同优化需求,提高了该目标协同管理模型的模拟准确度。
[0127]
在一种可选的实施例中,在步骤s201中,热状态参数为车辆的热管理系统的系统状态参数,热管理系统至少包括以下之一:散热子系统、加热子系统和空调子系统,能量状态参数为车辆的能量管理系统的系统状态参数,能量管理系统至少包括以下之一:电机子系统、发动机子系统、电池子系统和电附件子系统。
[0128]
上述步骤s201提供的一种可选方案中,上述散热子系统可以包括但不限于:冷却系统、底盘散热系统。此处需要说明的是,冷却系统可以包括水冷系统和空冷系统,其中,水冷系统可以通过水泵将冷却液循环送到发动机内部,吸收发动机产生的热量后,经过散热器散热,以及,空冷系统可以通过发动机上的风扇将空气吹过散热片以达到散热的目的。还需要说明的是,底盘散热系统可以用于控制制动系统和悬挂系统的温度,防止制动系统过热和悬挂系统失效。
[0129]
上述步骤s201提供的一种可选方案中,上述加热子系统可以是由发动机冷却液、暖风管道和空调系统组成的加热系统,可以用于提供发动机和乘客舱的加热功能。上述空调子系统可以是由压缩机、蒸发器、冷凝器、空调控制器等设备组成的系统,可以用于控制车内的温度和湿度,从而为驾驶员和乘客提供舒适的驾驶(乘车)环境。
[0130]
上述步骤s201提供的一种可选方案中,上述电机子系统可以是包含电动机的系统,可以用于对电动机进行控制与管理,具体地,例如,控制电动机驱动车辆的其他电气设备(如发动机、变压器)。上述发动机子系统可以是包含发动机的系统,可以用于对发动机进行控制与管理,具体地,例如,控制发动机点火、起动。上述电池子系统可以用于对车辆的动力电池进行控制与管理,具体地,例如,计算动力电池的荷电状态、监控动力电池的状态。上述电附件子系统可以用于对车辆的一个或多个电附件进行控制与管理,此处需要说明的是,车辆的电附件可以包括但不限于:直流-直流转换器、直流加热器、高压配电盒。
[0131]
在一种可选的实施例中,在步骤s201中,采用目标协同管理模型对热状态参数和能量状态参数进行状态分析,生成目标策略包括:
[0132]
步骤s2011,采用目标协同管理模型对热状态参数和能量状态参数进行分析预测,得到目标动作参数;
[0133]
步骤s2012,基于目标动作参数,生成目标策略。
[0134]
上述步骤s2011至步骤s2012提供的一种可选方案中,上述目标动作参数可以是在将目标协同管理模型应用至实际车辆过程中,利用该目标协同管理模型分析预测得到的满足车辆热管理和能量管理的协同优化需求的目标动作参数。上述目标策略可以是基于上述目标动作参数确定的对应的热管理系统和能量管理系统的待执行的动作指令。
[0135]
依然如图3、图5所示,当训练结束后,可以对智能体进行测试和验证。作为一种可选的实施方式,选取目标车辆,并在该目标车辆中应用智能体,获取目标车辆在某一状态下的热状态参数和能量状态参数,将该热状态参数和能量状态参数输入智能体,从而,智能体基于目标协同管理模型确定目标车辆当前状态下的最优动作参数,该最优动作参数可以被输入至整车控制器,进一步地,整车控制器可以基于该最优动作参数生成最优动作指令(即协同管理指令),并控制对应的热管理系统和能量管理系统执行最优动作指令,使目标车辆达到最佳的性能指标。此处还需要说明的是,在对目标车辆进行测试过程中,可以将测试数据和训练数据进行比较,以验证智能体的泛化能力和实际效果。
[0136]
在上述可选的实施例中,可以达到的技术效果是:利用训练得到的目标协同管理模型分析预测车辆的目标动作参数,进而生成对应的目标策略,能够基于该目标策略实现兼顾热管理和能量管理的协同优化控制,满足了车辆的协同优化需求,提高了车辆的可靠性和安全性、提升了车辆用户的驾驶体验。
[0137]
在本实施例中,还提供了一种车辆的协同控制装置,该装置用于实现上述实施例及优选实施方式,已经说过说明的不再赘述。如以下所使用的,属于“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0138]
图6是根据本发明实施例的一种可选的车辆的协同控制装置的结构框图,如图6所示,该装置包括:
[0139]
生成模块601,用于采用目标协同管理模型对车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,目标协同管理模型用于对车辆进行热管理和能量管理的协同策略优化;
[0140]
控制模块602,用于按照目标策略控制车辆执行协同管理指令。
[0141]
可选地,目标协同管理模型采用训练样本集通过强化学习训练得到,训练样本集包括:热管理训练数据和能量管理训练数据,图7是根据本发明实施例的另一种可选的车辆的协同控制装置的结构框图,如图7所示,该装置除包括图6所示的所有模块外,还包括:第一训练模块603,用于采用热管理训练数据和能量管理训练数据对初始协同管理模型进行训练,得到样本预测值;利用样本预测值和训练样本集的样本真实值确定训练损失;基于训练损失对初始协同管理模型的模型参数进行优化,得到目标协同管理模型。
[0142]
可选地,图8是根据本发明实施例的又一种可选的车辆的协同控制装置的结构框图,如图8所示,该装置除包括图7所示的所有模块外,还包括:第二训练模块604,用于采用热管理训练数据和能量管理训练数据对初始协同管理模型进行迭代训练,其中,迭代训练的每个迭代轮次得到的目标协同管理模型作为下一迭代轮次的初始协同管理模型;响应于当前迭代轮次中训练损失满足预设条件,结束迭代训练。
[0143]
可选地,上述第二训练模块604还用于:基于热管理训练数据和能量管理训练数据
中的多个当前状态参数,利用初始协同管理模型预测得到多个经验元组,其中,多个经验元组包括:多个当前状态参数,多个动作参数、多个奖励参数和多个预测状态参数;对多个经验元组进行随机采样,得到采样结果;利用采样结果计算得到样本预测值。
[0144]
可选地,图9是根据本发明实施例的又一种可选的车辆的协同控制装置的结构框图,如图9所示,该装置除包括图8所示的所有模块外,还包括:确定模块605,用于根据热管理和能量管理对应的预设物理规则,确定初始协同管理模型对应的强化学习的状态和动作;根据热管理和能量管理对应的协同优化需求,构建强化学习的第一目标函数;根据第一目标函数确定初始协同管理模型对应的强化学习的奖励函数。
[0145]
可选地,上述确定模块605还用于:预设物理规则至少包括:车辆动力学规则、电池荷电计算规则、空调换热规则和电池能耗计算规则。
[0146]
可选地,上述确定模块605还用于:协同优化需求包括电池寿命优化需求和电池能耗优化需求,根据协同优化需求,构建强化学习的第一目标函数包括:根据电池寿命优化需求,利用电池的当前电流和电流阈值构建第二目标函数;根据电池能耗优化需求,利用车辆的多个耗电设备的电功率构建第三目标函数;基于第二目标函数、第三目标函数和预设权重系数,确定第一目标函数。
[0147]
可选地,上述生成模块601还用于:热状态参数为车辆的热管理系统的系统状态参数,热管理系统至少包括以下之一:散热子系统、加热子系统和空调子系统,能量状态参数为车辆的能量管理系统的系统状态参数,能量管理系统至少包括以下之一:电机子系统、发动机子系统、电池子系统和电附件子系统。
[0148]
可选地,上述生成模块601还用于:采用目标协同管理模型对热状态参数和能量状态参数进行状态分析,生成目标策略包括:采用目标协同管理模型对热状态参数和能量状态参数进行分析预测,得到目标动作参数;基于目标动作参数,生成目标策略。
[0149]
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
[0150]
根据本发明实施例的另一方面,还提供了一种车辆,包括车载存储器和车载处理器,其特征在于,车载存储器中存储有计算机程序,车载处理器被设置为运行计算机程序以执行前述任意一项的车辆的协同控制方法。
[0151]
可选地,在本实施例中,上述车载存储器可以被设置为存储用于执行以下步骤的计算机程序:
[0152]
步骤s1,采用目标协同管理模型对车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,目标协同管理模型用于对车辆进行热管理和能量管理的协同策略优化;
[0153]
步骤s2,按照目标策略控制车辆执行协同管理指令。
[0154]
可选地,在本实施例中,上述车载存储器可以包括但不限于:u盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
[0155]
可选地,在本实施例中,上述车载处理器可以被设置为通过计算机程序执行以下步骤:
[0156]
步骤s1,采用目标协同管理模型对车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,目标协同管理模型用于对车辆进行热管理和能量管理的协同策略优化;
[0157]
步骤s2,按照目标策略控制车辆执行协同管理指令。
[0158]
可选地,在本实施例中的具体示例可以参考上述实施例及其可选实施方式中所描述的示例,本实施例在此不再赘述。
[0159]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0160]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0161]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0162]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0163]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0164]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0165]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种车辆的协同控制方法,其特征在于,包括:采用目标协同管理模型对所述车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,所述目标协同管理模型用于对所述车辆进行热管理和能量管理的协同策略优化;按照所述目标策略控制所述车辆执行协同管理指令。2.根据权利要求1所述的车辆的协同控制方法,其特征在于,所述目标协同管理模型采用训练样本集通过强化学习训练得到,所述训练样本集包括:热管理训练数据和能量管理训练数据,所述车辆的协同控制方法还包括:采用所述热管理训练数据和所述能量管理训练数据对初始协同管理模型进行训练,得到样本预测值;利用所述样本预测值和所述训练样本集的样本真实值确定训练损失;基于所述训练损失对所述初始协同管理模型的模型参数进行优化,得到所述目标协同管理模型。3.根据权利要求2所述的车辆的协同控制方法,其特征在于,采用所述热管理训练数据和能量管理训练数据对初始协同管理模型进行训练,得到样本预测值包括:基于所述热管理训练数据和所述能量管理训练数据中的多个当前状态参数,利用初始协同管理模型预测得到多个经验元组,其中,所述多个经验元组包括:所述多个当前状态参数,多个动作参数、多个奖励参数和多个预测状态参数;对所述多个经验元组进行随机采样,得到采样结果;利用所述采样结果计算得到所述样本预测值。4.根据权利要求2所述的车辆的协同控制方法,所述车辆的协同控制方法还包括:根据所述热管理和所述能量管理对应的预设物理规则,确定所述初始协同管理模型对应的强化学习的状态和动作;根据所述热管理和所述能量管理对应的协同优化需求,构建强化学习的第一目标函数;根据所述第一目标函数确定所述初始协同管理模型对应的强化学习的奖励函数。5.根据权利要求4所述的车辆的协同控制方法,其特征在于,所述预设物理规则至少包括:车辆动力学规则、电池荷电计算规则、空调换热规则和电池能耗计算规则。6.根据权利要求4所述的车辆的协同控制方法,其特征在于,所述协同优化需求包括电池寿命优化需求和电池能耗优化需求,根据所述协同优化需求,构建强化学习的第一目标函数包括:根据所述电池寿命优化需求,利用电池的当前电流和电流阈值构建第二目标函数;根据所述电池能耗优化需求,利用所述车辆的多个耗电设备的电功率构建第三目标函数;基于所述第二目标函数、所述第三目标函数和预设权重系数,确定所述第一目标函数。7.根据权利要求1所述的车辆的协同控制方法,其特征在于,所述热状态参数为所述车辆的热管理系统的系统状态参数,所述热管理系统至少包括以下之一:散热子系统、加热子系统和空调子系统,所述能量状态参数为所述车辆的能量管理系统的系统状态参数,所述能量管理系统至少包括以下之一:电机子系统、发动机子系统、电池子系统和电附件子系
统。8.根据权利要求1所述的车辆的协同控制方法,其特征在于,采用目标协同管理模型对所述热状态参数和所述能量状态参数进行状态分析,生成目标策略包括:采用目标协同管理模型对所述热状态参数和所述能量状态参数进行分析预测,得到目标动作参数;基于所述目标动作参数,生成所述目标策略。9.一种车辆的协同控制装置,其特征在于,包括:生成模块,用于采用目标协同管理模型对所述车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,所述目标协同管理模型用于对所述车辆进行热管理和能量管理的协同策略优化;控制模块,用于按照所述目标策略控制所述车辆执行协同管理指令。10.一种车辆,其特征在于,包括车载存储器和车载处理器,其特征在于,所述车载存储器中存储有计算机程序,所述车载处理器被设置为运行所述计算机程序以执行所述权利要求1至8中任意一项的所述车辆的协同控制方法。

技术总结
本发明公开了一种车辆的协同控制方法、装置及车辆。其中,该方法包括:采用目标协同管理模型对车辆的热状态参数和能量状态参数进行状态分析,生成目标策略,其中,目标协同管理模型用于对车辆进行热管理和能量管理的协同策略优化;按照目标策略控制车辆执行协同管理指令。本发明解决了相关技术难以兼顾车辆的热管理和能量管理的优化控制导致车辆可靠性和安全性较差的技术问题。全性较差的技术问题。全性较差的技术问题。


技术研发人员:牛超凡 王德平 王燕 刘建康
受保护的技术使用者:中国第一汽车股份有限公司
技术研发日:2023.05.26
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐