模型训练、信息处理方法、装置、介质及电子设备与流程

未命名 09-27 阅读：80 评论：0

1.本公开涉及信息处理技术领域，具体地，涉及一种模型训练、信息处理方法、装置、介质及电子设备。

背景技术：

2.区域时段成本分配解决的是在给定的预算约束的前提下，合理分配不同时段的成本参数，通过对一天内不同时段的补贴参数进行调整，以提升用户体验(以五分钟接单率为度量指标)。现阶段的区域时段成本分配方案是一种基于边际收益递减原理的“削峰填谷”策略：将时段按照各个时段五分钟接单率由大到小划分为头部、中部、尾部三种类型，按照头部时段减钱、中部时段不变、尾部时段加钱的规则进行调整，以优化大盘用户体验。可见，“削峰填谷”策略是将体验好的时段的邮资挪移到体验不好的时段。策略底层原理依据是“弹性差距不大时，价格边际收益递减”。然而，部分场景下，时段间的弹性曲线差异大于边际收益递减效应，合理的决策是“对钱效高的时段加钱、对钱效低的时段减钱”，如果体验好的时段钱效依然高(即增加单位成本收益高)，而体验不好的时段钱效低，则“削峰填谷”的经验性的调整方向就是错误的，导致用户体验受到影响。

技术实现要素：

3.本公开的目的是提供一种模型训练、信息处理方法、装置、介质及电子设备，以合理地划分一天内不同时段的奖励，提升全天内运力的总接单意愿，提升用户体验。
4.为了实现上述目的，第一方面，本公开提供一种模型训练方法，包括：
5.获取训练数据，所述训练数据包括参考运力在第一时段的第一状态信息和第一奖励信息，以及所述参考运力在第二时段的第二状态信息，其中，所述第二时段为所述第一时段的下一时段；
6.根据所述第一状态信息和所述第一奖励信息，通过目标模型预测所述参考运力在所述第一时段的第一接单响应信息，并根据所述第一接单响应信息和所述第一状态信息，预测所述参考运力在所述第二时段的第二奖励信息；
7.根据所述第二状态信息和所述第二奖励信息，通过目标模型预测所述参考运力在所述第二时段的第二接单响应信息；
8.以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述目标模型进行模型参数更新，其中，所述目标置信度参数用于反映所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息表征真实运力轨迹的置信度，所述第一联合概率分布为所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息的联合概率分布；
9.响应于不满足训练截止条件，重新执行所述获取训练数据的步骤至所述以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述目标模型进行模型参数更新的步骤；
10.响应于满足所述训练截止条件，获得奖励预测模型。
11.可选地，所述目标模型包括运力响应预测子模型和奖励预测子模型；
12.其中，所述运力响应预测子模型，用于根据所述第一状态信息和所述第一奖励信息，预测所述第一接单响应信息；
13.所述奖励预测子模型，与所述运力响应预测子模型连接，用于根据所述第一接单响应信息和所述第一状态信息，预测所述第二奖励信息；
14.所述运力响应预测子模型，还用于根据所述第二状态信息和所述第二奖励信息，预测所述第二接单响应信息。
15.可选地，所述目标模型为包括生成器和判别器的生成式对抗网络，所述生成器包括所述运力响应预测子模型和所述奖励预测子模型。
16.可选地，所述方法还包括：
17.通过所述判别器确定所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息表征真实轨迹的概率；
18.根据所述概率确定所述目标置信度参数。
19.可选地，所述根据所述概率确定所述目标置信度参数，包括：
20.根据所述概率和所述判别器在之前的训练过程中确定出的每一概率，确定所述目标置信度参数。
21.可选地，所述训练数据还包括所述参考运力在所述第二时段的第三奖励信息和第三接单响应信息；
22.所述以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述目标模型进行模型参数更新，包括：
23.以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述生成器进行模型参数更新；
24.利用所述第三奖励信息、所述第三接单响应信息、所述第二状态信息、所述第二奖励信息、所述第二接单响应信息以及所述概率，对所述判别器进行模型参数更新。
25.可选地，所述利用所述第三奖励信息、所述第三接单响应信息、所述第二状态信息、所述第二奖励信息、所述第二接单响应信息以及所述概率，对所述判别器进行模型参数更新，包括：
26.以第一损失函数的输出和第二损失函数的输出之和最大化为目标，对所述判别器进行模型参数更新，其中，所述第一损失函数为与所述第二状态信息、所述第二奖励信息、所述第二接单响应信息和所述概率相关的函数，所述第二损失函数为与所述第二状态信息、所述第三奖励信息、所述第三接单响应信息和所述概率相关的函数。
27.第二方面，本公开提供一种信息处理方法，包括：
28.获取目标运力在目标时段的目标状态信息和目标奖励信息；
29.将所述目标状态信息和所述目标奖励信息输入到奖励预测模型中，得到所述目标运力在所述目标时段的目标接单响应信息和所述目标运力在所述目标时段的下一时段的预测奖励信息，其中，所述奖励预测模型通过本公开第一方面提供的所述模型训练方法进行训练所得。
30.第三方面，本公开提供一种模型训练装置，包括：
31.第一获取模块，用于获取训练数据，所述训练数据包括参考运力在第一时段的第
一状态信息和第一奖励信息，以及所述参考运力在第二时段的第二状态信息，其中，所述第二时段为所述第一时段的下一时段；
32.第一预测模块，用于根据所述第一获取模块获取到所述第一状态信息和所述第一奖励信息，通过目标模型预测所述参考运力在所述第一时段的第一接单响应信息，并根据所述第一接单响应信息和所述第一状态信息，预测所述参考运力在所述第二时段的第二奖励信息；
33.第二预测模块，用于根据所述第一获取模块获取到的所述第二状态信息和所述第一预测模块预测出的所述第二奖励信息，通过目标模型预测所述参考运力在所述第二时段的第二接单响应信息；
34.更新模块，用于以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述目标模型进行模型参数更新，其中，所述目标置信度参数用于反映所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息表征真实运力轨迹的置信度，所述第一联合概率分布为所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息的联合概率分布；
35.触发模块，用于：响应于不满足训练截止条件，触发所述第一获取模块获取训练数据；响应于满足所述训练截止条件，获得奖励预测模型。
36.第四方面，本公开提供一种信息处理装置，包括：
37.第二获取模块，用于获取目标运力在目标时段的目标状态信息和目标奖励信息；
38.第三预测模块，用于将所述第二获取模块获取到的所述目标状态信息和所述目标奖励信息输入到奖励预测模型中，得到所述目标运力在所述目标时段的目标接单响应信息和所述目标运力在所述目标时段的下一时段的预测奖励信息，其中，所述奖励预测模型通过本公开第一方面提供的所述模型训练方法进行训练所得。
39.第五方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的所述模型训练方法的步骤或本公开第二方面提供的所述信息处理方法的步骤。
40.第六方面，本公开提供一种电子设备，包括：
41.存储器，其上存储有计算机程序；
42.处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的所述模型训练方法的步骤或本公开第二方面提供的所述信息处理方法的步骤。
43.在上述技术方案中，以目标置信度参数与第一联合概率分布的乘积最小化为目标，对目标模型进行模型参数更新，其中，目标置信度参数用于反映第二状态信息、第二奖励信息以及第二接单响应信息表征真实运力轨迹的置信度，第一联合概率分布为第二状态信息、第二奖励信息以及所述第二接单响应信息的联合概率分布。可见，目标模型的预测准确度越低，即目标模型学习的越不好，目标置信度参数越小，目标置信度参数与第一联合概率分布的乘积越接近于目标，从而能够在有较强确定性和选择偏差的数据集中重构出在反事实数据中具有良好泛化能力的奖励预测模型，以使得下游求解出更为正确的决策动作，即保证奖励预测模型预测的当前时段的接单响应信息和下一时段的奖励信息的准确度。另外，不仅能避免对运力进行手动抽象和刻画的复杂建模过程，还可避免人类认知缺失和偏差产生的奖励预测模型的预测误差，从而得到更准确的奖励预测模型。由此，可以合理地划
分一天内不同时段的奖励，提升全天内运力的总接单意愿，提升用户体验。
44.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
45.附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：
46.图1是根据一示例性实施例示出的一种模型训练方法的流程图。
47.图2是根据一示例性实施例示出的一种信息处理方法的流程图。
48.图3是根据一示例性实施例示出的一种模型训练装置的框图。
49.图4是根据一示例性实施例示出的一种信息处理装置的框图。
50.图5是根据一示例性实施例示出的一种电子设备的框图。
51.图6是根据一示例性实施例示出的一种电子设备的框图。
52.图7是根据一示例性实施例示出的一种电子设备的框图。
53.图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
54.正如背景技术中论述的那样，“削峰填谷”的经验性的调整方向是错误的，导致用户体验受到影响。解决该问题的关键在于需要使用历史数据对运力进行个性化刻画。然而，目前观测数据具有强的确定性(即：给定一个时段，补贴参数是几乎恒定的)和选择偏差(不同时段有补贴参数的选择偏好)，导致状态-动作-反馈空间中存在大量的反事实点(即：大量的时段中、只能看到少数的几种补贴参数下的运力响应情况)，这将导致在构建奖励预测模型时对于反事实数据的预测的泛化准确度难以保证，使得后续的策略评估产生误导，影响用户体验。
55.鉴于此，本公开提供一种模型训练、信息处理方法、装置、介质及电子设备，以合理地划分一天内不同时段的奖励，提升全天内运力的总接单意愿，提升用户体验。
56.以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。
57.需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。
58.图1是根据一示例性实施例示出的一种模型训练方法的流程图。如图1所示，该模型训练方法可以包括以下s101～s106。
59.在s101中，获取训练数据。
60.在本公开中，训练数据包括参考运力在第一时段的第一状态信息和第一奖励信息，以及参考运力在第二时段的第二状态信息，其中，第二时段为第一时段的下一时段，第一奖励信息为参考运力在第一时段的真实奖励信息。参考运力可以是配送员，也可以是配送机器人、无人配送车、无人机等配送设备，还可以是出租车、货运车等。
61.第一状态信息和第二状态信息可以包括运力信息和运单信息。其中，运力信息可以包括：运力类型、运力级别等静态信息，7天总配送时长、7天完单量、7天准时率、7天接单
量等动态信息。其中，当运力为配送员时，静态信息还可以包括性别、年龄等。运单信息可以包括时段运单信息、运单所涉及区域的信息(例如，区域类型(如，商业区、住宅区等)、区域基础价格等)。第一奖励信息可以包括时段补贴。
62.在s102中，根据第一状态信息和第一奖励信息，通过目标模型预测参考运力在第一时段的第一接单响应信息，并根据第一接单响应信息和第一状态信息，预测参考运力在第二时段的第二奖励信息。
63.具体来说，可以将第一状态信息和第一奖励信息输入到目标模型中，以通过该目标预测模型预测参考运力在第一时段的第一接单响应信息，并根据第一接单响应信息和第一状态信息，预测参考运力在第二时段的第二奖励信息。
64.在s103中，根据第二状态信息和第二奖励信息，通过目标模型预测参考运力在第二时段的第二接单响应信息。
65.在本公开中，第一接单响应信息可以包括第一预设时长接单率(例如，5分钟接单率)、第二预设时长完单量(例如，1小时完单量)等。其中，第一预设时长接单率等于第一时段中在第一预设时长内接单的数量/第一时段内接单的总数。
66.在一种实施方式中，目标模型可以包括运力响应预测子模型和奖励预测子模型。其中，运力响应预测子模型，用于根据第一状态信息和第一奖励信息，预测第一接单响应信息；奖励预测子模型，与运力响应预测子模型连接，用于根据第一接单响应信息和第一状态信息，预测第二奖励信息。另外，运力响应预测子模型，还用于根据第二状态信息和第二奖励信息，预测参考运力在第二时段的第二接单响应信息。
67.在s104中，以目标置信度参数与第一联合概率分布的乘积最小化为目标，对目标模型进行模型参数更新。
68.在本公开中，目标置信度参数用于反映第二状态信息、第二奖励信息以及第二接单响应信息表征真实运力轨迹的置信度，第一联合概率分布为第二状态信息、第二奖励信息以及第二接单响应信息的联合概率分布。
69.示例地，目标模型可以包括运力响应预测子模型和奖励预测子模型，此时，可以根据以下公式(1)所示的目标函数来对目标模型进行模型参数更新：
[0070][0071]
其中，为奖励预测子模型的输出；为运力响应预测子模型的输出；z(s,a,y)为目标置信度参数；s为第二状态信息；a为第二奖励信息；y为第二接单响应信息；p(s)为第一状态信息分布。
[0072]
在s105中，判断是否满足训练截止条件。
[0073]
在本公开中，训练截止条件可以为训练次数达到预设次数或者模型的损失小于预设损失阈值。
[0074]
若不满足训练截止条件，则返回上述s101继续执行，直到满足训练截止条件时为止。若满足训练截止条件，则执行以下s106。
[0075]
在s106中，获得奖励预测模型。
[0076]
另外，需要说明的是，每次循环获取到的训练数据均为新的训练数据。
[0077]
在上述技术方案中，以目标置信度参数与第一联合概率分布的乘积最小化为目
标，对目标模型进行模型参数更新，其中，目标置信度参数用于反映第二状态信息、第二奖励信息以及第二接单响应信息表征真实运力轨迹的置信度，第一联合概率分布为第二状态信息、第二奖励信息以及所述第二接单响应信息的联合概率分布。可见，目标模型的预测准确度越低，即目标模型学习的越不好，目标置信度参数越小，目标置信度参数与第一联合概率分布的乘积越接近于目标，从而能够在有较强确定性和选择偏差的数据集中重构出在反事实数据中具有良好泛化能力的奖励预测模型，以使得下游求解出更为正确的决策动作，即保证奖励预测模型预测的当前时段的接单响应信息和下一时段的奖励信息的准确度。另外，不仅能避免对运力进行手动抽象和刻画的复杂建模过程，还可避免人类认知缺失和偏差产生的奖励预测模型的预测误差，从而得到更准确的奖励预测模型。由此，可以合理地划分一天内不同时段的奖励，提升全天内运力的总接单意愿，提升用户体验。
[0078]
下面针对上述s101中的获取训练数据的具体实施方式进行详细说明。
[0079]
在本公开中，可以建立训练数据集，之后，在模型训练时，每次从训练数据集中抽取一条训练数据进行模型训练。
[0080]
具体来说，可以通过以下方式来建立训练数据集：
[0081]
首先，针对多个参考运力的每一参考运力，获取该参考运力在预设日期的整天内各时段(例如，每半小时为一个时段)的状态信息、奖励信息以及接单响应信息；然后，针对每一时段，对该参考运力在该时段的状态信息、奖励信息以及接单响应信息分别进行均值聚合；之后，将该参考运力在上述预设日期的整天内各时段的均值聚合后的状态信息、均值聚合后的奖励信息以及均值聚合后的接单响应信息按照马尔科夫决策过程整理为运力轨迹集轨迹的长度t为上述预设日期的整天内时段的数量(例如，每半小时为一个时段，则t＝48)，τi表示参考运力i的运力轨迹；最后，对上述多个参考运力的运力轨迹进行数据归一化(例如，归一化为0-1之间的数值)，得到多条训练数据，构成训练数据集(τ1,τ2,
…
,τn)，其中，构成一条训练数据。数据归一化可以消除特征之间的相互影响，便于模型训练收敛。
[0082]
在一种实施方式中，上述目标模型可以为包括生成器和判别器的生成式对抗网络，其中，生成器包括运力响应预测子模型和奖励预测子模型。
[0083]
此时，上述方法还可以包括以下步骤：
[0084]
通过判别器确定第二状态信息、第二奖励信息以及第二接单响应信息表征真实轨迹的概率；根据该概率确定目标置信度参数。
[0085]
具体来说，在上述s103之后、上述s104之前，可以将第二状态信息、第二奖励信息以及第二接单响应信息输入到判别器中，以由判别器确定第二状态信息、第二奖励信息以及第二接单响应信息表征真实轨迹的概率；之后，根据该概率确定目标置信度参数。
[0086]
在本公开中，可以通过多种方式来根据上述概率，确定目标置信度参数。在一种实施方式中，可以直接将上述概率确定为目标置信度参数。
[0087]
在另一种实施方式中，可以根据上述概率和判别器在之前的训练过程中确定出的每一概率，确定目标置信度参数。这样，可以避免因模型训练累积误差导致的目标置信度参数的准确度受到影响，从而可以提升模型训练的效率和模型预测的准确度。
[0088]
示例地，可以将上述概率的对数与判别器在之前的训练过程中确定出的每一概率
的对数之和的相反数确定为目标置信度参数。
[0089]
另外，上述训练数据还可以包括参考运力在第二时段的第三奖励信息和第三接单响应信息，其中，第三奖励信息为参考运力在第二时段的真实奖励信息，第三接单响应信息为参考运力在第二时段的真实接单响应信息。此时，上述s104可以以目标置信度参数与第一联合概率分布的乘积最小化为目标，通过以下方式来对目标模型进行模型参数更新：
[0090]
以目标置信度参数与第一联合概率分布的乘积最小化为目标，对生成器进行模型参数更新；利用第三奖励信息、第三接单响应信息、第二状态信息、第二奖励信息、第二接单响应信息以及概率，对判别器进行模型参数更新。
[0091]
具体来说，可以以第一损失函数的输出和第二损失函数的输出之和最大化为目标，对判别器进行模型参数更新，其中，第一损失函数为与第二状态信息、第二奖励信息、第二接单响应信息和概率相关的函数，第二损失函数为与第二状态信息、第三奖励信息、第三接单响应信息和概率相关的函数。
[0092][0093]
其中，为第一损失函数；d(s,a,y)为上述概率；∫p(s)∫μ(a|s)∫m
*
(y|s,a)log(d(s,a,y))dy da ds为第二损失函数；μ(a|s)为第三奖励信息，m
*
(y|s,a)为第三接单响应信息。
[0094]
图2是根据一示例性实施例示出的一种信息处理方法的流程图。如图2所示，该信息处理方法可以包括以下s201～s202。
[0095]
在s201中，获取目标运力在目标时段的目标状态信息和目标奖励信息。
[0096]
在s202中，将目标状态信息和目标奖励信息输入到奖励预测模型中，得到目标运力在目标时段的目标接单响应信息和目标运力在目标时段的下一时段的预测奖励信息。
[0097]
在本公开中，上述奖励预测模型可以通过本公开提供的上述模型训练方法进行训练得到。
[0098]
在上述技术方案中，以目标置信度参数与第一联合概率分布的乘积最小化为目标，对目标模型进行模型参数更新，其中，目标置信度参数用于反映第二状态信息、第二奖励信息以及第二接单响应信息表征真实运力轨迹的置信度，第一联合概率分布为第二状态信息、第二奖励信息以及所述第二接单响应信息的联合概率分布。可见，目标模型的预测准确度越低，即目标模型学习的越不好，目标置信度参数越小，目标置信度参数与第一联合概率分布的乘积越接近于目标，从而能够在有较强确定性和选择偏差的数据集中重构出在反事实数据中具有良好泛化能力的奖励预测模型，以使得下游求解出更为正确的决策动作，即保证奖励预测模型预测的当前时段的接单响应信息和下一时段的奖励信息的准确度。另外，不仅能避免对运力进行手动抽象和刻画的复杂建模过程，还可避免人类认知缺失和偏差产生的奖励预测模型的预测误差，从而得到更准确的奖励预测模型。由此，可以合理地划分一天内不同时段的奖励，提升全天内运力的总接单意愿，提升用户体验。
[0099]
图3是根据一示例性实施例示出的一种模型训练装置的框图。如图3所示，该模型训练装置300可以包括：
[0100]
第一获取模块301，用于获取训练数据，所述训练数据包括参考运力在第一时段的
第一状态信息和第一奖励信息，以及所述参考运力在第二时段的第二状态信息，其中，所述第二时段为所述第一时段的下一时段；
[0101]
第一预测模块302，用于根据所述第一获取模块301获取到所述第一状态信息和所述第一奖励信息，通过目标模型预测所述参考运力在所述第一时段的第一接单响应信息，并根据所述第一接单响应信息和所述第一状态信息，预测所述参考运力在所述第二时段的第二奖励信息；
[0102]
第二预测模块303，用于根据所述第一获取模块301获取到的所述第二状态信息和所述第一预测模块302预测出的所述第二奖励信息，通过目标模型预测所述参考运力在所述第二时段的第二接单响应信息；
[0103]
更新模块304，用于以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述目标模型进行模型参数更新，其中，所述目标置信度参数用于反映所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息表征真实运力轨迹的置信度，所述第一联合概率分布为所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息的联合概率分布；
[0104]
触发模块305，用于：响应于不满足训练截止条件，触发所述第一获取模块301获取训练数据；响应于满足所述训练截止条件，获得奖励预测模型。
[0105]
在上述技术方案中，以目标置信度参数与第一联合概率分布的乘积最小化为目标，对目标模型进行模型参数更新，其中，目标置信度参数用于反映第二状态信息、第二奖励信息以及第二接单响应信息表征真实运力轨迹的置信度，第一联合概率分布为第二状态信息、第二奖励信息以及所述第二接单响应信息的联合概率分布。可见，目标模型的预测准确度越低，即目标模型学习的越不好，目标置信度参数越小，目标置信度参数与第一联合概率分布的乘积越接近于目标，从而能够在有较强确定性和选择偏差的数据集中重构出在反事实数据中具有良好泛化能力的奖励预测模型，以使得下游求解出更为正确的决策动作，即保证奖励预测模型预测的当前时段的接单响应信息和下一时段的奖励信息的准确度。另外，不仅能避免对运力进行手动抽象和刻画的复杂建模过程，还可避免人类认知缺失和偏差产生的奖励预测模型的预测误差，从而得到更准确的奖励预测模型。由此，可以合理地划分一天内不同时段的奖励，提升全天内运力的总接单意愿，提升用户体验。
[0106]
可选地，所述目标模型包括运力响应预测子模型和奖励预测子模型；
[0107]
其中，所述运力响应预测子模型，用于根据所述第一状态信息和所述第一奖励信息，预测所述第一接单响应信息；
[0108]
所述奖励预测子模型，与所述运力响应预测子模型连接，用于根据所述第一接单响应信息和所述第一状态信息，预测所述第二奖励信息；
[0109]
所述运力响应预测子模型，还用于根据所述第二状态信息和所述第二奖励信息，预测所述第二接单响应信息。
[0110]
可选地，所述目标模型为包括生成器和判别器的生成式对抗网络，所述生成器包括所述运力响应预测子模型和所述奖励预测子模型。
[0111]
可选地，所述装置300还包括：
[0112]
第一确定模块，用于通过所述判别器确定所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息表征真实轨迹的概率；
[0113]
第二确定模块，用于根据所述第一确定模块确定出的所述概率确定所述目标置信度参数。
[0114]
可选地，所述第二确定模块用于根据所述概率和所述判别器在之前的训练过程中确定出的每一概率，确定所述目标置信度参数。
[0115]
可选地，所述训练数据还包括所述参考运力在所述第二时段的第三奖励信息和第三接单响应信息；
[0116]
所述更新模块304包括：
[0117]
第一更新子模块，用于以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述生成器进行模型参数更新；
[0118]
第二更新子模块，用于利用所述第三奖励信息、所述第三接单响应信息、所述第二状态信息、所述第二奖励信息、所述第二接单响应信息以及所述概率，对所述判别器进行模型参数更新。
[0119]
可选地，所述第二更新子模块用于以第一损失函数的输出和第二损失函数的输出之和最大化为目标，对所述判别器进行模型参数更新，其中，所述第一损失函数为与所述第二状态信息、所述第二奖励信息、所述第二接单响应信息和所述概率相关的函数，所述第二损失函数为与所述第二状态信息、所述第三奖励信息、所述第三接单响应信息和所述概率相关的函数。
[0120]
图4是根据一示例性实施例示出的一种信息处理装置的框图。如图4所示，该信息处理装置400可以包括：
[0121]
第二获取模块401，用于获取目标运力在目标时段的目标状态信息和目标奖励信息；
[0122]
第三预测模块402，用于将所述第二获取模块401获取到的所述目标状态信息和所述目标奖励信息输入到奖励预测模型中，得到所述目标运力在所述目标时段的目标接单响应信息和所述目标运力在所述目标时段的下一时段的预测奖励信息，其中，所述奖励预测模型通过本公开提供的上述模型训练方法进行训练得到。
[0123]
在上述技术方案中，以目标置信度参数与第一联合概率分布的乘积最小化为目标，对目标模型进行模型参数更新，其中，目标置信度参数用于反映第二状态信息、第二奖励信息以及第二接单响应信息表征真实运力轨迹的置信度，第一联合概率分布为第二状态信息、第二奖励信息以及所述第二接单响应信息的联合概率分布。可见，目标模型的预测准确度越低，即目标模型学习的越不好，目标置信度参数越小，目标置信度参数与第一联合概率分布的乘积越接近于目标，从而能够在有较强确定性和选择偏差的数据集中重构出在反事实数据中具有良好泛化能力的奖励预测模型，以使得下游求解出更为正确的决策动作，即保证奖励预测模型预测的当前时段的接单响应信息和下一时段的奖励信息的准确度。另外，不仅能避免对运力进行手动抽象和刻画的复杂建模过程，还可避免人类认知缺失和偏差产生的奖励预测模型的预测误差，从而得到更准确的奖励预测模型。由此，可以合理地划分一天内不同时段的奖励，提升全天内运力的总接单意愿，提升用户体验。
[0124]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0125]
本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理
器执行时实现本公开提供的上述模型训练方法的步骤或信息处理方法的步骤。
[0126]
图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(i/o)接口504，以及通信组件505中的一者或多者。
[0127]
其中，处理器501用于控制该电子设备500的整体操作，以完成上述的模型训练方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(static random access memory，简称sram)，电可擦除可编程只读存储器(electrically erasable programmable read-only memory，简称eeprom)，可擦除可编程只读存储器(erasable programmable read-only memory，简称eprom)，可编程只读存储器(programmable read-only memory，简称prom)，只读存储器(read-only memory，简称rom)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。i/o接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如wi-fi，蓝牙，近场通信(near field communication，简称nfc)，2g、3g、4g、nb-iot、emtc、或其他5g等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件505可以包括：wi-fi模块，蓝牙模块，nfc模块等等。
[0128]
在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(application specific integrated circuit，简称asic)、数字信号处理器(digital signal processor，简称dsp)、数字信号处理设备(digital signal processing device，简称dspd)、可编程逻辑器件(programmable logic device，简称pld)、现场可编程门阵列(field programmable gate array，简称fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的模型训练方法。
[0129]
在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的模型训练方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的模型训练方法。
[0130]
图6是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以被提供为一服务器。参照图6，电子设备600包括处理器622，其数量可以为一个或多个，以及存储器632，用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器622可以被配置为执行该计算机程序，以执行上述的模型训练方法。
[0131]
另外，电子设备600还可以包括电源组件626和通信组件650，该电源组件626可以
被配置为执行电子设备600的电源管理，该通信组件650可以被配置为实现电子设备600的通信，例如，有线或无线通信。此外，该电子设备600还可以包括输入/输出(i/o)接口658。电子设备600可以操作基于存储在存储器632的操作系统，例如windows server
tm
，mac os x
tm
，unix
tm
，linux
tm
等等。
[0132]
在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的模型训练方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器632，上述程序指令可由电子设备600的处理器622执行以完成上述的模型训练方法。
[0133]
在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的模型训练方法的代码部分。
[0134]
图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(i/o)接口704，以及通信组件705中的一者或多者。
[0135]
其中，处理器701用于控制该电子设备700的整体操作，以完成上述的信息处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(static random access memory，简称sram)，电可擦除可编程只读存储器(electrically erasable programmable read-only memory，简称eeprom)，可擦除可编程只读存储器(erasable programmable read-only memory，简称eprom)，可编程只读存储器(programmable read-only memory，简称prom)，只读存储器(read-only memory，简称rom)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。i/o接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如wi-fi，蓝牙，近场通信(near field communication，简称nfc)，2g、3g、4g、nb-iot、emtc、或其他5g等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：wi-fi模块，蓝牙模块，nfc模块等等。
[0136]
在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(application specific integrated circuit，简称asic)、数字信号处理器(digital signal processor，简称dsp)、数字信号处理设备(digital signal processing device，简称dspd)、可编程逻辑器件(programmable logic device，简称pld)、现场可编程门阵列(field programmable gate array，简称fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的信息处理方法。
[0137]
在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的信息处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的信息处理方法。
[0138]
图8是根据一示例性实施例示出的一种电子设备800的框图。例如，电子设备800可以被提供为一服务器。参照图8，电子设备800包括处理器822，其数量可以为一个或多个，以及存储器832，用于存储可由处理器822执行的计算机程序。存储器832中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器822可以被配置为执行该计算机程序，以执行上述的信息处理方法。
[0139]
另外，电子设备800还可以包括电源组件826和通信组件850，该电源组件826可以被配置为执行电子设备800的电源管理，该通信组件850可以被配置为实现电子设备800的通信，例如，有线或无线通信。此外，该电子设备800还可以包括输入/输出(i/o)接口858。电子设备800可以操作基于存储在存储器832的操作系统，例如windows server
tm
，mac os x
tm
，unix
tm
，linux
tm
等等。
[0140]
在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的信息处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器832，上述程序指令可由电子设备800的处理器822执行以完成上述的信息处理方法。
[0141]
在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的信息处理方法的代码部分。
[0142]
以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。
[0143]
另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。
[0144]
此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

技术特征：
1.一种模型训练方法，其特征在于，包括：获取训练数据，所述训练数据包括参考运力在第一时段的第一状态信息和第一奖励信息，以及所述参考运力在第二时段的第二状态信息，其中，所述第二时段为所述第一时段的下一时段；根据所述第一状态信息和所述第一奖励信息，通过目标模型预测所述参考运力在所述第一时段的第一接单响应信息，并根据所述第一接单响应信息和所述第一状态信息，预测所述参考运力在所述第二时段的第二奖励信息；根据所述第二状态信息和所述第二奖励信息，通过目标模型预测所述参考运力在所述第二时段的第二接单响应信息；以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述目标模型进行模型参数更新，其中，所述目标置信度参数用于反映所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息表征真实运力轨迹的置信度，所述第一联合概率分布为所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息的联合概率分布；响应于不满足训练截止条件，重新执行所述获取训练数据的步骤至所述以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述目标模型进行模型参数更新的步骤；响应于满足所述训练截止条件，获得奖励预测模型。2.根据权利要求1所述的方法，其特征在于，所述目标模型包括运力响应预测子模型和奖励预测子模型；其中，所述运力响应预测子模型，用于根据所述第一状态信息和所述第一奖励信息，预测所述第一接单响应信息；所述奖励预测子模型，与所述运力响应预测子模型连接，用于根据所述第一接单响应信息和所述第一状态信息，预测所述第二奖励信息；所述运力响应预测子模型，还用于根据所述第二状态信息和所述第二奖励信息，预测所述第二接单响应信息。3.根据权利要求2所述的方法，其特征在于，所述目标模型为包括生成器和判别器的生成式对抗网络，所述生成器包括所述运力响应预测子模型和所述奖励预测子模型。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：通过所述判别器确定所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息表征真实轨迹的概率；根据所述概率确定所述目标置信度参数。5.根据权利要求4所述的方法，其特征在于，所述根据所述概率确定所述目标置信度参数，包括：根据所述概率和所述判别器在之前的训练过程中确定出的每一概率，确定所述目标置信度参数。6.根据权利要求4所述的方法，其特征在于，所述训练数据还包括所述参考运力在所述第二时段的第三奖励信息和第三接单响应信息；所述以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述目标模型进行模型参数更新，包括：
以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述生成器进行模型参数更新；利用所述第三奖励信息、所述第三接单响应信息、所述第二状态信息、所述第二奖励信息、所述第二接单响应信息以及所述概率，对所述判别器进行模型参数更新。7.根据权利要求6所述的方法，其特征在于，所述利用所述第三奖励信息、所述第三接单响应信息、所述第二状态信息、所述第二奖励信息、所述第二接单响应信息以及所述概率，对所述判别器进行模型参数更新，包括：以第一损失函数的输出和第二损失函数的输出之和最大化为目标，对所述判别器进行模型参数更新，其中，所述第一损失函数为与所述第二状态信息、所述第二奖励信息、所述第二接单响应信息和所述概率相关的函数，所述第二损失函数为与所述第二状态信息、所述第三奖励信息、所述第三接单响应信息和所述概率相关的函数。8.一种信息处理方法，其特征在于，包括：获取目标运力在目标时段的目标状态信息和目标奖励信息；将所述目标状态信息和所述目标奖励信息输入到奖励预测模型中，得到所述目标运力在所述目标时段的目标接单响应信息和所述目标运力在所述目标时段的下一时段的预测奖励信息，其中，所述奖励预测模型通过权利要求1-7中任一项所述的模型训练方法进行训练所得。9.一种模型训练装置，其特征在于，包括：第一获取模块，用于获取训练数据，所述训练数据包括参考运力在第一时段的第一状态信息和第一奖励信息，以及所述参考运力在第二时段的第二状态信息，其中，所述第二时段为所述第一时段的下一时段；第一预测模块，用于根据所述第一获取模块获取到所述第一状态信息和所述第一奖励信息，通过目标模型预测所述参考运力在所述第一时段的第一接单响应信息，并根据所述第一接单响应信息和所述第一状态信息，预测所述参考运力在所述第二时段的第二奖励信息；第二预测模块，用于根据所述第一获取模块获取到的所述第二状态信息和所述第一预测模块预测出的所述第二奖励信息，通过目标模型预测所述参考运力在所述第二时段的第二接单响应信息；更新模块，用于以目标置信度参数与第一联合概率分布的乘积最小化为目标，对所述目标模型进行模型参数更新，其中，所述目标置信度参数用于反映所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息表征真实运力轨迹的置信度，所述第一联合概率分布为所述第二状态信息、所述第二奖励信息以及所述第二接单响应信息的联合概率分布；触发模块，用于：响应于不满足训练截止条件，触发所述第一获取模块获取训练数据；响应于满足所述训练截止条件，获得奖励预测模型。10.一种信息处理装置，其特征在于，包括：第二获取模块，用于获取目标运力在目标时段的目标状态信息和目标奖励信息；第三预测模块，用于将所述第二获取模块获取到的所述目标状态信息和所述目标奖励信息输入到奖励预测模型中，得到所述目标运力在所述目标时段的目标接单响应信息和所
述目标运力在所述目标时段的下一时段的预测奖励信息，其中，所述奖励预测模型通过权利要求1-7中任一项所述的模型训练方法进行训练所得。11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。12.一种电子设备，其特征在于，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-8中任一项所述方法的步骤。

技术总结
本公开涉及一种模型训练、信息处理方法、装置、介质及电子设备。方法包括：获取训练数据，包括参考运力在第一时段的第一状态信息、第一奖励信息及第二时段的第二状态信息；根据第一状态信息和第一奖励信息，通过目标模型预测第一时段的第一接单响应信息和第二时段的第二奖励信息；根据第二状态信息和第二奖励信息，通过模型预测第二时段的第二接单响应信息；以目标置信度参数与第一联合概率分布的乘积最小化为目标，对模型进行参数更新；若不满足训练截止条件，则返回获取训练数据的步骤；否则，获得奖励预测模型。这样，能在有较强确定性和选择偏差的数据集中重构出在反事实数据中具有良好泛化能力的奖励预测模型，使下游求解出正确的决策动作。解出正确的决策动作。解出正确的决策动作。

技术研发人员：俞扬詹德川周志华于志华陈雄辉陈振军吴奕男黄方胜
受保护的技术使用者：北京三快在线科技有限公司
技术研发日：2022.03.09
技术公布日：2023/9/23

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

航空商城 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：服务管理系统以及服务管理方法与流程 下一篇：内容处理方法、装置和计算机可读存储介质与流程

模型训练、信息处理方法、装置、介质及电子设备与流程

版权声明

评论

航空之家

相关推荐

文章排行

最近发表

标签列表

模型训练、信息处理方法、装置、介质及电子设备与流程

版权声明

相关文章

评论

航空之家

相关推荐

文章排行

最近发表

标签列表