策略生成方法、装置、处理器及电子设备与流程

未命名 09-22 阅读：98 评论：0

1.本发明涉及交易策略领域，具体而言，涉及一种策略生成方法、装置、处理器及电子设备。

背景技术：

2.传统的交易策略确定时需要考虑许多复杂的方面，如，存在交易成本、策略实施细节和时间延迟等众多需要考虑的方面，因此相关技术中如何确定出一个较优的交易策略是一个具有的挑战性问题，采用相关技术中提供的方法生成交易策略后，使用生成的交易策略进行交易时，得到的交易结果与预期不符技术问题。
3.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

4.本发明实施例提供了一种策略生成方法、装置、处理器及电子设备，以至少解决相关技术中交易策略生成后，使用生成的交易策略进行交易时，得到的交易结果与预期不符的技术问题。
5.根据本发明实施例的一个方面，提供了一种策略生成方法，包括：获取目标产品的限价订单数据；将限价订单数据输入至策略生成模型的特征提取模块中，提取限价订单数据的特征，得到目标产品的目标特征，其中，策略生成模型依据样本数据训练初始模型得到，样本数据包括样本限价订单数据，样本策略；将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值；将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，其中，初始策略为买入或卖出目标产品的策略；将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数；在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略。
6.可选地，将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值，包括：在状态值确定模块中，依据分支估计值函数与目标特征，确定目标产品的状态值。
7.可选地，将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值之后，还包括：在状态值包括初始状态值与目标状态值的情况下，确定状态转移矩阵，其中，状态转移矩阵中矩阵元表示从初始状态跳转至与矩阵元对应的下一状态值的概率；依据状态转移矩阵与初始状态值，确定目标状态值；依据目标状态值，更新分支估计值函数。
8.可选地，将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，包括：在初始策略确定模块中，获取目标产品的预定价格数据；在初始策略确定模块中，依据预定价格数据对状态值进行加权处理，得到加权状态值；在初始策略确定模块中，依据加权状态值，确定目标产品的初始策略。
9.可选地，将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数，包括：在目标策略确定模块中，依据分支估计优势函数，确定初始策略的优劣指数。
10.可选地，将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数，包括：在目标策略确定模块中，确定与目标产品对应的基线策略；在目标策略确定模块中，采用分支估计优势函数比较初始策略与基线策略，确定初始策略的优劣指数。
11.可选地，在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略，包括：在目标策略确定模块中，优劣指数小于预定阈值的情况下，采用预定强化学习算法更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标策略，其中，预定强化学习算法界定有与目标产品对应的预定强化学习范围。
12.根据本发明实施例的一个方面，提供了一种策略生成装置，包括：获取模块，用于获取目标产品的限价订单数据；提取模块，用于将限价订单数据输入至策略生成模型的特征提取模块中，提取限价订单数据的特征，得到目标产品的目标特征，其中，策略生成模型依据样本数据训练初始模型得到，样本数据包括样本限价订单数据，样本策略；第一确定模块，用于将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值；第二确定模块，用于将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，其中，初始策略为买入或卖出目标产品的策略；第三确定模块，用于将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数；第四确定模块，用于在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略。
13.根据本发明实施例的一个方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的方法。
14.根据本发明实施例的一个方面，提供了一种电子设备，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述任意一项所述的方法。
15.在本发明实施例中，获取目标产品的限价订单数据，提取限价订单数据的特征，得到目标产品的目标特征，依据目标特征，确定目标产品的状态值，依据状态值，确定目标产品的初始策略，再通过确定初始策略的优劣指数，评估初始策略的优劣，在优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略，以使用目标策略对目标产品进行购入或卖出操作。由于初始策略是根据特征得到的状态值生成的，而且初始策略又会不断的更新优化，最终得到优劣指数大于或等于预定阈值的目标策略，因此，能够保证得到的目标策略是与预期一致的，进而解决了相关技术中交易策略生成后，使用生成的交易策略进行交易时，得到的交易结果与预期不符的技术问题。
附图说明
16.构成本技术的一部分的附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
17.图1是根据本技术实施例提供的策略生成方法的流程图；
18.图2是根据本技术实施例提供的策略生成装置的结构框图；
19.图3是本发明实施例提供的电子设备的示意图。
具体实施方式
20.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
21.需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。
22.下面结合优选的实施步骤对本发明进行说明，图1是根据本技术实施例提供的策略生成方法的流程图，如图1所示，该方法包括如下步骤：
23.步骤s101，获取目标产品的限价订单数据；
24.在本技术提供的步骤s101中，获取了目标产品的限价订单数据，获取目标产品的限价订单数据的途径有很多，例如，可以获取目标交易所中所有的限价订单数据，其中会包括目标产品的限价订单数据，限价订单数据是指在交易市场中，所有提交的限价委托单的集合，对于目标产品的限价订单数据，即为对于目标产品，所有提交的限价委托单的集合。每个目标产品都有一个相应的限价订单簿，其中包含了买入和卖出该产品的所有限价委托单，按价格从高到低或从低到高排序。这些数据通常通过电子交易平台公开展示，并且可以提供用于分析市场趋势和制定交易策略。
25.步骤s102，将限价订单数据输入至策略生成模型的特征提取模块中，提取限价订单数据的特征，得到目标产品的目标特征，其中，策略生成模型依据样本数据训练初始模型得到，样本数据包括样本限价订单数据，样本策略；
26.在本技术提供的步骤s102中，提取了限价订单数据的特征，其中，可以提取多方面的特征，如，价格，数量，挂单时间，市场情况，竞争力度，历史统计数据等等方面的特征。
27.需要说明的是，这一过程采用策略生成模型执行，由于模型是经过样本数据训练好的模型，因此，能够得到更佳的目标策略。而且能够快速处理大量的限价订单数据，加快本技术所记载方法的执行进程。
28.步骤s103，将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值；
29.在本技术提供的步骤s103中，依据目标特征，确定了目标产品的状态值，其中，状态值是指在某一时刻下，该产品的市场情况、交易量和价格等信息所组成的一个状态。这个状态值可以用于预测未来一段时间内该产品的走势。
30.步骤s104，将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，其中，初始策略为买入或卖出目标产品的策略；
31.在本技术提供的步骤s104中，会依据状态值，制定一个买入或卖出该目标产品的
初始策略。在使用本技术所提供的方法时，通常会先定义一个初始策略，然后根据状态和已有数据进行迭代更新，以便得到更加精确的估算结果。
32.需要说明的是，这个初始策略可以是根据状态值初步确定的合理的决策方案，在实际应用中可能涉及到多种因素，如市场趋势、风险偏好等。具体而言，在产品限价订单数据处理中，可能需要考虑买入或卖出产品数量、价格等信息，并结合历史交易数据、市场走向等因素进行综合分析和决策。
33.步骤s105，将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数；
34.在本技术提供的步骤s105中，优劣指数可以用来衡量不同策略的优劣程度。优劣指数通常表示不同决策路径下与预期的差异，能够更准确地评估每个策略的潜在价值，并据此做出最佳决策。
35.步骤s106，在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略。
36.在本技术提供的步骤s106中，在优劣指数小于预定阈值的情况下，说明当前的初始策略不够好，需要对初始策略进行更新，直至得到优化后的，优劣指数大于或等于预定阈值的策略。在更新和改善这个初始策略时，采用算法或模型的方式，以能够更好地更新初始策略，逐步提高其性能并最终得到最佳交易策略。
37.通过上述步骤，获取目标产品的限价订单数据，提取限价订单数据的特征，得到目标产品的目标特征，依据目标特征，确定目标产品的状态值，依据状态值，确定目标产品的初始策略，再通过确定初始策略的优劣指数，评估初始策略的优劣，在优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略，以使用目标策略对目标产品进行购入或卖出操作。由于初始策略是根据特征得到的状态值生成的，而且初始策略又会不断的更新优化，最终得到优劣指数大于或等于预定阈值的目标策略，因此，能够保证得到的目标策略是与预期一致的，进而解决了相关技术中交易策略生成后，使用生成的交易策略进行交易时，得到的交易结果与预期不符的技术问题。
38.需要说明的是，上述步骤采用马尔科夫决策过程模型中的部分模块进行改进后进行，在模型中可以采用强化学习算法，以加强生成的目标策略的有益性。
39.作为一种可选的实施例，将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值，包括：在状态值确定模块中，依据分支估计值函数与目标特征，确定目标产品的状态值。
40.在该实施例中，在制定策略的过程中，会预测产品价格走势，预测产品价格走势时，每个不同时间点都会形成一个新的“当前状态”。需要确定出这些状态下的状态值，从而更好地把握未来市场变动趋势，并制定相应交易策略。
41.通过分支估计值函数确定状态值，能够达到减少计算量，提高搜索效率，改善决策质量的效果。即，分支估计值函数可以通过一些启发式的方法来近似状态值，从而减少了完全搜索所有可能行动所需的计算量。对于复杂问题，在有限时间内进行完整搜索是不可能的。因此采用分支估计值函数，可以在有限时间内尽可能地探索更多状态，并且选择最优解。而且由于分支估计值函数能够提供较为准确的状态值预测，因此在实际应用中，通常能
够帮助做出更好的决策，并获得更好的结果。
42.作为一种可选的实施例，将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值之后，还包括：在状态值包括初始状态值与目标状态值的情况下，确定状态转移矩阵，其中，状态转移矩阵中矩阵元表示从初始状态跳转至与矩阵元对应的下一状态值的概率；依据状态转移矩阵与初始状态值，确定目标状态值；依据目标状态值，更新分支估计值函数。
43.在该实施例中，说明了通过状态转移矩阵更新分支估计值函数的过程，详细过程可以如下：确定当前状态的估计值函数，根据状态转移矩阵和动作价值函数得到所有可能的下一个状态及其对应的概率和奖励。对每个下一个状态，根据之前得到的估计值函数，计算其期望回报(即考虑未来各种可能性所带来回报时的加权平均)。将所有期望回报相加并乘以对应概率，得到当前状态在采取某一动作后的预期回报。这就是该动作在该状态下的新估计值。重复以上步骤直至达到收敛或设定迭代次数。通过这样不断更新分支估计值函数，达到最优分支估计值函数的效果。
44.作为一种可选的实施例，将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，包括：在初始策略确定模块中，获取目标产品的预定价格数据；在初始策略确定模块中，依据预定价格数据对状态值进行加权处理，得到加权状态值；在初始策略确定模块中，依据加权状态值，确定目标产品的初始策略。
45.在该实施例中，涉及了预定价格数据，该预定价格数据可以理解为人工定向价格信号，人工定向价格信号指的是对某一状态下可能的行为进行加权，以表达该状态下每个行为被选择的概率。这些权重通常称作价值函数或q函数，它们可以用来确定最佳策略和相应的奖励。在强化学习任务中，这些价值函数是通过观察环境并不断更新而得出的，并且其精度对于一个良好训练结果至关重要，能够确定出一个相对准确的初始策略。
46.作为一种可选的实施例，将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数，包括：在目标策略确定模块中，依据分支估计优势函数，确定初始策略的优劣指数。
47.在该实施例中，分支估计优势函数可以帮助确定策略的优劣，从而指导在决策时做出更明智的选择。依据分支估计优势函数，确定初始策略的优劣指数，可以提高决策效率，改善学习性能，增加鲁棒性。即，分支估计优势函数通过对每个行动的预期回报进行评估，分支估计优势函数可以帮助快速判断哪些行动更可能获得更大的回报，并且避免探索那些无意义或低回报的行动。由于分支估计优势函数考虑了未来状态的价值，因此它可以提供更全面、准确和可靠的信息，以便训练模型并逐步改进策略。
48.作为一种可选的实施例，将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数，包括：在目标策略确定模块中，确定与目标产品对应的基线策略；在目标策略确定模块中，采用分支估计优势函数比较初始策略与基线策略，确定初始策略的优劣指数。
49.在该实施例中，通过比较初始策略和基线策略的优劣指数，可以明确两者之间存在多大差距。这有助于确定改进初始策略所需做出的调整。而且有了明确的优劣指数，就能更好地制定决策。例如，如果发现初始策略表现较差，则需要采取措施来改善它或者寻找其他替代方案。
50.作为一种可选的实施例，在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略，包括：在目标策略确定模块中，优劣指数小于预定阈值的情况下，采用预定强化学习算法更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标策略，其中，预定强化学习算法界定有与目标产品对应的预定强化学习范围。
51.在该实施例中，通过采用预定强化学习算法更新初始策略，并为预定强化学习算法界定与目标产品对应的预定强化学习范围能够更加专注于目标产品，通过预定强化学习范围，算法可以将注意力集中在目标产品上，而不是分散在其他不相关的产品或市场因素上。而且由于算法只关注与目标产品相关的信息和趋势，因此其决策会更加精准，可以提高交易策略准确性。而且，如果算法没有明确定义的强化学习范围，则可能会存在过多地适应历史数据并且无法很好地泛化到未来数据的风险，通过界定强化学习范围能够减少过拟合风险，通过定义一个特定的范围，可以帮助避免这种情况发生。而且也可以大幅度缩小状态空间或动作空间规模,因此显著提高了计算资源利用率以及加快收敛速度。
52.基于上述实施例及可选实施例，提供了一种可选实施方式，下面具体说明。
53.本发明可选实施方式中提供了一种策略生成方法，下面对本发明可选实施方式提供的方法进行介绍：
54.1)数据输入：在本发明可选实施方式中，考虑了来自产品交易所的产品限价订单簿数据，也使用了价格-时间优先级来进行优先级划分。在数据输入过程中，可以通过重播历史消息数据来跟踪限价订单簿的状态，包括新进的限价订单、订单取消或订单修改。然后，强化学习代理可以将新消息注入顺序流，从而从限价订单簿的历史状态更改限价订单簿的状态。模拟器从而可以获取到实时限价订单簿的动态，因此，每一个市场订单都从限价订单簿中获取流动性，从而产生直接的价格影响。
55.2)建立双向深度强化学习的模型：通过结合了双重q学习和神经网络中的对决dueling架构的双重对决q学习double duelling q-learning算法，该算法保持动作选择(主网络)和动作验证(目标网络)中的独立的q-network权值来稳定学习过程。然后，每隔几次迭代，就会沿着主网络权值的方向逐步更新目标网络的权值。另一方面，duelling网络架构使用了两个独立的网络分支(同时用于主q网络和目标q网络)。一个分支估计值函数v(s)＝maxaq(s，a)，而另一个分支估计优势函数a(s，a)＝q(s，a)-v(s)。上述公式中的s代表强化学习中的状态，a代表强化学习中的动作。选择这样的架构的好处在于，单个动作在某些状态中的优势可能是无关的，而状态值可以更容易地学习，这足以进行动作值近似。
56.3)建模马尔可夫决策过程(mdp)：将交易者问题建模为一个马尔可夫决策过程(mdp)，由元组(s，a，t，r，γ)来描述。其中的s表示状态空间，a表示动作空间，t表示随机转移函数，r表示奖励函数，γ为折扣因子。观察t时刻的当前环境状态s
t
∈s，交易者在a
t
∈a采取行动，导致环境根据随机过渡函数t(s
t+1
|s
t
,a
t
)进入过渡状态。在从s
t
过渡到s
t+1
后，代理会收到一个奖励r
t+1
＝r(s
t
,a
t
,s
t+1
)。使用深度双q学习deep double q-learning与对决duelling网络架构来近似最优的q函数。为了加快学习过程，采用了加速器卓越平台apex训练架构，它将使用并行环境进行的异步体验采样与从经验重放缓冲区中进行的非策略学习相结合。每一节都会产生一个体验轨迹τi＝{s
t
，a
t
}，其中许多都是从并行环境实例中采样的，然后存储在重放缓冲区中。环境采样是使用在cpu上运行的并行进程异步完成的。然后，
从缓冲区中经验数据进行随机采样和批处理，以执行gpu上q网络q-network的策略改进步骤。从经验缓冲区中进行优先级采样已经被证明会在噪声问题设置中降低性能，因此从缓冲区中进行均匀采样。经过足够数量的培训步骤后，新策略复制到每个cpu工作人员以更新行为策略。
57.4)实现人工定向价格信号：人工定向价格信号d
t
代理接收建模为离散概率分布3类，对应于平均中间价格下降，保持稳定，或增加在一个固定的未来时间范围。为了达到信号过程的现实时间稳定水平，d
t
的值是一个指数加权平均值，具有持久性系数φ∈(0,1)。
58.5)界定强化学习的问题范围：在每个时间步t，代理将收到一个新的状态观察s
t
。s
t
由当前剩下的时间集的持续时间t，代理的现金余额ct，产品库存x
t
，编码为价格下降的概率，保持近似恒定，或增加；最佳出价和数量，包括代理在投标时公布的数量：o
b,t
(投标价)和o
a,t
(询问价)。除了t时刻最新可观测变量外，代理还观察之前的l值的历史，每当限价订单簿中有观察到的变化时，这些值就会更新。在接收到状态观察后，代理然后选择一个动作。它可以在出价、报价中或要价时下达单股的买卖限价指令；或者什么也不做，进入下一个时间步。该操作将立即导致允许库存约束之外的头寸，且也不会触发订单。每当执行静止限价订单使库存超出允许的限制条件时，就会触发相反方向的市场订单，将空头头寸减少到pos
min
(最小位置)，或者将多头头寸减少到pos
max
(最大位置)。
59.动作分为三个维度：买订单，卖订单，以及一个跳过订单动作。除了第三个维度跳过订单动作外，第一个维度编码交易方向(卖出或买入)，第二个维度编码价格水平(出价、中价或询问)。例如，a＝(1,0)描述了以中等价格下购买订单的操作，而a＝(-1,1)描述了最多是询问的卖出订单。奖励由基于损益的奖励和定向奖励的凸组合组成。r
pnlt+1
是代理按市值计算的组合价值的日志回报，包括现金和当前库存价值，以中价标记。日志回报的好处是，随着时间的推移，它们是相加的，而不是像总回报那样乘法，定向奖励条款r
dirt+1
激励代理沿信号方向持有订单，并惩罚代理对与信号相反的方向订单位置。定向奖励的大小可以通过参数进行调整。此外，如果信号[-1,0,1]
·dt
与库存x
t
有相反的符号，则r
dirt+1
为负值。这一点可以总结如下：定向奖励w
dir
∈[0,1)的权重在每一个学习步骤中都减少了一个因子ψ∈(0,1)，
[0060]wdir
←
ψw
dir
；
[0061]
所以最初代理很快学会了在信号方向上交易。在学习过程中，r
pnlt
占主导地位，代理使其按市值计价的利润最大化。
[0062]
6)建立用于强化学习策略比较的基线策略：将学习到的强化学习策略与基线交易策略进行比较，该算法将接收相同的人为干扰的未来价格高频信号。当信号表明价格定向上涨或下跌时，直到达到仓位的限制时，基准政策就会跨越价差，以实现积极的交易。基线交易算法中的信号方向被确定为得分最高(向下、中性或向上)的预测类。当信号从向上或向下变化为中性，表明没有立即的预期价格波动时，基线策略会被动地缓慢减少头寸规模，直到仓位被清除。这样一种启发式使用了与强化学习代理相同的动作空间，并且比只使用被动订单(在近触)或仅使用激进订单(在远触)进行交易产生了更好的性能。经试验绘制了测试周期的17秒模拟窗口，将模拟的基线策略与强化学习策略进行比较。可以看出限价订单簿的价格受到交易活动的影响，因为这两种策略除了向历史订单，还向市场注入了新的订单流，从而以最佳出价消耗或增加流动性。由于预测未来价格下降和上涨之间的信号转
换，基线策略造成了微小的损失。这导致基线策略积极地交易，用每笔交易支付差价。另一方面，强化学习策略通过更被动地退出多头头寸，以及在建立新头寸时，来更好地应对这一困难的时期。特别是在所描述的时间段的后半段时期，强化学习交易策略添加了大量的被动购买订单，它将订单与它们的执行或取消连接起来，其中一些订单发生在所描述的周期之后。
[0063]
7)模型应用：应用强化学习模型的策略进行样本外的交易表现是通过账户曲线的可视化来展示。曲线显示对所有测试事件的按时间顺序进行评估的组合价值的演变。每条账户曲线都显示了它旁边的平均情景对数返回μ和相应的夏普比率。所有强化学习派生的策略都能够优于它们的各自基线策略。在31个测试集中，累积的强化学习算法优于基线策略的性能在a＝1.3到a＝1.1百分点之间(a＝1.6为20.7个百分点)。在最低信噪比(a＝1.1)的信号情况下，基线策略在测试期间造成损失，而强化学习代理学习了一个平均回报约为零的交易策略。总的来说，它产生了足够强大的表现，在交易活跃和产生交易成本的同时不亏损交易。与同一时期内的买入并持有策略相比，噪声强化学习策略同样会产生暂时的优于表现，两种账户曲线最终持平，回报率在零附近。检查夏普比率时，发现使用强化学习来优化交易策略能够显著地提高夏普比率。因此，强化学习策略回报的增加不能简单地解释为承担更多的市场风险。
[0064]
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
[0065]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。
[0066]
根据本发明实施例，还提供了一种用于实施上述策略生成方法的装置，图2是根据本技术实施例提供的策略生成装置的结构框图，如图2所示，该装置包括：获取模块201，提取模块202，第一确定模块203，第二确定模块204，第三确定模块205和第四确定模块206，下面对该装置进行详细说明。
[0067]
获取模块201，用于获取目标产品的限价订单数据；提取模块202，连接于上述获取模块201，用于将限价订单数据输入至策略生成模型的特征提取模块中，提取限价订单数据的特征，得到目标产品的目标特征，其中，策略生成模型依据样本数据训练初始模型得到，样本数据包括样本限价订单数据，样本策略；第一确定模块203，连接于上述提取模块202，用于将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值；第二确定模块204，连接于上述第一确定模块203，用于将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，其中，初始策略为买入或卖出目标产品的策略；第三确定模块205，连接于上述第二确定模块204，用于将初始策略输入至策略生成模型的
目标策略确定模块中，确定初始策略的优劣指数；第四确定模块206，连接于上述第三确定模块205，用于在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略。
[0068]
此处需要说明的是，上述获取模块201，提取模块202，第一确定模块203，第二确定模块204，第三确定模块205和第四确定模块206对应于实施策略生成方法中的步骤s101至步骤s106，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例所公开的内容。
[0069]
本技术实施例提供的策略生成装置，获取目标产品的限价订单数据，提取限价订单数据的特征，得到目标产品的目标特征，依据目标特征，确定目标产品的状态值，依据状态值，确定目标产品的初始策略，再通过确定初始策略的优劣指数，评估初始策略的优劣，在优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略，以使用目标策略对目标产品进行购入或卖出操作。由于初始策略是根据特征得到的状态值生成的，而且初始策略又会不断的更新优化，最终得到优劣指数大于或等于预定阈值的目标策略，因此，能够保证得到的目标策略是能够达到与预期一致的效果的，进而解决了相关技术中交易策略生成后，使用生成的交易策略进行交易时，得到的交易结果与预期不符的技术问题。
[0070]
策略生成装置包括处理器和存储器，上述多个模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0071]
处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决了相关技术中交易策略生成后，使用生成的交易策略进行交易时，得到的交易结果与预期不符的技术问题。
[0072]
存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
[0073]
本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现策略生成方法。
[0074]
本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行策略生成方法。
[0075]
图3是本发明实施例提供的电子设备的示意图，如图3所示，本发明实施例提供了一种电子设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：获取目标产品的限价订单数据；将限价订单数据输入至策略生成模型的特征提取模块中，提取限价订单数据的特征，得到目标产品的目标特征，其中，策略生成模型依据样本数据训练初始模型得到，样本数据包括样本限价订单数据，样本策略；将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值；将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，其中，初始策略为买入或卖出目标产品的策略；将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数；在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略。
[0076]
可选地，将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的
状态值，包括：在状态值确定模块中，依据分支估计值函数与目标特征，确定目标产品的状态值。
[0077]
可选地，将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值之后，还包括：在状态值包括初始状态值与目标状态值的情况下，确定状态转移矩阵，其中，状态转移矩阵中矩阵元表示从初始状态跳转至与矩阵元对应的下一状态值的概率；依据状态转移矩阵与初始状态值，确定目标状态值；依据目标状态值，更新分支估计值函数。
[0078]
可选地，将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，包括：在初始策略确定模块中，获取目标产品的预定价格数据；在初始策略确定模块中，依据预定价格数据对状态值进行加权处理，得到加权状态值；在初始策略确定模块中，依据加权状态值，确定目标产品的初始策略。
[0079]
可选地，将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数，包括：在目标策略确定模块中，依据分支估计优势函数，确定初始策略的优劣指数。
[0080]
可选地，将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数，包括：在目标策略确定模块中，确定与目标产品对应的基线策略；在目标策略确定模块中，采用分支估计优势函数比较初始策略与基线策略，确定初始策略的优劣指数。
[0081]
可选地，在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略，包括：在目标策略确定模块中，优劣指数小于预定阈值的情况下，采用预定强化学习算法更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标策略，其中，预定强化学习算法界定有与目标产品对应的预定强化学习范围。
[0082]
本文中的设备可以是服务器、pc、pad、手机等。
[0083]
本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取目标产品的限价订单数据；将限价订单数据输入至策略生成模型的特征提取模块中，提取限价订单数据的特征，得到目标产品的目标特征，其中，策略生成模型依据样本数据训练初始模型得到，样本数据包括样本限价订单数据，样本策略；将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值；将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，其中，初始策略为买入或卖出目标产品的策略；将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数；在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略。
[0084]
可选地，将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值，包括：在状态值确定模块中，依据分支估计值函数与目标特征，确定目标产品的状态值。
[0085]
可选地，将目标特征输入至策略生成模型的状态值确定模块中，确定目标产品的状态值之后，还包括：在状态值包括初始状态值与目标状态值的情况下，确定状态转移矩阵，其中，状态转移矩阵中矩阵元表示从初始状态跳转至与矩阵元对应的下一状态值的概率；依据状态转移矩阵与初始状态值，确定目标状态值；依据目标状态值，更新分支估计值
函数。
[0086]
可选地，将状态值输入至策略生成模型的初始策略确定模块中，确定目标产品的初始策略，包括：在初始策略确定模块中，获取目标产品的预定价格数据；在初始策略确定模块中，依据预定价格数据对状态值进行加权处理，得到加权状态值；在初始策略确定模块中，依据加权状态值，确定目标产品的初始策略。
[0087]
可选地，将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数，包括：在目标策略确定模块中，依据分支估计优势函数，确定初始策略的优劣指数。
[0088]
可选地，将初始策略输入至策略生成模型的目标策略确定模块中，确定初始策略的优劣指数，包括：在目标策略确定模块中，确定与目标产品对应的基线策略；在目标策略确定模块中，采用分支估计优势函数比较初始策略与基线策略，确定初始策略的优劣指数。
[0089]
可选地，在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略，包括：在目标策略确定模块中，优劣指数小于预定阈值的情况下，采用预定强化学习算法更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标策略，其中，预定强化学习算法界定有与目标产品对应的预定强化学习范围。
[0090]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0091]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0092]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0093]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0094]
在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0095]
存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介
质的示例。
[0096]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0097]
还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0098]
本领域技术人员应明白，本技术的实施例可提供为方法、系统或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0099]
以上仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

技术特征：
1.一种策略生成方法，其特征在于，包括：获取目标产品的限价订单数据；将所述限价订单数据输入至策略生成模型的特征提取模块中，提取所述限价订单数据的特征，得到所述目标产品的目标特征，其中，所述策略生成模型依据样本数据训练初始模型得到，所述样本数据包括样本限价订单数据，样本策略；将所述目标特征输入至所述策略生成模型的状态值确定模块中，确定所述目标产品的状态值；将所述状态值输入至所述策略生成模型的初始策略确定模块中，确定所述目标产品的初始策略，其中，所述初始策略为买入或卖出所述目标产品的策略；将所述初始策略输入至所述策略生成模型的目标策略确定模块中，确定所述初始策略的优劣指数；在所述目标策略确定模块中，所述优劣指数小于预定阈值的情况下，更新所述初始策略，直至更新得到的策略大于或等于所述预定阈值，得到所述目标产品的目标策略。2.根据权利要求1所述的方法，其特征在于，所述将所述目标特征输入至所述策略生成模型的状态值确定模块中，确定所述目标产品的状态值，包括：在所述状态值确定模块中，依据分支估计值函数与所述目标特征，确定所述目标产品的所述状态值。3.根据权利要求2所述的方法，其特征在于，所述将所述目标特征输入至所述策略生成模型的状态值确定模块中，确定所述目标产品的状态值之后，还包括：在所述状态值包括初始状态值与目标状态值的情况下，确定状态转移矩阵，其中，所述状态转移矩阵中矩阵元表示从所述初始状态跳转至与所述矩阵元对应的下一状态值的概率；依据所述状态转移矩阵与所述初始状态值，确定所述目标状态值；依据所述目标状态值，更新所述分支估计值函数。4.根据权利要求1所述的方法，其特征在于，所述将所述状态值输入至所述策略生成模型的初始策略确定模块中，确定所述目标产品的初始策略，包括：在所述初始策略确定模块中，获取所述目标产品的预定价格数据；在所述初始策略确定模块中，依据所述预定价格数据对所述状态值进行加权处理，得到加权状态值；在所述初始策略确定模块中，依据所述加权状态值，确定所述目标产品的所述初始策略。5.根据权利要求1所述的方法，其特征在于，所述将所述初始策略输入至所述策略生成模型的目标策略确定模块中，确定所述初始策略的优劣指数，包括：在所述目标策略确定模块中，依据分支估计优势函数，确定所述初始策略的所述优劣指数。6.根据权利要求5所述的方法，其特征在于，所述将所述初始策略输入至所述策略生成模型的目标策略确定模块中，确定所述初始策略的优劣指数，包括：在所述目标策略确定模块中，确定与所述目标产品对应的基线策略；在所述目标策略确定模块中，采用所述分支估计优势函数比较所述初始策略与所述基
线策略，确定所述初始策略的所述优劣指数。7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述在所述目标策略确定模块中，所述优劣指数小于预定阈值的情况下，更新所述初始策略，直至更新得到的策略大于或等于所述预定阈值，得到所述目标产品的目标策略，包括：在所述目标策略确定模块中，所述优劣指数小于所述预定阈值的情况下，采用预定强化学习算法更新所述初始策略，直至更新得到的策略大于或等于所述预定阈值，得到所述目标策略，其中，所述预定强化学习算法界定有与所述目标产品对应的预定强化学习范围。8.一种策略生成装置，其特征在于，包括：获取模块，用于获取目标产品的限价订单数据；提取模块，用于将所述限价订单数据输入至策略生成模型的特征提取模块中，提取所述限价订单数据的特征，得到所述目标产品的目标特征，其中，所述策略生成模型依据样本数据训练初始模型得到，所述样本数据包括样本限价订单数据，样本策略；第一确定模块，用于将所述目标特征输入至所述策略生成模型的状态值确定模块中，确定所述目标产品的状态值；第二确定模块，用于将所述状态值输入至所述策略生成模型的初始策略确定模块中，确定所述目标产品的初始策略，其中，所述初始策略为买入或卖出所述目标产品的策略；第三确定模块，用于将所述初始策略输入至所述策略生成模型的目标策略确定模块中，确定所述初始策略的优劣指数；第四确定模块，用于在所述目标策略确定模块中，所述优劣指数小于预定阈值的情况下，更新所述初始策略，直至更新得到的策略大于或等于所述预定阈值，得到所述目标产品的目标策略。9.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的方法。10.一种电子设备，其特征在于，包括一个或多个处理器和存储器，所述存储器用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任意一项所述的方法。

技术总结
本发明公开了一种策略生成方法、装置、处理器及电子设备。涉及交易策略领域，该方法包括：获取目标产品的限价订单数据；将限价订单数据输入至策略生成模型的特征提取模块中，得到目标产品的目标特征；将目标特征输入至状态值确定模块中，确定目标产品的状态值；将状态值输入至初始策略确定模块中，确定目标产品的初始策略；将初始策略输入至目标策略确定模块中，确定初始策略的优劣指数；在目标策略确定模块中，优劣指数小于预定阈值的情况下，更新初始策略，直至更新得到的策略大于或等于预定阈值，得到目标产品的目标策略。本发明解决了相关技术中交易策略生成后，使用生成的交易策略进行交易时，得到的交易结果与预期不符的技术问题。术问题。术问题。

技术研发人员：伏勇
受保护的技术使用者：中国工商银行股份有限公司
技术研发日：2023.06.07
技术公布日：2023/9/20

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：装饰层的制备方法、装饰层和电子设备与流程 下一篇：用于车辆定损的管理地图实现方法、电子设备和可读介质与流程

策略生成方法、装置、处理器及电子设备与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

策略生成方法、装置、处理器及电子设备与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表