-
公开(公告)号:CN116894478A
公开(公告)日:2023-10-17
申请号:CN202310896973.7
申请日:2023-07-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/092
Abstract: 本说明书实施例提供了用于强化学习的方法及装置。在该方法中,获取对象数据;得到基于各个初始组数据中的状态和动作所预测的奖励预测值;基于各个初始组数据和奖励预测值进行重构,以得到预测组数据;以及根据预测组数据进行强化学习,以得到由一系列预测动作所构成的策略。