-
公开(公告)号:CN116611499A
公开(公告)日:2023-08-18
申请号:CN202310536954.3
申请日:2023-05-11
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/092 , G06F18/214 , G06Q30/0241 , G06Q30/0202 , G06Q30/0273
Abstract: 本说明书实施例披露一种训练用于自动出价的强化学习系统的方法及装置。其中强化学习系统包括环境模型和智能体,环境模型用于预测业务环境的状态分布,业务环境状态包括业务方的预算消耗和已获业务价值,智能体用于根据当前环境状态确定业务方的当前出价参数。所述方法包括:先利用多个历史样本训练环境模型,其中任意的第一历史样本包括业务环境的第一状态、第一出价参数,以及在第一状态下采用所述第一出价参数后业务环境变更为的第二状态;再利用基于环境状态空间和出价参数空间采样构建的多个状态‑出价参数对,以及将其中各个状态‑出价参数对输入训练好的环境模型而对应得到的预测状态分布,训练智能体。