一种训练推荐模型的方法和系统

    公开(公告)号:CN111311384A

    公开(公告)日:2020-06-19

    申请号:CN202010409777.9

    申请日:2020-05-15

    Abstract: 本说明书实施例公开了一种训练推荐模型方法和系统,方法包括:对于多个训练样本的每一个执行以下步骤,以迭代更新推荐模型的参数,得到训练好的推荐模型:利用推荐模型处理样本对象的当前时点状态,得到样本对象对应的推荐标的分布,并确定服从推荐标的分布的预测推荐标的;利用状态转移模型处理样本对象的当前时点状态以及预测推荐标的,得到样本对象的下一时点状态;计算样本对象的下一时点状态相关的收益;利用奖励模型处理样本对象的当前时点状态及预测推荐标的,得到预测奖励;确定所述推荐模型的目标函数,其中,推荐模型的目标函数至少与预测奖励以及样本对象的下一时点状态相关的收益正相关;调整推荐模型的参数,以使其目标函数最大化。

Patent Agency Ranking