一种训练推荐模型的方法和系统

    公开(公告)号:CN111311384A

    公开(公告)日:2020-06-19

    申请号:CN202010409777.9

    申请日:2020-05-15

    Abstract: 本说明书实施例公开了一种训练推荐模型方法和系统,方法包括:对于多个训练样本的每一个执行以下步骤,以迭代更新推荐模型的参数,得到训练好的推荐模型:利用推荐模型处理样本对象的当前时点状态,得到样本对象对应的推荐标的分布,并确定服从推荐标的分布的预测推荐标的;利用状态转移模型处理样本对象的当前时点状态以及预测推荐标的,得到样本对象的下一时点状态;计算样本对象的下一时点状态相关的收益;利用奖励模型处理样本对象的当前时点状态及预测推荐标的,得到预测奖励;确定所述推荐模型的目标函数,其中,推荐模型的目标函数至少与预测奖励以及样本对象的下一时点状态相关的收益正相关;调整推荐模型的参数,以使其目标函数最大化。

    权益推送的方法及装置
    3.
    发明公开

    公开(公告)号:CN113435935A

    公开(公告)日:2021-09-24

    申请号:CN202110753638.2

    申请日:2021-07-02

    Inventor: 徐海瑞

    Abstract: 本说明书实施例提供一种权益推送的方法及装置,可以通用于待推送权益的多种业务场景。该方法将元学习和强化学习的思想相结合,将不同的业务场景作为元学习的任务,结合强化学习长期收益最大化决策的优势设计,得到多场景动态决策最优策略的机器学习方案,使得短周期和新业务场景的活动建模成为可能。在线上运行时,业务编码网络采用在线策略,仅需要极少数业务数据快速适应新的业务场景,得到携带业务场景信息的编码表示,并基于其进行推送策略的决策,进一步提高了推送策略与业务场景的关联性。智能体中的网络参数还可以采用离线策略更新,从而提高模型的可用性。

    权益推送的方法及装置
    4.
    发明授权

    公开(公告)号:CN113435935B

    公开(公告)日:2022-06-28

    申请号:CN202110753638.2

    申请日:2021-07-02

    Inventor: 徐海瑞

    Abstract: 本说明书实施例提供一种权益推送的方法及装置,可以通用于待推送权益的多种业务场景。该方法将元学习和强化学习的思想相结合,将不同的业务场景作为元学习的任务,结合强化学习长期收益最大化决策的优势设计,得到多场景动态决策最优策略的机器学习方案,使得短周期和新业务场景的活动建模成为可能。在线上运行时,业务编码网络采用在线策略,仅需要极少数业务数据快速适应新的业务场景,得到携带业务场景信息的编码表示,并基于其进行推送策略的决策,进一步提高了推送策略与业务场景的关联性。智能体中的网络参数还可以采用离线策略更新,从而提高模型的可用性。

Patent Agency Ranking