-
公开(公告)号:CN118092632A
公开(公告)日:2024-05-28
申请号:CN202211489297.3
申请日:2022-11-25
Applicant: 支付宝(杭州)信息技术有限公司 , 阿里巴巴(中国)有限公司
IPC: G06F3/01 , G06Q30/0601 , G06Q30/0207 , G06N20/00
Abstract: 本说明书实施例提供一种数字人推荐方法和推荐系统。数字人推荐系统包括计算机模拟的数字人,相应的推荐方法包括:获取当前的状态数据,所述状态数据融合有目标用户的用户信息、所在场景的场景信息,以及所述目标用户与所述数字人的交互历史信息;数字人中的智能体,根据强化学习得到的当前策略,将所述状态数据映射为备选动作集中的目标动作,其中所述备选动作集中的备选动作对应于待推荐的内容类别,所述目标动作对应于目标内容类别;所述数字人与所述目标用户进行目标交互,所述目标交互用于推荐所述目标内容类别。从而通过数字人为目标用户进行个性化推荐。
-
公开(公告)号:CN111311384A
公开(公告)日:2020-06-19
申请号:CN202010409777.9
申请日:2020-05-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/06 , G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例公开了一种训练推荐模型方法和系统,方法包括:对于多个训练样本的每一个执行以下步骤,以迭代更新推荐模型的参数,得到训练好的推荐模型:利用推荐模型处理样本对象的当前时点状态,得到样本对象对应的推荐标的分布,并确定服从推荐标的分布的预测推荐标的;利用状态转移模型处理样本对象的当前时点状态以及预测推荐标的,得到样本对象的下一时点状态;计算样本对象的下一时点状态相关的收益;利用奖励模型处理样本对象的当前时点状态及预测推荐标的,得到预测奖励;确定所述推荐模型的目标函数,其中,推荐模型的目标函数至少与预测奖励以及样本对象的下一时点状态相关的收益正相关;调整推荐模型的参数,以使其目标函数最大化。
-
公开(公告)号:CN113435935A
公开(公告)日:2021-09-24
申请号:CN202110753638.2
申请日:2021-07-02
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 徐海瑞
Abstract: 本说明书实施例提供一种权益推送的方法及装置,可以通用于待推送权益的多种业务场景。该方法将元学习和强化学习的思想相结合,将不同的业务场景作为元学习的任务,结合强化学习长期收益最大化决策的优势设计,得到多场景动态决策最优策略的机器学习方案,使得短周期和新业务场景的活动建模成为可能。在线上运行时,业务编码网络采用在线策略,仅需要极少数业务数据快速适应新的业务场景,得到携带业务场景信息的编码表示,并基于其进行推送策略的决策,进一步提高了推送策略与业务场景的关联性。智能体中的网络参数还可以采用离线策略更新,从而提高模型的可用性。
-
公开(公告)号:CN113435935B
公开(公告)日:2022-06-28
申请号:CN202110753638.2
申请日:2021-07-02
Applicant: 支付宝(杭州)信息技术有限公司
Inventor: 徐海瑞
Abstract: 本说明书实施例提供一种权益推送的方法及装置,可以通用于待推送权益的多种业务场景。该方法将元学习和强化学习的思想相结合,将不同的业务场景作为元学习的任务,结合强化学习长期收益最大化决策的优势设计,得到多场景动态决策最优策略的机器学习方案,使得短周期和新业务场景的活动建模成为可能。在线上运行时,业务编码网络采用在线策略,仅需要极少数业务数据快速适应新的业务场景,得到携带业务场景信息的编码表示,并基于其进行推送策略的决策,进一步提高了推送策略与业务场景的关联性。智能体中的网络参数还可以采用离线策略更新,从而提高模型的可用性。
-
-
-