-
公开(公告)号:CN118092632A
公开(公告)日:2024-05-28
申请号:CN202211489297.3
申请日:2022-11-25
Applicant: 支付宝(杭州)信息技术有限公司 , 阿里巴巴(中国)有限公司
IPC: G06F3/01 , G06Q30/0601 , G06Q30/0207 , G06N20/00
Abstract: 本说明书实施例提供一种数字人推荐方法和推荐系统。数字人推荐系统包括计算机模拟的数字人,相应的推荐方法包括:获取当前的状态数据,所述状态数据融合有目标用户的用户信息、所在场景的场景信息,以及所述目标用户与所述数字人的交互历史信息;数字人中的智能体,根据强化学习得到的当前策略,将所述状态数据映射为备选动作集中的目标动作,其中所述备选动作集中的备选动作对应于待推荐的内容类别,所述目标动作对应于目标内容类别;所述数字人与所述目标用户进行目标交互,所述目标交互用于推荐所述目标内容类别。从而通过数字人为目标用户进行个性化推荐。
-
公开(公告)号:CN111311384A
公开(公告)日:2020-06-19
申请号:CN202010409777.9
申请日:2020-05-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/06 , G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例公开了一种训练推荐模型方法和系统,方法包括:对于多个训练样本的每一个执行以下步骤,以迭代更新推荐模型的参数,得到训练好的推荐模型:利用推荐模型处理样本对象的当前时点状态,得到样本对象对应的推荐标的分布,并确定服从推荐标的分布的预测推荐标的;利用状态转移模型处理样本对象的当前时点状态以及预测推荐标的,得到样本对象的下一时点状态;计算样本对象的下一时点状态相关的收益;利用奖励模型处理样本对象的当前时点状态及预测推荐标的,得到预测奖励;确定所述推荐模型的目标函数,其中,推荐模型的目标函数至少与预测奖励以及样本对象的下一时点状态相关的收益正相关;调整推荐模型的参数,以使其目标函数最大化。
-