-
公开(公告)号:CN111027676B
公开(公告)日:2022-03-18
申请号:CN201911194019.3
申请日:2019-11-28
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种目标用户的选择方法和装置,其中,所述方法包括:对于待选用户群体中的每一个用户,分别执行如下处理:将所述用户的用户特征输入预先训练的策略决定网络,得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值,所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值;根据所述待选用户群体中各个用户的所述操作奖励值,选择所述操作奖励值符合筛选条件的用户作为所述目标用户。
-
公开(公告)号:CN111027676A
公开(公告)日:2020-04-17
申请号:CN201911194019.3
申请日:2019-11-28
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种目标用户的选择方法和装置,其中,所述方法包括:对于待选用户群体中的每一个用户,分别执行如下处理:将所述用户的用户特征输入预先训练的策略决定网络,得到所述策略决定网络预测输出的所述目标业务操作对应的操作奖励值,所述操作奖励值用于表示对所述用户执行目标业务操作后的净提升响应预测值;根据所述待选用户群体中各个用户的所述操作奖励值,选择所述操作奖励值符合筛选条件的用户作为所述目标用户。
-
公开(公告)号:CN115118780B
公开(公告)日:2023-12-01
申请号:CN202210630602.X
申请日:2022-06-06
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04L67/60 , H04L67/133 , H04L41/16
Abstract: 本说明书实施例提供了一种获取资源分配模型的方法、资源分配方法及对应装置。具体技术方案包括:首先从一个以上的应用服务的历史数据中获取训练数据,各训练数据包括应用服务在各时刻的流量特征数据和计算资源实际使用状况;然后采用元强化学习机制建立资源分配模型,所述资源分配模型从所述流量特征数据和所述计算资源的实际使用状况中学习在各时刻对应用服务采用的资源分配调整策略,以使得按照资源分配调整策略调整计算资源后所述一个以上的应用服务在各时刻的计算资源使用状况与
-
公开(公告)号:CN115118780A
公开(公告)日:2022-09-27
申请号:CN202210630602.X
申请日:2022-06-06
Applicant: 支付宝(杭州)信息技术有限公司
IPC: H04L67/60 , H04L67/133 , H04L41/16
Abstract: 本说明书实施例提供了一种获取资源分配模型的方法、资源分配方法及对应装置。具体技术方案包括:首先从一个以上的应用服务的历史数据中获取训练数据,各训练数据包括应用服务在各时刻的流量特征数据和计算资源实际使用状况;然后采用元强化学习机制建立资源分配模型,所述资源分配模型从所述流量特征数据和所述计算资源的实际使用状况中学习在各时刻对应用服务采用的资源分配调整策略,以使得按照资源分配调整策略调整计算资源后所述一个以上的应用服务在各时刻的计算资源使用状况与预期使用状况之间的差异小于预定值。
-
公开(公告)号:CN118092632A
公开(公告)日:2024-05-28
申请号:CN202211489297.3
申请日:2022-11-25
Applicant: 支付宝(杭州)信息技术有限公司 , 阿里巴巴(中国)有限公司
IPC: G06F3/01 , G06Q30/0601 , G06Q30/0207 , G06N20/00
Abstract: 本说明书实施例提供一种数字人推荐方法和推荐系统。数字人推荐系统包括计算机模拟的数字人,相应的推荐方法包括:获取当前的状态数据,所述状态数据融合有目标用户的用户信息、所在场景的场景信息,以及所述目标用户与所述数字人的交互历史信息;数字人中的智能体,根据强化学习得到的当前策略,将所述状态数据映射为备选动作集中的目标动作,其中所述备选动作集中的备选动作对应于待推荐的内容类别,所述目标动作对应于目标内容类别;所述数字人与所述目标用户进行目标交互,所述目标交互用于推荐所述目标内容类别。从而通过数字人为目标用户进行个性化推荐。
-
公开(公告)号:CN111311384A
公开(公告)日:2020-06-19
申请号:CN202010409777.9
申请日:2020-05-15
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/06 , G06F16/9535 , G06N3/04 , G06N3/08
Abstract: 本说明书实施例公开了一种训练推荐模型方法和系统,方法包括:对于多个训练样本的每一个执行以下步骤,以迭代更新推荐模型的参数,得到训练好的推荐模型:利用推荐模型处理样本对象的当前时点状态,得到样本对象对应的推荐标的分布,并确定服从推荐标的分布的预测推荐标的;利用状态转移模型处理样本对象的当前时点状态以及预测推荐标的,得到样本对象的下一时点状态;计算样本对象的下一时点状态相关的收益;利用奖励模型处理样本对象的当前时点状态及预测推荐标的,得到预测奖励;确定所述推荐模型的目标函数,其中,推荐模型的目标函数至少与预测奖励以及样本对象的下一时点状态相关的收益正相关;调整推荐模型的参数,以使其目标函数最大化。
-
-
-
-
-