-
公开(公告)号:CN117407714A
公开(公告)日:2024-01-16
申请号:CN202311370158.3
申请日:2023-10-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F40/205
Abstract: 本说明书的实施例提供了一种用于训练用户行为表征模型的方法和装置。在该用于训练用户行为表征模型的方法中,针对当前训练样本集中的各个当前训练样本,将当前训练样本的、作为样本输入部分的预定期间内的用户历史行为序列提供给当前用户行为表征模型,得到对应的用户行为序列表征向量;再将所得到的用户行为序列表征向量提供给当前行为分布预测模型,得到对应的用户行为分布预测结果;再根据所得到的用户行为分布预测结果与对应的、作为标签部分的后续历史行为序列所指示的行为分布之间的差异,确定预测损失值;在不满足训练结束条件的情况下,根据所确定的预测损失值调整当前用户行为表征模型和当前行为分布预测模型的参数。
-
公开(公告)号:CN118332339A
公开(公告)日:2024-07-12
申请号:CN202410502447.2
申请日:2024-04-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06F18/22 , G06F40/284 , G06F40/30 , G06F40/289
Abstract: 本说明书实施例提供一种映射模型的训练方法及装置,该训练方法包括:首先,获取用户行为涉及的对象标识集,其中任一的目标对象标识关联描述目标对象的真实词元序列;接着,利用映射模型确定所述目标对象标识对应的目标表征向量及相关词元信息;然后,利用训练好的大语言模型处理所述目标表征向量,得到预测词元序列;之后,以所述预测词元序列趋同于所述真实词元序列为目标,训练所述映射模型。
-
公开(公告)号:CN119272850A
公开(公告)日:2025-01-07
申请号:CN202411433141.2
申请日:2024-10-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/0985 , G06N3/092 , G06Q10/0631 , G06Q10/083
Abstract: 本说明书一个或多个实施例提供一种分配任务求解器的超参数确定方法、设备、介质及产品。该方法包括:将用于确定分配任务求解器的超参数的策略函数作为强化学习中的智能体,以及将分配任务求解器作为强化学习中的环境;将策略函数确定的超参数作为强化学习中的动作,以使得分配任务求解器基于超参数对第一集合中的多个分配任务进行求解得到求解结果,以及基于求解结果计算与强化学习对应的状态和奖励,并以最大化奖励为优化目标,对策略函数进行强化学习训练;基于训练完成后的策略函数,确定分配任务求解器的目标超参数。
-
公开(公告)号:CN117370652A
公开(公告)日:2024-01-09
申请号:CN202311303448.6
申请日:2023-10-08
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F16/9535 , G06F18/214
Abstract: 本说明书的实施例提供了一种模型训练、信息推荐方法和装置。在该模型训练方法中,通过在训练过程中引入样本分组模型和权重计算模型,根据当前训练样本经过待优化模型的输出和对应的标签确定各个当前训练样本的状态。再分别利用样本分组模型和权重计算模型确定各个当前训练样本所属的分布类别和对应的权重。进而,基于当前训练样本经过待优化模型的输出和对应的标签以及对应的权重确定损失值,以调整待优化模型的模型参数;基于各个当前训练样本所属的分布类别和对应的权重确定相应的奖励值,以调整样本分组模型和权重计算模型的模型参数。
-
-
-