奖励预测模型训练和管控动作推荐模型优化方法、装置

    公开(公告)号:CN119599731A

    公开(公告)日:2025-03-11

    申请号:CN202410977913.2

    申请日:2024-07-19

    Abstract: 本说明书实施例公开了一种奖励预测模型训练和管控动作推荐模型优化方法、装置,首先,基于预采集的交易特征数据以及预先训练好的初始管控动作推荐模型,构建奖励训练数据;根据奖励训练数据对预构建的奖励预测模型进行监督学习,得到初始奖励预测模型;获取预设的辅助学习标签,辅助学习标签对应不同的学习任务,并根据辅助学习标签对初始奖励预测模型进行多任务学习,得到目标奖励预测模型。通过多任务学习得到的目标奖励预测模型,可以实现在强化学习过程中的奖励信号的预测,有效降低人工成本,提高奖励信号的预测效率,同时保证预测的奖励信号的合理性和有效性,提升奖励信号的可解释性。

    推荐模型优化方法、管控产品推荐方法及装置

    公开(公告)号:CN119599795A

    公开(公告)日:2025-03-11

    申请号:CN202410982888.7

    申请日:2024-07-22

    Abstract: 本说明书实施例公开了一种推荐模型优化方法、管控产品推荐方法及装置,首先,利用预设的奖励规则确定各种管控业务状态对应的奖励标签,并基于奖励标签和二元组特征对预设网络模型进行监督训练,以构建奖励模型,其中的二元组特征由交易事件特征和管控产品特征组成。进一步地,利用奖励模型对每个交易事件对应的候选管控产品进行评估,生成候选管控产品的奖励信号。然后,根据奖励信号对每个交易事件的原始管控标签进行纠正,得到目标管控标签,并利用目标管控标签对预设的推荐模型进行训练,以实现对推荐模型的优化,最终利用优化后的推荐模型实现对管控产品的精确推荐。

Patent Agency Ranking