-
公开(公告)号:CN119599795A
公开(公告)日:2025-03-11
申请号:CN202410982888.7
申请日:2024-07-22
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q40/06 , G06F18/214 , G06N3/09 , G06N3/096 , G06N3/042 , G06N3/0442 , G06N3/045
Abstract: 本说明书实施例公开了一种推荐模型优化方法、管控产品推荐方法及装置,首先,利用预设的奖励规则确定各种管控业务状态对应的奖励标签,并基于奖励标签和二元组特征对预设网络模型进行监督训练,以构建奖励模型,其中的二元组特征由交易事件特征和管控产品特征组成。进一步地,利用奖励模型对每个交易事件对应的候选管控产品进行评估,生成候选管控产品的奖励信号。然后,根据奖励信号对每个交易事件的原始管控标签进行纠正,得到目标管控标签,并利用目标管控标签对预设的推荐模型进行训练,以实现对推荐模型的优化,最终利用优化后的推荐模型实现对管控产品的精确推荐。
-
公开(公告)号:CN119228381A
公开(公告)日:2024-12-31
申请号:CN202411218327.6
申请日:2024-08-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q20/40 , G06F16/2455 , G06N3/096
Abstract: 本说明书实施例公开了一种推荐模型训练方法、管控产品推荐方法及装置,首先,获取管控样本集,并利用管控样本集对预设对比学习表征网络进行训练,得到预训练推荐模型。然后,将预训练推荐模型的模型参数迁移到预设多任务学习网络中,并利用交易数据集对预设多任务学习网络进行微调,得到目标推荐模型。最后,利用优化后的目标推荐模型实现对管控产品的精确推荐。
-
公开(公告)号:CN117009873A
公开(公告)日:2023-11-07
申请号:CN202311079876.5
申请日:2023-08-24
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/241 , G06F18/214 , G06F18/213 , G06N3/042 , G06N3/096 , G06Q20/38 , G06Q20/40 , G06N20/20
Abstract: 本说明书一个或多个实施例公开了一种支付风险识别模型的生成方法,包括:获取第一训练样本并设置第一标签,所述第一训练样本为预设的不同支付场景下的支付事件;为每个支付场景分别设置一个分类器,基于所述第一训练样本和所述第一标签训练所述分类器;选取至少一个支付场景,将该支付场景的训练样本作为第二训练样本;将所述第二训练样本输入该支付场景的分类器,将得到的预测结果作为第二标签;基于所述第二训练样本和第二标签,对其他分类器进行集成训练;将训练完毕的所述分类器集成为所述支付风险识别模型。相应地,本说明书还公开了支付风险识别方法及装置。
-
公开(公告)号:CN116028820B
公开(公告)日:2023-07-04
申请号:CN202310299829.5
申请日:2023-03-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06Q20/40
Abstract: 本说明书公开了一种模型训练的方法、装置、存储介质及电子设备,所述方法包括:先获取风控样本以及风控样本对应于各风险类型的原始标注,再根据风控样本对应于各风险类型的原始标注和预设的规则,确定风控样本的综合风险标注。之后,在训练待训练的风险识别模型时,若风险类型对应的梯度与综合梯度存在冲突,将风险类型对应的梯度与综合梯度不冲突的梯度分量重新作为风险类型对应的梯度,从而可以消除风险类型对应的梯度与综合梯度冲突的梯度分量。然后,根据各风险类型分别对应的梯度,确定出不存在冲突的待训练的风险识别模型的梯度来调整模型参数,减少了梯度冲突对模型训练的影响,使得训练得到的风险识别模型更准确。
-
公开(公告)号:CN118195619A
公开(公告)日:2024-06-14
申请号:CN202410309170.1
申请日:2024-03-18
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q20/40 , G06N3/0475 , G06N3/045 , G06N3/08
Abstract: 本说明书公开了一种风控模型训练的方法、装置、存储介质、设备,基于生成对抗网络构建待训练风控模型,获取历史交易事件与每个历史交易事件所对应的历史风控策略,从各历史交易事件中选择第一历史交易事件,将所述第一历史交易事件输入所述生成器,得到所述生成器输出的预测风控策略,将所述第一历史交易事件与所述预测风控策略输入所述判别器,使所述判别器判别所述预测风控策略是否为所述生成器所生成的风控策略并得到判别结果,根据判别结果对所述待训练风控模型中的生成器与判别器进行训练,利用生成—对抗的思想训练风控模型,训练完成的风控模型可根据输入的交易事件得到对该交易事件的风控策略,为交易事件管控提供实时高效的解决方案。
-
公开(公告)号:CN117593004A
公开(公告)日:2024-02-23
申请号:CN202311632407.1
申请日:2023-11-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,方法包括:通过预先训练的风险检测模型,对目标数据进行风险检测处理,得到第一预测管控策略、策略更新信息以及第二预测管控策略,风险检测模型为通过预设多任务学习算法构建的模型,第一处理网络用于基于特征挖掘层的输出结果生成第一预测管控策略,第二处理网络用于基于特征挖掘层的输出结果生成策略更新信息,所述第三处理网络用于基于所述第一处理网络提取出的特征表示和所述第二处理网络提取出的特征表示之间的关联关系,生成所述第二预测管控策略;基于所述第一预测管控策略、策略更新信息以及第二预测管控策略,对所述目标用户触发执行所述目标交易进行风险管控处理。
-
公开(公告)号:CN119599731A
公开(公告)日:2025-03-11
申请号:CN202410977913.2
申请日:2024-07-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/0226 , G06F18/2415 , G06F18/214 , G06Q40/04
Abstract: 本说明书实施例公开了一种奖励预测模型训练和管控动作推荐模型优化方法、装置,首先,基于预采集的交易特征数据以及预先训练好的初始管控动作推荐模型,构建奖励训练数据;根据奖励训练数据对预构建的奖励预测模型进行监督学习,得到初始奖励预测模型;获取预设的辅助学习标签,辅助学习标签对应不同的学习任务,并根据辅助学习标签对初始奖励预测模型进行多任务学习,得到目标奖励预测模型。通过多任务学习得到的目标奖励预测模型,可以实现在强化学习过程中的奖励信号的预测,有效降低人工成本,提高奖励信号的预测效率,同时保证预测的奖励信号的合理性和有效性,提升奖励信号的可解释性。
-
公开(公告)号:CN117709481A
公开(公告)日:2024-03-15
申请号:CN202311714157.6
申请日:2023-12-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00 , G06N3/0455 , G06Q40/04
Abstract: 本说明书实施例公开了一种强化学习方法、装置及设备,该方法包括:通过获取当前时刻的环境信息和当前时刻的环境信息对应的环境下的状态信息,以及基于环境信息和状态信息,通过强化学习的智能体生成的决策信息,然后,分别将状态信息和决策信息分别输入到一个或多个不同的状态预测模型中,得到每个状态预测模型输出的下一时刻的预测状态信息,之后,可以基于每个状态预测模型输出的下一时刻的预测状态信息,确定决策信息对应的辅助反馈信息,最终,可以基于决策信息对应的辅助反馈信息和依据智能体对应决策策略所选择的决策信息而获得到的反馈信息,对智能体对应的决策策略进行更新,以对智能体进行强化学习。
-
公开(公告)号:CN117313824A
公开(公告)日:2023-12-29
申请号:CN202311220864.X
申请日:2023-09-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N3/09 , G06N3/082 , G06N3/0495 , G06N3/0499 , G06N3/042 , G06Q20/38 , G06Q20/40
Abstract: 本说明书实施例公开了一种数据资产的融合方法、装置及设备,该方法包括:获取来自一种或多种不同数据源的数据资产构成的数据资产集,数据资产集中包括携带有标签信息的数据资产构成的第一数据资产子集;基于第一数据资产子集中携带有标签信息的数据资产和预设的损失函数对目标模型进行有监督的模型训练,得到训练后的目标模型,损失函数是由不变风险最小化损失函数、分布鲁棒优化损失函数和集成蒸馏学习损失函数中的一项或多项构建的损失函数;将数据资产集中的数据资产分别输入到训练后的目标模型中,得到相应的预测结果;基于得到的预测结果确定数据资产集对应的融合数据资产,并将融合数据资产提供给其它场景进行数据应用。
-
公开(公告)号:CN116933131A
公开(公告)日:2023-10-24
申请号:CN202310870923.1
申请日:2023-07-14
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/24 , G06F18/214 , G06N3/0499 , G06N3/08 , G06Q20/40
Abstract: 本说明书实施例公开了一种模型的处理方法、装置及设备,该方法包括:获取应用于元学习的样本数据,样本数据中包括对应事件的特征、样本标签信息、对应事件所属的业务场景和支撑集,支撑集中包括多个不同的事件类别,以及每个事件类别对应的支撑样本数据;基于样本数据、支撑集中不同事件类别的支撑样本数据对应的注意力权重和支撑集中不同事件类别包含的支撑样本数据的数量,确定支撑集中不同事件类别对应的类别中心;获取该样本数据对应的查询集,查询集中包括基于多个不同的事件类别生成的新事件类别和每个新事件类别对应的查询样本数据;基于确定的类别中心、查询集和样本数据对风险识别模型进行模型训练。
-
-
-
-
-
-
-
-
-