-
公开(公告)号:CN119988973A
公开(公告)日:2025-05-13
申请号:CN202510090380.0
申请日:2025-01-20
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/214 , G06N5/04 , G06F16/334 , G06N3/045
Abstract: 本说明书公开一种模型训练方法、业务执行方法、装置、介质及电子设备,获取目标样本集,而后,针对目标样本集中的每个训练样本,根据该训练样本,确定该训练样本对应的输入信息以及输入信息所对应的引导信息,之后,将输入信息以及引导信息输入到待训练模型中,以使待训练模型根据输入信息以及引导信息,确定输出输入信息对应输出结果时所基于的初始逻辑信息,根据输入信息对应的标准输出结果,通过待训练模型对初始逻辑信息进行调整,得到调整后逻辑信息,根据调整后逻辑信息,确定待训练模型针对输入信息的输出结果,以根据输出结果,训练待训练模型。
-
公开(公告)号:CN119599795A
公开(公告)日:2025-03-11
申请号:CN202410982888.7
申请日:2024-07-22
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q40/06 , G06F18/214 , G06N3/09 , G06N3/096 , G06N3/042 , G06N3/0442 , G06N3/045
Abstract: 本说明书实施例公开了一种推荐模型优化方法、管控产品推荐方法及装置,首先,利用预设的奖励规则确定各种管控业务状态对应的奖励标签,并基于奖励标签和二元组特征对预设网络模型进行监督训练,以构建奖励模型,其中的二元组特征由交易事件特征和管控产品特征组成。进一步地,利用奖励模型对每个交易事件对应的候选管控产品进行评估,生成候选管控产品的奖励信号。然后,根据奖励信号对每个交易事件的原始管控标签进行纠正,得到目标管控标签,并利用目标管控标签对预设的推荐模型进行训练,以实现对推荐模型的优化,最终利用优化后的推荐模型实现对管控产品的精确推荐。
-
公开(公告)号:CN119228381A
公开(公告)日:2024-12-31
申请号:CN202411218327.6
申请日:2024-08-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q20/40 , G06F16/2455 , G06N3/096
Abstract: 本说明书实施例公开了一种推荐模型训练方法、管控产品推荐方法及装置,首先,获取管控样本集,并利用管控样本集对预设对比学习表征网络进行训练,得到预训练推荐模型。然后,将预训练推荐模型的模型参数迁移到预设多任务学习网络中,并利用交易数据集对预设多任务学习网络进行微调,得到目标推荐模型。最后,利用优化后的目标推荐模型实现对管控产品的精确推荐。
-
公开(公告)号:CN119599731A
公开(公告)日:2025-03-11
申请号:CN202410977913.2
申请日:2024-07-19
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q30/0226 , G06F18/2415 , G06F18/214 , G06Q40/04
Abstract: 本说明书实施例公开了一种奖励预测模型训练和管控动作推荐模型优化方法、装置,首先,基于预采集的交易特征数据以及预先训练好的初始管控动作推荐模型,构建奖励训练数据;根据奖励训练数据对预构建的奖励预测模型进行监督学习,得到初始奖励预测模型;获取预设的辅助学习标签,辅助学习标签对应不同的学习任务,并根据辅助学习标签对初始奖励预测模型进行多任务学习,得到目标奖励预测模型。通过多任务学习得到的目标奖励预测模型,可以实现在强化学习过程中的奖励信号的预测,有效降低人工成本,提高奖励信号的预测效率,同时保证预测的奖励信号的合理性和有效性,提升奖励信号的可解释性。
-
公开(公告)号:CN119205117A
公开(公告)日:2024-12-27
申请号:CN202411216616.2
申请日:2024-08-30
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q20/40 , G06Q40/06 , G06N3/045 , G06F18/25 , G06F18/213 , G06N3/0499
Abstract: 本说明书实施例公开了一种风险识别的方法、装置及电子设备。所述风险识别的方法包括:将特征数据中的连续型数据输入风险识别模型中第一特征子模型,得到连续型特征,所述特征数据为与交易主体的交易风险相关的表格类型的数据,所述第一特征子模型用于在对输入的连续型数据分段后、对连续型数据所属的段的离散值进行特征提取;将所述特征数据中的离散型数据输入所述风险识别模型中第二特征子模型,得到离散型特征;基于所述风险识别模型中融合子模型对所述连续型特征和所述离散型特征进行融合处理,得到风险特征;将所述风险特征输入所述风险识别模型的风险识别子模型,得到用于表征所述交易主体在预设时间内是否会产生交易风险的风险识别结果。
-
公开(公告)号:CN119048241A
公开(公告)日:2024-11-29
申请号:CN202411060108.X
申请日:2024-08-02
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q40/06 , G06N3/045 , G06N3/0442 , G06N3/096
Abstract: 本说明书实施例公开了一种针对表格数据的风险识别方法、装置及设备,该方法包括:获取用户在执行目标业务的过程中的表格数据;分别对表格数据中的类别型数据和数值型数据进行特征提取,得到类别型数据对应的类别表征和数值型数据对应的数值表征,基于类别表征和数值表征,确定表格数据对应的数据表征;将表格数据对应的数据表征输入到预先训练的多任务学习网络中,得到包含表格数据对应的多个任务中不同任务之间的关系的每个任务的风险表征,多任务学习网络中包括多个专家模型和任务对应的门控网络;基于每个任务的风险表征,通过预先训练的风险识别网络确定表格数据是否存在预设风险的识别结果。
-
公开(公告)号:CN117709481A
公开(公告)日:2024-03-15
申请号:CN202311714157.6
申请日:2023-12-13
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/00 , G06N3/0455 , G06Q40/04
Abstract: 本说明书实施例公开了一种强化学习方法、装置及设备,该方法包括:通过获取当前时刻的环境信息和当前时刻的环境信息对应的环境下的状态信息,以及基于环境信息和状态信息,通过强化学习的智能体生成的决策信息,然后,分别将状态信息和决策信息分别输入到一个或多个不同的状态预测模型中,得到每个状态预测模型输出的下一时刻的预测状态信息,之后,可以基于每个状态预测模型输出的下一时刻的预测状态信息,确定决策信息对应的辅助反馈信息,最终,可以基于决策信息对应的辅助反馈信息和依据智能体对应决策策略所选择的决策信息而获得到的反馈信息,对智能体对应的决策策略进行更新,以对智能体进行强化学习。
-
公开(公告)号:CN119990183A
公开(公告)日:2025-05-13
申请号:CN202510199077.4
申请日:2025-02-21
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种大语言模型的微调方法和装置。方法包括:获取预训练的大语言模型的权重矩阵,将权重矩阵分解为幅度向量和第一方向矩阵,并初始化第一低秩矩阵和第二低秩矩阵,第一低秩矩阵和第二低秩矩阵的乘积用于拟合第一方向矩阵的增量矩阵;保持第一方向矩阵不变,执行多轮微调,每轮微调包括:将训练文本输入大语言模型,进行损失函数的计算;基于损失函数更新幅度向量;确定损失函数相对于当前方向矩阵的第一梯度矩阵;根据第一梯度矩阵得到更新的第一低秩矩阵以及第二低秩矩阵;基于更新的第一低秩矩阵和第二低秩矩阵的乘积确定本轮增量矩阵,将本轮增量矩阵叠加在第一方向矩阵上,作为本轮更新后的方向矩阵。
-
公开(公告)号:CN118195619A
公开(公告)日:2024-06-14
申请号:CN202410309170.1
申请日:2024-03-18
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06Q20/40 , G06N3/0475 , G06N3/045 , G06N3/08
Abstract: 本说明书公开了一种风控模型训练的方法、装置、存储介质、设备,基于生成对抗网络构建待训练风控模型,获取历史交易事件与每个历史交易事件所对应的历史风控策略,从各历史交易事件中选择第一历史交易事件,将所述第一历史交易事件输入所述生成器,得到所述生成器输出的预测风控策略,将所述第一历史交易事件与所述预测风控策略输入所述判别器,使所述判别器判别所述预测风控策略是否为所述生成器所生成的风控策略并得到判别结果,根据判别结果对所述待训练风控模型中的生成器与判别器进行训练,利用生成—对抗的思想训练风控模型,训练完成的风控模型可根据输入的交易事件得到对该交易事件的风控策略,为交易事件管控提供实时高效的解决方案。
-
公开(公告)号:CN117593004A
公开(公告)日:2024-02-23
申请号:CN202311632407.1
申请日:2023-11-30
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种数据处理方法、装置及设备,其中,方法包括:通过预先训练的风险检测模型,对目标数据进行风险检测处理,得到第一预测管控策略、策略更新信息以及第二预测管控策略,风险检测模型为通过预设多任务学习算法构建的模型,第一处理网络用于基于特征挖掘层的输出结果生成第一预测管控策略,第二处理网络用于基于特征挖掘层的输出结果生成策略更新信息,所述第三处理网络用于基于所述第一处理网络提取出的特征表示和所述第二处理网络提取出的特征表示之间的关联关系,生成所述第二预测管控策略;基于所述第一预测管控策略、策略更新信息以及第二预测管控策略,对所述目标用户触发执行所述目标交易进行风险管控处理。
-
-
-
-
-
-
-
-
-