-
公开(公告)号:CN119830015A
公开(公告)日:2025-04-15
申请号:CN202510017803.6
申请日:2025-01-06
Applicant: 深圳前海微众银行股份有限公司
Abstract: 本申请公开了一种语言模型训练方法、设备、存储介质及计算机程序产品,涉及自然语言处理技术领域,方法包括:第二设备训练小语言模型后,将小语言模型针对于文本数据的第二训练结果发送给第一设备;第一设备确定文本数据归属于对应的第二训练结果满足预设条件的第二设备,并发送第一发送指示信息给第二设备,第二设备发送第一发送指示信息中指示的文本数据的第二概率分布预测结果给第一设备,第一设备基于第二概率分布预测结果优化大语言模型,直到满足预设训练结束条件后,获得训练完成的大语言模型。本申请能在模型训练过程中对第一设备与第二设备之间传递的通信量进行优化。
-
公开(公告)号:CN113657471B
公开(公告)日:2025-02-07
申请号:CN202110874602.X
申请日:2021-07-30
Applicant: 深圳前海微众银行股份有限公司
IPC: G06F18/2431 , G06F18/214 , G06N20/00 , G06N5/01
Abstract: 本申请提供一种多分类梯度提升树的构建方法、装置,包括:获取携带标签的训练样本的预测值;基于预测值及相应的标签,确定用于表征训练样本所对应梯度的多维向量,多维向量的维度数与多分类梯度提升树的标签类别的数量相对应;对多维向量进行隐私保护,得到中间数据,并将中间数据发送至第二参与方设备;接收第二参与方设备发送的分裂点数据,分裂点数据为,第二参与方设备基于中间数据,进行对应多分类梯度提升树的分裂点构建所得到;基于分裂点数据,确定多分类梯度提升树的全局分裂点,并基于全局分裂点,构建多分类梯度提升树。如此,通过一棵能够多输出的多分类梯度提升树执行多分类任务,有效减少了多分类任务中的开销,提高了训练效率。
-
公开(公告)号:CN110751294B
公开(公告)日:2025-02-07
申请号:CN201911050891.0
申请日:2019-10-31
Applicant: 深圳前海微众银行股份有限公司
Abstract: 本发明公开了一种联合多方特征数据的模型预测方法、装置、终端设备及计算机可读存储介质,通过获取所述需求方发起的模型预测任务,并确定处理所述模型预测任务所需的多方特征数据;联合需求方和多方特征数据对应的各数据提供方进行线性回归计算,得到需求方和各数据提供方各自的本地计算结果;计算各本地计算结果的范数之和,并在检测到范数之和小于范数阈值时,对各本地计算结果进行优化处理;将优化处理后的本地计算结果反馈至需求方和各数据提供方,以供需求方和各数据提供方进行本地模型参数更新。本发明在确保需求方与多个数据提供方相互之间不泄露各自特征信息的前提下建立模型,并进行有效的模型预测。
-
公开(公告)号:CN119204168A
公开(公告)日:2024-12-27
申请号:CN202411265078.6
申请日:2024-09-10
Applicant: 深圳前海微众银行股份有限公司
IPC: G06N3/098 , G06F18/214 , G06F18/243
Abstract: 本申请公开了一种联邦学习模型生成方法、电子设备、存储介质及程序产品,涉及联邦学习技术领域,联邦学习模型生成方法包括:将存量决策树模型中的特征顺序与数据提供方的特征顺序对齐,得到更新决策树模型;将更新决策树模型发送至数据提供方,以供数据提供方将更新决策树模型中非叶子节点的特征名替换为本地数据的特征名,获得对应的树结构;基于预设的伪数据建立基础联邦学习模型,将存量决策树模型的叶子节点导入基础联邦学习模型;基于导入叶子节点后的基础联邦学习模型与数据提供方导入的所述树结构,生成目标联邦学习模型。本申请的技术方案将传统的存量决策树模型转换成联邦学习模型,提高建模效率。
-
公开(公告)号:CN110807528B
公开(公告)日:2024-11-05
申请号:CN201911046722.X
申请日:2019-10-30
Applicant: 深圳前海微众银行股份有限公司
Abstract: 本发明公开了一种特征相关性计算方法、设备及计算机可读存储介质,所述方法包括:接收第一设备发送的加密特征数据,第一设备对第一特征数据进行归一化处理,并对处理结果进行加密得到加密特征数据;对第二特征数据进行归一化处理,并对处理结果进行加随机数操作得到加随机数特征数据;根据加密特征数据和加随机数特征数据计算得到加密相关值,并将加密相关值发送给第一设备,以供第一设备对加密相关值进行解密得到第一特征数据和第二特征数据的相关值。本发明通过一方对数据采取加密措施,另一方对数据采取加随机数措施,双方都采取一定的加密保护措施,使得双方都无法窃取对方的数据,从而增强了纵向联邦学习建模的安全性。
-
公开(公告)号:CN112949764B
公开(公告)日:2024-10-29
申请号:CN202110361982.7
申请日:2021-04-02
Applicant: 深圳前海微众银行股份有限公司
Abstract: 本公开提供一种数据聚类方法、装置、设备及存储介质,该方法通过接收来自发起方的距离值集合以及参与方的距离值集合,其中,发起方的距离值集合包括发起方的用户集合中两两用户的第一特征数据的距离值,参与方的距离值集合包括参与方的用户集合中两两用户的第二特征数据的距离值,发起方和参与方的用户集合相同,第一特征数据与第二特征数据不同。根据接收到的发起方的距离值集合以及参与方的距离值集合,确定用户集合中每一个用户的聚类结果,将每一个用户的聚类结果返回至发起方和参与方。上述方案协同发起方和参与方的重叠用户的数据特征,综合考虑各方用户的特征数据,得到的用户聚类结果更加准确,从而提升各方的整体性能。
-
公开(公告)号:CN113408668B
公开(公告)日:2024-10-25
申请号:CN202110875333.9
申请日:2021-07-30
Applicant: 深圳前海微众银行股份有限公司
IPC: G06F18/243 , G06F18/2431 , G06F18/214 , G06N20/20
Abstract: 本申请提供一种基于联邦学习系统的决策树构建方法、装置、电子设备、存储介质及计算机程序产品,包括:获取训练样本和待构建的决策树的类型,并基于训练样本及类型,确定用于构建决策树的分裂点的参考数据;对参考数据进行压缩处理得到第一压缩数据,并将第一压缩数据发送至第二参与方设备;接收第二参与方设备发送的分裂点数据,分裂点数据为,第二参与方设备基于第一压缩数据,进行对应决策树的分裂点构建所得到;基于分裂点数据,确定决策树的全局分裂点,并基于全局分裂点,构建决策树。如此,减少了决策树构建过程中的数据传输量与处理量,降低了传输开销,提升了决策树的构建效率。
-
公开(公告)号:CN112416912B
公开(公告)日:2024-05-07
申请号:CN202011099097.8
申请日:2020-10-14
Applicant: 深圳前海微众银行股份有限公司
IPC: G06F16/215 , G06F16/28 , G06F17/16 , G06F21/60 , G06N20/00
Abstract: 本发明公开了一种纵向联邦数据统计的去重方法、装置、终端设备及存储介质,通过纵向联邦中的任意一个参与方接收纵向联邦中的其他参与方发送的结果矩阵,其中,结果矩阵为其他参与方在本地基于自有数据中的第一待去重数据构建第一特征矩阵后,利用第一特征矩阵乘以预设随机矩阵得到;在本地基于自有数据中的第二待去重数据构建第二特征矩阵,并将第二特征矩阵与结果矩阵进行纵向拼接得到拼接矩阵;检测拼接矩阵中对应位置元素相同的各目标行,并针对各所述目标行指向的所述第一待去重数据和所述第二待去重数据进行去重处理。本发明无需针对待去重数据进行加密操作就能在确保数据隐私安全的情况下进行数据去重,提高了数据去重的效率。
-
公开(公告)号:CN112231308B
公开(公告)日:2024-05-03
申请号:CN202011095634.1
申请日:2020-10-14
Applicant: 深圳前海微众银行股份有限公司
IPC: G06F16/215 , G06F21/60 , G06N20/00
Abstract: 本发明公开了一种横向联邦建模样本数据的去重方法、装置、终端设备及存储介质,通过横向联邦的其中一个参与方,接收横向联邦中的其他参与方发送的加密数据,其中,其他参与方各自的加密数据由其他参与方针对各自的第一待选样本数据进行加密得到;根据本端的第二待选样本数据和加密数据,确定第一待选样本数据和第二待选样本数据中的重叠样本数据;联合其他参与方针对重叠样本数据进行去重,以根据去重后的第一待选样本数据和第二待选样本数据构建建模样本数据集。本发明在防止参与方自有数据的泄露,保证数据隐私安全的前提下,规避了直接基于参与方自有数据构建样本建模时,导致模型训练结果向重叠的部分样本倾斜的偏向性问题。
-
公开(公告)号:CN112529102B
公开(公告)日:2024-03-12
申请号:CN202011555574.7
申请日:2020-12-24
Applicant: 深圳前海微众银行股份有限公司
Abstract: 本申请公开了一种特征拓展方法、设备、介质及计算机程序产品,所述特征拓展方法包括:获取待预测样本,并基于联邦学习构建的目标决策树模型集,通过与第二设备进行联邦决策交互,对所述待预测样本执行模型预测,确定所述待预测样本对应的各归属叶子节点,进而获取各所述归属叶子节点的叶子节点信息和样本权重,并基于各所述叶子节点信息和各所述样本权重,分别为各所述归属叶子节点生成对应的叶子节点标签,进而基于各所述叶子节点标签,对所述待预测样本进行特征拓展,获得目标拓展样本。本申请解决了在联邦场景下进行特征拓展时存在数据隐私泄露的技术问题。
-
-
-
-
-
-
-
-
-