-
公开(公告)号:CN112367396B
公开(公告)日:2022-05-17
申请号:CN202011233423.X
申请日:2020-11-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种分布式集群中的样本特征分位点确定方法及装置,用于确定样本特征中第一属性项的特征分位点,主节点的CPU从内存中分别读取具有设定项数的多个第一数组,多个第一数组分别从多个从节点中获取,且分别基于样本集中不同的分批样本的样本特征得到,然后按照预定的方式,针对多个第一数组进行逐级数组合并,直至最后一级数组合并;其中任意一级数组合并包括:针对包含两个数组中各项的特征值集合,进行权重值进行合并、伪项填充操作得到合并数组,并将合并数组写入内存,采用不经意访问方式,从内存中读取最后一级数组合并得到的合并数组中除若干个伪项之外的项,基于从该合并数组中读取的各项确定所述第一属性项的特征分位点。
-
公开(公告)号:CN112182632B
公开(公告)日:2024-11-12
申请号:CN202011232020.3
申请日:2020-11-06
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F21/60 , G06F21/64 , G06N3/0464 , G06N3/082
Abstract: 本说明书实施例提供了一种基于访问模式保护的样本特征分位点确定方法及装置。可信执行环境TEE中的CPU从内存中顺序读取包含N1项的第一数组,其对应于N1个样本的第一属性项的特征值与对应的权重值;针对第一数组中的N1个特征值,将值大小相同的特征值对应的权重值进行合并,得到第一序列,在第一序列中填充若干个伪项以得到第二序列,使得第二序列的项数达到N1项,基于第二序列形成包含N1项的第二数组,并将第二数组写入内存;采用不经意访问方式,从内存中读取第二数组中除若干个伪项之外的项;基于读取的各项确定第一属性项的特征分位点。
-
公开(公告)号:CN118227316A
公开(公告)日:2024-06-21
申请号:CN202410232425.9
申请日:2024-02-29
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书的实施例提供了一种数据处理方法、装置和分布式数据处理系统。在应用于基于Ray的分布式数据处理系统的有状态数据处理装置的数据处理方法中,响应于接收到有状态数据处理任务,执行有状态数据处理任务中的数据处理操作,有状态数据处理任务通过对程序源代码进行解析得到;确定数据处理操作的处理结果所对应的对象标识;以及根据所确定的对象标识,将数据处理操作的处理结果以对象标识‑数据对象的形式存储到本地存储空间中。
-
公开(公告)号:CN116843041A
公开(公告)日:2023-10-03
申请号:CN202310788991.3
申请日:2023-06-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06N20/20 , G06F18/213 , G06F18/25 , G06F18/27 , G06F21/62
Abstract: 本说明书实施例提供一种基于目标模型进行联合预测的方法和装置,其中目标模型包括基于因子分解机FM的第一子模型,联合预测涉及第一方和第二方,第一方持有目标对象的若干项第一特征,第二方持有目标对象的其他特征。在该方法中,第一方可以获取FM模型的二阶组合参数中针对各项第一特征各自的k维参数;然后本地计算第一中间项和第二中间项,其中第一中间项包括k个中间值,任意第j中间值是各项第一特征对应的第j维参数的乘积之和,第二中间项包括,各项第一特征与各个维度参数值的乘积的平方之和。于是,第一方可以将基于第一中间项和第二中间项得到的第一中间结果发送给目标方,使其融合得到FM模型的输出。
-
公开(公告)号:CN112182632A
公开(公告)日:2021-01-05
申请号:CN202011232020.3
申请日:2020-11-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供了一种基于访问模式保护的样本特征分位点确定方法及装置。可信执行环境TEE中的CPU从内存中顺序读取包含N1项的第一数组,其对应于N1个样本的第一属性项的特征值与对应的权重值;针对第一数组中的N1个特征值,将值大小相同的特征值对应的权重值进行合并,得到第一序列,在第一序列中填充若干个伪项以得到第二序列,使得第二序列的项数达到N1项,基于第二序列形成包含N1项的第二数组,并将第二数组写入内存;采用不经意访问方式,从内存中读取第二数组中除若干个伪项之外的项;基于读取的各项确定第一属性项的特征分位点。
-
公开(公告)号:CN117196003A
公开(公告)日:2023-12-08
申请号:CN202311276393.4
申请日:2023-09-27
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例披露一种多方联合进行模型训练的方法及装置,应用于训练样本数据垂直分布的场景。该方法可以应用于多方中的标签方或非标签方,多方各自针对本地模型维护一个计算任务队列。该方法在应用于非标签方时包括:一旦从标签方接收完成针对一批次样本的回传梯度,将针对该批次样本的反向传播任务加入本方任务队列,该反向传播任务指示基于回传梯度沿本地嵌入模型反向确定模型梯度并更新模型;以及,每次执行完一个反向传播任务,将利用本地嵌入模型处理一批次样本的前向传播任务加入本方任务队列,本方任务队列初始被添加预定数量的前向传播任务。如此,可以多方联合进行多批次样本的并行训练和模型的乱序更新,以提高资源利用率。
-
公开(公告)号:CN116842363A
公开(公告)日:2023-10-03
申请号:CN202310797149.6
申请日:2023-06-29
Applicant: 支付宝(杭州)信息技术有限公司
IPC: G06F18/213 , G06F18/214 , G06F18/30 , G06F21/62
Abstract: 本说明书实施例提供了保护隐私的多方联合进行特征分箱的方法和装置。根据该方法,多个数据方中任意的一方执行多轮迭代,其中第i轮迭代包括以下步骤。首先基于本地样本的样本信息,确定目标分位点在第i‑1轮的第一特征值在本地样本中的本地排序,然后向服务器发送第一消息,其中包括与本地排序相关的排序信息。之后,从服务器接收第二消息,其指示目标全局排序与当前全局排序的大小关系;其中,目标全局排序是目标分位点在多个数据方的总样本中的应有排序,当前全局排序由服务器基于多个数据方发送的排序信息进行聚合而确定。于是,在与上述大小关系对应的调整方向,按照约定方式将第一特征值调整为第二特征值。
-
公开(公告)号:CN112367396A
公开(公告)日:2021-02-12
申请号:CN202011233423.X
申请日:2020-11-06
Applicant: 支付宝(杭州)信息技术有限公司
Abstract: 本说明书实施例提供一种分布式集群中的样本特征分位点确定方法及装置,用于确定样本特征中第一属性项的特征分位点,主节点的CPU从内存中分别读取具有设定项数的多个第一数组,多个第一数组分别从多个从节点中获取,且分别基于样本集中不同的分批样本的样本特征得到,然后按照预定的方式,针对多个第一数组进行逐级数组合并,直至最后一级数组合并;其中任意一级数组合并包括:针对包含两个数组中各项的特征值集合,进行权重值进行合并、伪项填充操作得到合并数组,并将合并数组写入内存,采用不经意访问方式,从内存中读取最后一级数组合并得到的合并数组中除若干个伪项之外的项,基于从该合并数组中读取的各项确定所述第一属性项的特征分位点。
-
-
-
-
-
-
-