实现隐私保护的分布式数据处理的方法及装置

    公开(公告)号:CN111737751A

    公开(公告)日:2020-10-02

    申请号:CN202010693667.X

    申请日:2020-07-17

    Inventor: 余超凡 王磊 周俊

    Abstract: 本说明书实施例提供一种实现隐私保护的分布式数据处理的方法和装置,在利用分布式系统确定属性值的分位点的情况下,各个节点对分配到的属性值执行相同候选值的合并权重操作,并且在传递给其他节点进行进一步合并权重的合并结果项中,既包括有效信息项,又包括无效信息项,有效信息项和无效信息项的总项数为预定的候选项数之一,从而,可以在减少信息传输项数的基础上,降低通过合并结果项数泄露候选值的风险,有效保护通过分布式系统确定属性值的分位点时的数据隐私。

    针对多方的隐私数据进行聚类的方法和装置

    公开(公告)号:CN111444544B

    公开(公告)日:2020-09-11

    申请号:CN202010536190.4

    申请日:2020-06-12

    Inventor: 陈超超 周俊 王力

    Abstract: 本说明书实施例提供一种针对多方的隐私数据进行聚类的方法和装置,方法包括:第一方确定各个类簇当前分别对应的各中心数据的第一分片;分别将所述各中心数据作为目标中心数据,基于本地的第一隐私数据和目标中心数据的第一分片,利用秘密共享的方式,与第二方中的目标中心数据的第二分片进行第一联合计算,得到第一隐私数据和目标中心数据的第一目标距离的第一分片;基于各第一目标距离的第一分片,利用秘密共享的方式,与第二方中的各第一目标距离的第二分片进行联合比较,确定各第一目标距离中的最近的第一目标距离;将最近的第一目标距离对应的类簇,确定为第一隐私数据当前归属的类簇。能够防止泄露隐私数据。

    行为预测系统的更新方法及装置

    公开(公告)号:CN111553754A

    公开(公告)日:2020-08-18

    申请号:CN202010663599.2

    申请日:2020-07-10

    Abstract: 本说明书实施例提供一种行为预测系统的更新方法,其中行为预测系统包括第一预测模型、第二预测模型和注意力模型,该更新方法包括:先获取训练样本,其中包括第一用户的用户特征,大众偏好特征,业务对象的对象特征及其所属业务方的业务方标识,以及样本标签,指示第一用户在第一历史时刻之后,是否对业务对象做出特定行为;将用户特征和对象特征,输入第一预测模型中,得到第一预测概率,并将大众偏好特征输入第二预测模型中,得到第二预测概率;利用基于业务方标识和注意力模型确定出的第一权重和第二权重,对第一预测概率和第二预测概率进行加权求和,得到综合预测概率,进而结合样本标签,更新行为预测系统中的模型参数。

    实现隐私保护的数据处理方法及装置

    公开(公告)号:CN111523146A

    公开(公告)日:2020-08-11

    申请号:CN202010632215.0

    申请日:2020-07-03

    Inventor: 李龙飞 周俊

    Abstract: 本说明书实施例提供一种实现隐私保护的数据处理方法,该方法包括:获取待处理的传感器数据,以及对应的身份类别标签和业务标签,该业务标签对应针对用户的业务预测任务;接着,将该传感器数据输入数据匿名模型中,得到匿名数据;进一步地,一方面,将该匿名数据输入预先训练的用户身份识别模型中,得到身份预测结果,用于结合身份类别标签确定身份预测损失;另一方面,将该匿名数据输入预先训练的业务预测模型中,得到业务预测结果,用于结合上述业务标签,确定业务预测损失;然后,利用综合损失,训练该数据匿名模型;该综合损失与该身份预测损失负相关,且与该业务预测损失正相关;其中训练后的数据匿名模型用于对目标传感器数据进行匿名处理。

    针对多方的隐私数据进行聚类的方法和装置

    公开(公告)号:CN111523143A

    公开(公告)日:2020-08-11

    申请号:CN202010631310.9

    申请日:2020-07-03

    Abstract: 本说明书实施例提供一种针对多方的隐私数据进行聚类的方法和装置,方法包括:第一方确定K个类簇当前分别对应的各中心数据的第一数据部分,第一数据部分对应于第一维度集合;第二方具有各中心数据的对应于第二维度集合的第二数据部分;分别将各中心数据作为目标中心数据,基于N个样本中任一样本的第一特征部分和目标中心数据的第一数据部分,通过本地计算得到任一样本和目标中心数据的目标距离的第一分片;基于各目标距离的第一分片,利用秘密共享的方式,与第二方中的各目标距离的第二分片进行联合比较,确定各目标距离中的最近的目标距离;将最近的目标距离对应的类簇,确定为任一样本当前归属的类簇。能够防止泄露隐私数据。

    基于隐私保护对业务模型进行数据预处理的方法及装置

    公开(公告)号:CN111291416B

    公开(公告)日:2020-07-31

    申请号:CN202010384190.7

    申请日:2020-05-09

    Inventor: 李龙飞 周俊

    Abstract: 本说明书实施例提供一种基于隐私保护对业务模型进行数据预处理的方法,在对业务模型进行数据预处理过程中,通过将业务模型的前半部分设置在可信的第一环境中,可以有效保护数据隐私。同时由于可信环境中的数据处理速度变慢,结合设置在第二环境中的第二部分,可以进行模型训练过程加速,提高数据处理效率。进一步地,通过第一部分和第二部分的动态切分,可以保证第一部分的处理结果有效保护数据隐私。总之,本说明书实施例描述的技术方案可以提高基于隐私保护的数据预处理过程的有效性。

    提供业务模型的方法及装置

    公开(公告)号:CN111241850B

    公开(公告)日:2020-07-17

    申请号:CN202010329629.6

    申请日:2020-04-24

    Inventor: 王力 周俊

    Abstract: 本说明书实施例提供一种提供业务模型的方法,通过本说明书实施例提供的方法和装置,在服务端预先存储大量候选模型,并存储对各候选模型的训练数据进行编码得到的候选语义向量,在客户端需要业务模型时,可以上传由自有业务数据确定的当前语义向量,并将当前语义向量和候选语义向量进行匹配,以根据匹配结果选择目标模型。这种方式可以较好地保护客户端的数据隐私,并且产生较少的通信量。特别地,服务端选择的目标模型有多个,将多个目标模型进行融合后,将融合结果提供给客户端,可以有效保护服务端的模型数据隐私。总之,本说明书描述的提供业务模型的方法,可以提升业务模型应用的有效性。

    保护数据隐私的双方联合训练业务预测模型的方法和装置

    公开(公告)号:CN111241570B

    公开(公告)日:2020-07-17

    申请号:CN202010329627.7

    申请日:2020-04-24

    Inventor: 王力 陈超超 周俊

    Abstract: 本说明书实施例提供一种保护数据隐私的双方联合训练业务预测模型的方法和装置,其中第一方和第二方分别拥有一部分特征数据,分别维护第一和第二参数部分。在模型迭代时,双方各自计算其特征矩阵与参数的乘积结果,第一方将其乘积结果同态加密后发送给拥有标签的第二方,由第二方进行同态运算,得到加密误差向量。然后,第二方对该加密误差向量添加混淆向量后发送给第一方,并与第一方各自采用该混淆向量和特征矩阵进行安全矩阵乘法,得到乘积分片。第二方可选的对乘积分片添加混淆,然后发给第一方。第一方由此确定出其第一梯度,据此更新其参数。

    一种基于隐私数据进行模型训练的方法及系统

    公开(公告)号:CN111178547B

    公开(公告)日:2020-07-17

    申请号:CN202010276715.5

    申请日:2020-04-10

    Inventor: 陈超超 王力 周俊

    Abstract: 本说明书一个或多个实施例涉及一种基于隐私数据进行模型训练的方法及系统。所述的方法包括:第一终端持有第一隐私数据;第二终端持有第二隐私数据、样本标签以及基于第一隐私数据和所述第二隐私数据联合训练的模型的加密损失值;第二终端基于所述加密损失值以及自身的第一掩码,参与第二解密梯度的计算;第二终端基于所述加密损失值、自身的第二掩码以及加密后的第一特征,参与第一解密梯度的计算;所述第一解密梯度和第二解密梯度用于更新所述联合训练的模型;其中,所述加密为同态加密;所述第一隐私数据和所述第二隐私数据对应于相同的训练样本,所述训练样本为与实体相关的图像数据、文本数据或声音数据。

    样本数据处理方法、装置及多方模型训练系统

    公开(公告)号:CN111401483A

    公开(公告)日:2020-07-10

    申请号:CN202010411914.2

    申请日:2020-05-15

    Abstract: 本说明书的实施例提供用于多方模型训练的样本数据处理方法及装置。在该方法中,基于样本数据的数据标签,将第一样本数据集分类为第二样本数据集和第三样本数据集,第二样本数据集中的第二样本数据具有唯一数据标签,以及第三样本数据集中的第三样本数据具有至少两个不同的数据标签。使用第二样本数据集进行模型训练,以训练出第一模型。使用第一模型来对各个第一成员节点的本地数据进行数据质量评估。基于各个第一成员节点的数据质量评估结果,对第三样本数据集中的第三样本数据进行标签重构,所述经过标签重构后的第三样本数据具有唯一数据标签。

Patent Agency Ranking