针对聚类模型的数据预处理方法及装置

    公开(公告)号:CN112541530B

    公开(公告)日:2023-06-20

    申请号:CN202011409579.9

    申请日:2020-12-06

    Abstract: 本说明书实施例提供一种针对聚类模型的数据预处理以及利用属性图进行业务实体聚类的方法,基于信息论,提供了一种通过表征向量对属性图进行表征,并利用表征向量与聚类类别的原型向量之间转移的信息损失来训练聚类模型。并且,这种信息损失通过表征向量与基于原型向量确定的映射向量之间的相似性来衡量。进一步地,在确定互信息的过程中,利用经验概率分布代替总体分布的期望,提供一种可以利用经验逼近互信息的方式。该方式得以有效利用信息论,从而提供更有效的利用属性图的业务实体聚类方法。

    生成对抗样本的方法及装置

    公开(公告)号:CN113313404B

    公开(公告)日:2022-12-06

    申请号:CN202110662087.9

    申请日:2021-06-15

    Abstract: 本说明书实施例提供一种生成对抗样本的方法和装置,其中方法包括,首先获取目标风险样本的原始样本特征以及风险检测模型。针对该目标风险样本,在预定特征空间中,确定预定数目T个基准方向;依次按照T个基准方向中的不同基准方向,以预设的第一步长,执行若干轮特征变换,直到得到第一变换特征,其中风险检测模型针对该第一变换特征的预测值落入非风险样本对应的预定区间。然后,针对该第一变换特征,沿最后一次特征变换方向的逆向,以依次增大的回退幅度执行若干次回退操作,直到得到第二变换特征,该风险检测模型针对第二变换特征的预测值达到前述预定区间的边界。于是,可以根据该第二变换特征,形成目标风险样本对应的对抗样本。

    属性预测模型的训练方法、属性预测方法和装置

    公开(公告)号:CN115222040A

    公开(公告)日:2022-10-21

    申请号:CN202210651571.6

    申请日:2022-06-10

    Inventor: 吴若凡

    Abstract: 本说明书实施例描述了属性预测模型的训练方法、属性预测方法和装置。根据实施例的方法,首先需要将利用网络行为数据构建的图网络拆分为多个子网络。然后计算各个子网络中的第一节点的损失函数值,并计算损失函数值满足分布漂移约束时的权重值,进一步利用得到的权重值即可训练得到属性预测模型。由于权重值是在满足损失函数分布漂移约束的条件下得到的,即实现了对模型训练数据和预测数据随时间变化呈现的不一致规律的约束。因此,基于本方案能够有效缓解分布漂移带来的模型性能衰减的问题,从而提高利用该模型进行属性预测的准确性。

    隐私保护算法的验证方法、装置及电子设备

    公开(公告)号:CN113886886A

    公开(公告)日:2022-01-04

    申请号:CN202111234174.0

    申请日:2020-09-04

    Inventor: 吴若凡

    Abstract: 本说明书实施例提供一种隐私保护算法的验证方法、装置及电子设备,所述隐私保护算法为差分隐私类的随机算法;根据该方法,获取互为相邻数据集的第一隐私仿真数据集和第二隐私仿真数据集;通过多次调用所述隐私保护算法,处理所述第一隐私仿真数据集,得到多个第一结果,以及处理所述第二隐私仿真数据集,得到多个第二结果;基于所述多个第一结果和所述多个第二结果,利用假设检验的方式得到表征所述隐私保护算法的隐私保护性能的权衡函数。如此能够便捷且准确地对隐私保护算法的隐私保护性能做出决策。

    基于差分隐私的业务分析方法及装置

    公开(公告)号:CN112926090A

    公开(公告)日:2021-06-08

    申请号:CN202110322506.4

    申请日:2021-03-25

    Inventor: 吴若凡

    Abstract: 本说明书提供一种基于差分隐私的业务分析方法及装置,根据该方法,所述方法包括至少一个业务分析阶段,任一个业务分析阶段包括至少一轮操作;该业务分析阶段的第n轮的操作包括以下步骤:获取目标数据;所述目标数据为对待处理数据进行匿名化处理得到的;对所述目标数据进行预设的业务分析;若所述业务分析成功,结束该业务分析阶段;若所述业务分析失败,确定第n+1轮的隐私预算,并向所述多个用户设备发送所述第n+1轮的隐私预算。从而能够在对数据进行差分隐私处理的过程中,自适应地调整隐私预算,增强了隐私保护过程的灵活性,提高了隐私保护数据的可用性。

    估计差分隐私保护数据中分词频度的方法及装置

    公开(公告)号:CN112507710B

    公开(公告)日:2021-05-25

    申请号:CN202110161186.9

    申请日:2021-02-05

    Abstract: 本说明书提供一种估计差分隐私保护数据中分词频度方法、装置及电子设备,根据该方法,获取终端设备上报的、经本地差分隐私处理的各个分词信息;划分出N组分词信息,使同组的各个分词信息对应于相同的目标个数;确定各组分词信息各自对应的表示分词频度无偏估计的各组估计数据;基于所述各组估计数据,逐层生成用于记录分词频度的前缀树的各层节点。其中,在生成前缀树的第n层节点的过程中,选择部分备选n元分词作为第n层节点表示的n元分词,无需遍历由预设的词语单元构成的所有n元分词,不仅大大降低了计算量,提高了计算效率,而且基于分词的频度显著性分布信息而筛选出来的第n层节点表示的n元分词更具合理性。

    自适应数据分析中的错误发现率控制方法及装置

    公开(公告)号:CN112579979A

    公开(公告)日:2021-03-30

    申请号:CN202011521825.X

    申请日:2020-12-21

    Inventor: 吴若凡

    Abstract: 本说明书实施例提供了一种自适应数据分析中的错误发现率控制方法及装置。控制系统包括外层的控制单元和内层的分析单元,而第一分析试验和第二分析试验是分析试验序列中依次排列的两个分析试验,各个分析试验针对包含私有数据的原始数据进行自适应数据分析。控制单元获取第一分析单元发送的针对第一分析试验的第一显著性检验结果,该结果是根据第一分析试验对应的假设的显著性P值与第一显著性阈值的比较得到;控制单元根据已获得的多个显著性检验结果以及目标错误发现率,确定第二显著性阈值,并将其发送至用于执行第二分析试验的第二分析单元,以使第二分析单元将第二显著性阈值应用于第二分析试验的检验结果判断中。

    针对聚类模型的数据预处理方法及装置

    公开(公告)号:CN112541530A

    公开(公告)日:2021-03-23

    申请号:CN202011409579.9

    申请日:2020-12-06

    Abstract: 本说明书实施例提供一种针对聚类模型的数据预处理以及利用属性图进行业务实体聚类的方法,基于信息论,提供了一种通过表征向量对属性图进行表征,并利用表征向量与聚类类别的原型向量之间转移的信息损失来训练聚类模型。并且,这种信息损失通过表征向量与基于原型向量确定的映射向量之间的相似性来衡量。进一步地,在确定互信息的过程中,利用经验概率分布代替总体分布的期望,提供一种可以利用经验逼近互信息的方式。该方式得以有效利用信息论,从而提供更有效的利用属性图的业务实体聚类方法。

    一种风险识别的方法、装置、存储介质及电子设备

    公开(公告)号:CN119831325A

    公开(公告)日:2025-04-15

    申请号:CN202411824619.4

    申请日:2024-12-11

    Abstract: 本说明书公开了一种风险识别的方法、装置、存储介质和电子设备,所述方法包括:确定待识别用户的交易数据,并根据交易数据,确定待识别用户的交易关系图。将交易关系图输入风险识别模型的状态空间子网,对在历史时刻与待识别用户存在交易关系的第一用户对应的第一信息进行特征提取,确定历史特征。对在当前时刻与待识别用户存在交易关系的第二用户对应的第二信息进行特征提取,确定当前特征,将历史特征和当前特征输入风险识别模型中的特征聚合子网,确定聚合特征。将聚合特征输入风险识别模型的识别层,确定风险识别结果。通过状态空间子网确定历史特征,聚合历史特征和当前特征,确定风险识别结果,提高风险识别的自由度和准确性。

Patent Agency Ranking