一种隐私增强的结构化数据仿真生成方法及系统

    公开(公告)号:CN117313160B

    公开(公告)日:2024-04-09

    申请号:CN202311553385.X

    申请日:2023-11-21

    Abstract: 本发明提供了一种隐私增强的结构化数据仿真生成方法及系统,该方法包括:步骤一,数据转换阶段:对数据进行规范化预处理;步骤二,概率图模型构建阶段:基于贝叶斯形式对所述步骤一进行规范化预处理的数据构建变分推断的后验分布,利用斯坦因变分梯度下降方法得到描述结构化数据特征间的关联关系,在引入差分隐私噪声时,采用蒙特卡洛估计算法自动获得每步更新所需添加的噪声量;步骤三,数据生成阶段:将所述步骤二得到的关联关系作为度量集合,生成与真实数据更加精确的仿真数据。本发明的有益效果是:本发明方法避免了在应用DP‑SGD时对梯度进行剪裁,不仅避免了剪裁参数的选择,而且缓解了梯度剪裁对推断过程的不利影响。

    一种隐私增强的结构化数据仿真生成方法及系统

    公开(公告)号:CN117313160A

    公开(公告)日:2023-12-29

    申请号:CN202311553385.X

    申请日:2023-11-21

    Abstract: 本发明提供了一种隐私增强的结构化数据仿真生成方法及系统,该方法包括:步骤一,数据转换阶段:对数据进行规范化预处理;步骤二,概率图模型构建阶段:基于贝叶斯形式对所述步骤一进行规范化预处理的数据构建变分推断的后验分布,利用斯坦因变分梯度下降方法得到描述结构化数据特征间的关联关系,在引入差分隐私噪声时,采用蒙特卡洛估计算法自动获得每步更新所需添加的噪声量;步骤三,数据生成阶段:将所述步骤二得到的关联关系作为度量集合,生成与真实数据更加精确的仿真数据。本发明的有益效果是:本发明方法避免了在应用DP‑SGD时对梯度进行剪裁,不仅避免了剪裁参数的选择,而且缓解了梯度剪裁对推断过程的不利影响。

    一种结构化仿真数据生成系统及生成方法

    公开(公告)号:CN115169252B

    公开(公告)日:2022-12-13

    申请号:CN202211086686.1

    申请日:2022-09-07

    Abstract: 本发明公开了一种结构化仿真数据生成系统及生成方法,所述系统包括数据预处理单元以及训练和生成单元,所述数据预处理单元用于将原始数据中的每个样本转换成向量表示,并且在转换的过程中建模贝叶斯网络用以描述特征间的关联关系;所述训练和生成单元利用原始数据转换后的向量表示进行训练,得到仿真数据生成模型,利用所述仿真数据生成模型生成仿真数据记录。本发明系统和方法能够同时生成含有连续型特征和离散型特征的仿真数据记录;针对生成仿真数据,既保持了与原始数据一致的数据分布,也保证了与原始数据一致的特征间关联关系;同时提出一种根据所需条件生成仿真数据的方法,能够根据不同的仿真数据应用场景生成分析所需的仿真数据记录。

    基于对比学习的异常检测方法、系统及计算机存储介质

    公开(公告)号:CN114330572A

    公开(公告)日:2022-04-12

    申请号:CN202111666302.9

    申请日:2021-12-31

    Abstract: 本发明提出了一种基于对比学习的异常检测方法、系统及计算机存储介质。该方法包括异常检测模型训练阶段和异常检测阶段,其中异常检测模型训练阶段提取输入样本的特征向量,并对特征向量进行判别,根据判别结果计算异常检测模型的对比损失,利用对比损失对异常检测模型进行训练;异常检测阶段将待检测样本集中的样本输入训练好的异常检测模型,将输出的判别结果进行计算,得到异常得分;将所有样本的异常得分进行归一化处理,得到归一化异常得分,通过设置归一化异常得分阈值,判定样本是否异常。本发明在特征空间提取出有区分性的特征,并且判别输出的异常得分具有高区分性,在实际生活中的数据集异常检测上相比其他方法有较大提升。

    调试环境和运行环境分离的数据分析方法、装置及系统

    公开(公告)号:CN111176980A

    公开(公告)日:2020-05-19

    申请号:CN201911262217.9

    申请日:2019-12-10

    Abstract: 本发明适用计算机技术领域,提供了调试环境和运行环境分离的数据分析方法、装置及系统,该方法包括:从运行环境的真实数据中抽取部分数据,将部分数据经过脱敏后传送到调试环境中作为样本数据;在调试环境中,连接样本数据和机器学习组件组成机器学习工作流,获取每个机器学习组件设置的组件参数;在调试环境中调试机器学习工作流,调试完成之后,将机器学习工作流迁移到运行环境中运行;导入运行环境的真实数据执行机器学习工作流,得到机器学习模型;将运行环境中训练得到的机器学习模型通过白名单审查之后导入到调试环境中,供用户查看和下载。本发明既能保证数据隐私不被泄露,也能使用真实数据进行数据分析。

    基于对抗样本的多教师知识蒸馏方法及装置

    公开(公告)号:CN114219043A

    公开(公告)日:2022-03-22

    申请号:CN202111568528.5

    申请日:2021-12-21

    Abstract: 本发明公开了一种基于对抗样本的多教师知识蒸馏方法、装置及计算机存储介质,该方法包括:对样本基于教师概率输出与学生概率输出差异最大化的原则,选择待修改原始样本;将待修改原始样本在教师模型上分类概率最大的分类作为对抗攻击的目标分类以及对应的待修改原始样本作为可修改原始样本;基于教师模型对可修改原始样本类别的分类概率得到教师模型的决策边界,利用点到线距离的向量算法,以可修改原始样本恰好越过决策边界和恰好不越过决策边界为目标,对可修改原始样本进行迭代修改,生成位于决策边界两侧的边界样本对;利用生成的边界样本,使用基于边界距离的多教师权重分配训练学生模型。本发明能够提升学生模型的分类精度。

    一种用于知识蒸馏的边界样本数据增强方法及装置

    公开(公告)号:CN114219042A

    公开(公告)日:2022-03-22

    申请号:CN202111568400.9

    申请日:2021-12-21

    Abstract: 本发明公开了一种用于知识蒸馏的边界样本数据增强方法、装置及计算机存储介质,该方法包括:在知识蒸馏进行前,利用教师模型对样本的输出,对每一个原始数据集中的样本沿教师模型的决策边界进行逐步迭代的修改,扩充出多个适合用于知识蒸馏的边界样本。在每轮迭代中,使用原始样本或上轮修改出的每个样本作为基础样本,利用教师模型的输出求出该样本附近决策边界的近似切面,在该切面上沿多个方向修改样本;随后对该修改后的样本进行边界化修改使之位于边界附近;最后,挑选与其他基础样本距离最远的数个样本作为该轮修改的结果以及下轮迭代修改的基础样本。本发明能够满足当前图像分类器知识蒸馏中对数据增强的需求。

    调试环境和运行环境分离的数据分析方法、装置及系统

    公开(公告)号:CN111176980B

    公开(公告)日:2023-04-25

    申请号:CN201911262217.9

    申请日:2019-12-10

    Abstract: 本发明适用计算机技术领域,提供了调试环境和运行环境分离的数据分析方法、装置及系统,该方法包括:从运行环境的真实数据中抽取部分数据,将部分数据经过脱敏后传送到调试环境中作为样本数据;在调试环境中,连接样本数据和机器学习组件组成机器学习工作流,获取每个机器学习组件设置的组件参数;在调试环境中调试机器学习工作流,调试完成之后,将机器学习工作流迁移到运行环境中运行;导入运行环境的真实数据执行机器学习工作流,得到机器学习模型;将运行环境中训练得到的机器学习模型通过白名单审查之后导入到调试环境中,供用户查看和下载。本发明既能保证数据隐私不被泄露,也能使用真实数据进行数据分析。

Patent Agency Ranking