利用差分隐私词嵌入扰动的敏感文本脱敏方法

    公开(公告)号:CN114547670A

    公开(公告)日:2022-05-27

    申请号:CN202210039857.9

    申请日:2022-01-14

    Abstract: 本发明涉及利用差分隐私词嵌入扰动的敏感文本脱敏方法,属于差分隐私保护技术领域。本发明首先利用命名实体识别技术识别文本中的敏感单词,并随机抽样语料库中的非敏感单词;其次给敏感单词的词嵌入向量加上差分隐私噪声,生成新的扰动词嵌入向量;然后度量扰动词嵌入向量和非敏感单词的词嵌入向量之间的欧几里得距离,依据最近邻公式取得候选词集合;最后依据多单位拍卖概率公式用候选词集合中的单词替换文本中所有的敏感单词后输出脱敏文本。本发明在多个语料上实验,结果表明其在多种文本上都能达到较好的脱敏效果,具有良好的通用性和可迁移性。

    利用双向梯度引导的扩散模型生成脱敏文本方法

    公开(公告)号:CN118468332A

    公开(公告)日:2024-08-09

    申请号:CN202410489308.0

    申请日:2024-04-23

    Abstract: 本发明涉及利用双向梯度引导的扩散模型生成脱敏文本方法,属于计算机应用技术领域。本发明基于文本数据生成词嵌入向量,运用差分隐私随机梯度方法训练目标模型和攻击模型,记录二者的梯度方向;对词嵌入向量添加高斯噪声生成加噪数据;利用扩散模型对加噪数据进行逆扩散采样以生成预测词嵌入向量,联合目标模型和攻击模型的梯度方向指导扩散模型参数更新;用BERT模型将预测词嵌入向量转换为脱敏文本数据。本发明针对现有方法忽略敏感词的上下文语义及语义关联问题,提出利用双向梯度引导的扩散模型生成脱敏文本方法,利用逆扩散过程捕获原始语义,通过梯度方向引导扩散模型减弱文本中敏感信息的影响,有效提升脱敏文本数据的可用性和隐私保护效果。

Patent Agency Ranking