-
公开(公告)号:CN115659171B
公开(公告)日:2023-06-06
申请号:CN202211178731.6
申请日:2022-09-26
Applicant: 中国工程物理研究院计算机应用研究所
IPC: G06F18/214 , G06F18/2415 , G06V10/774 , G06V10/764
Abstract: 本发明涉及机器学习安全领域,提供了一种基于多元特征交互的模型后门检测方法、装置及存储介质。主旨在于提高模型后门的识别率以及降低检测实现的计算开销。主要方案包括对于一个k分类模型F,对于每个类别i∈{1,2,...,k},防御者准备大小为s的数据集将数据集的单个数据输入给模型F,得到模型F的logits层的输出向量然后对向量按类别做向量和得到用于判断后门的k维向量r,其中rm为向量r的第m个分量,rm代表所有步骤1准备的数据在F模型的logits层上第m类预测结果的logits累计值,给定阈值b,当第m类的logits累计值rm高于b时,则此类受到了模型后门攻击。
-
公开(公告)号:CN112819109B
公开(公告)日:2021-06-18
申请号:CN202110416397.2
申请日:2021-04-19
Applicant: 中国工程物理研究院计算机应用研究所
Abstract: 本发明公开了一种针对黑盒对抗样本攻击的视频分类系统安全性增强方法,属于人工智能安全领域,解决现有深度神经网络对添加了扰动后的违规视频的检测效率低的问题,即解决现有违规视频检测系统针对对抗样本没有抵抗能力的问题。本发明获取一违规视频作为原始样本,基于已训练好的、三种不同架构的白盒视频对抗样本生成模型分别对原始样本进行处理,得到预样本;基于区域划分函数,对预样本进行区域划分;利用黑盒梯度估计算法按划分的区域对预样本进行基于梯度的优化,生成对抗样本;基于生成的对抗样本对目标视频分类系统进行训练,并基于训练后的目标视频分类系统对视频进行分类。本发明用于违规视频检测。
-
公开(公告)号:CN118035104B
公开(公告)日:2024-06-14
申请号:CN202410225058.X
申请日:2024-02-29
Applicant: 中国工程物理研究院计算机应用研究所
IPC: G06F11/36 , G06F40/205
Abstract: 本发明涉及大语言模型领域,提供了一种针对大语言模型的系统负载压力测试方法。主旨在于解决现有海绵测试样例生成方法存在的生成效率低和测试效果有限等缺点。主要方案包括步骤海绵测试样例生成步骤:针对本地大语言模型以白盒梯度优化的形式生成海绵测试样例并构建压力测试样例数据集;大语言模型压力测试步骤:根据压力测试样例数据集对待测试大语言模型进行系统负载压力测试并生成测试结果。通过引入Gumbel‑Softmax技术实现白盒海绵测试样例生成,提高生成效率,并将专家模型激活度纳入优化目标,从而实现对大语言模型系统的整体测试,确保大语言模型在极端情况下的可用性和服务连续性。
-
公开(公告)号:CN118035104A
公开(公告)日:2024-05-14
申请号:CN202410225058.X
申请日:2024-02-29
Applicant: 中国工程物理研究院计算机应用研究所
IPC: G06F11/36 , G06F40/205
Abstract: 本发明涉及大语言模型领域,提供了一种针对大语言模型的系统负载压力测试方法。主旨在于解决现有海绵测试样例生成方法存在的生成效率低和测试效果有限等缺点。主要方案包括步骤海绵测试样例生成步骤:针对本地大语言模型以白盒梯度优化的形式生成海绵测试样例并构建压力测试样例数据集;大语言模型压力测试步骤:根据压力测试样例数据集对待测试大语言模型进行系统负载压力测试并生成测试结果。通过引入Gumbel‑Softmax技术实现白盒海绵测试样例生成,提高生成效率,并将专家模型激活度纳入优化目标,从而实现对大语言模型系统的整体测试,确保大语言模型在极端情况下的可用性和服务连续性。
-
公开(公告)号:CN114757349B
公开(公告)日:2023-09-19
申请号:CN202210353815.2
申请日:2022-04-01
Applicant: 中国工程物理研究院计算机应用研究所
IPC: G06N3/094 , G06N3/084 , G06N3/045 , G06N3/047 , G06F18/214 , G06F18/2415 , G06V10/774 , G06V10/82 , G06V10/764 , G06V10/96
Abstract: 本发明公开了一种基于条件对抗样本的模型投毒方法及系统,属于人工智能安全技术领域,解决现有技术容易出现无效投毒的情况,从而造成数据被防御,无法使模型的性能降低。本发明获取训练数据集,其中,训练数据集包括多个不同类别的子集,各子集包括多个正常样本;在训练数据集中任选一个子集或多个子集,给子集中各正常样本初始化两个扰动;基于已预训练的检测模型对正常样本和两个扰动进行检测,若满足要求,得到正常样本与两个扰动之和,即条件对抗样本,若不满足要求,更新扰动后再次执行步骤3;将得到条件对抗样本的正常样本替换为条件对抗样本,替换完成后得到新的训练数据集,并基于新的训练数据集训练检测模型。本发明用于模型投毒。
-
公开(公告)号:CN112990357A
公开(公告)日:2021-06-18
申请号:CN202110413133.1
申请日:2021-04-16
Applicant: 中国工程物理研究院计算机应用研究所
Abstract: 本发明公开了一种基于稀疏扰动的黑盒视频对抗样本生成方法,属于对抗样本生成方法技术领域,解决现有技术对视频的每个视频帧都添加扰动,对抗样本的生成效率低,生成的对抗样本扰动率高、隐蔽性差的问题。本发明获取视频,基于关键帧识别方法选取视频中的关键帧;基于关键区域识别技术评估各关键帧中的关键区域;将对抗样本生成系统生成的关键区域的扰动添加到关键区域上,得到初始化的视频对抗样本;基于初始化的视频对抗样本,利用黑盒梯度估计方法进行梯度的优化,生成最终的视频对抗样本。本发明用于生成视频对抗样本。
-
公开(公告)号:CN115510440B
公开(公告)日:2023-09-08
申请号:CN202211155036.8
申请日:2022-09-21
Applicant: 中国工程物理研究院计算机应用研究所
Abstract: 本发明公开了一种基于NES算法的黑盒模型反演攻击方法及系统,属于人工智能安全领域,解决现有技术中基于优化的反演攻击方法实用性相对较低,和基于模型训练的反演攻击方法隐藏性差、耗时长等问题。本发明基于给定的数据集训练一对GAN模型,包括与被攻击模型的输入类型相同的G模型和对G模型的输出进行评分的D模型,其中,被攻击模型即为目标模型;基于训练好的G模型和D模型,结合目标模型的输出,对目标模型发起反演攻击得到重构图像。本发明用于黑盒模型反演攻击。
-
公开(公告)号:CN112818407B
公开(公告)日:2021-06-22
申请号:CN202110409156.5
申请日:2021-04-16
Applicant: 中国工程物理研究院计算机应用研究所
Abstract: 本发明公开了一种基于生成对抗网络的视频隐私保护方法,属于人工智能安全领域,解决现有技术中的隐私保护方法无法对视频进行隐私保护。本发明将点对点的图像生成系统作为对抗网络生成器,并基于视频数据集Image‑net训练得到一系列的视频对抗样本;将三种不同架构的视频分类系统作为对抗网络鉴别器,并基于一系列的对抗样本和对应的原始视频对对抗网络鉴别器进行训练,若训练后能分辨出对抗样本和原始视频的区别,根据训练后的对抗网络鉴别器的参数,利用梯度下降方法对中训练后的对抗网络生成器进行优化,并再次执行,否则,得到训练好的对抗网络生成器对隐私保护的视频进行处理,得到视频对抗样本。本发明用于视频隐私保护。
-
公开(公告)号:CN112818407A
公开(公告)日:2021-05-18
申请号:CN202110409156.5
申请日:2021-04-16
Applicant: 中国工程物理研究院计算机应用研究所
Abstract: 本发明公开了一种基于生成对抗网络的视频隐私保护方法,属于人工智能安全领域,解决现有技术中的隐私保护方法无法对视频进行隐私保护。本发明将点对点的图像生成系统作为对抗网络生成器,并基于视频数据集Image‑net训练得到一系列的视频对抗样本;将三种不同架构的视频分类系统作为对抗网络鉴别器,并基于一系列的对抗样本和对应的原始视频对对抗网络鉴别器进行训练,若训练后能分辨出对抗样本和原始视频的区别,根据训练后的对抗网络鉴别器的参数,利用梯度下降方法对中训练后的对抗网络生成器进行优化,并再次执行,否则,得到训练好的对抗网络生成器对隐私保护的视频进行处理,得到视频对抗样本。本发明用于视频隐私保护。
-
公开(公告)号:CN116128700B
公开(公告)日:2023-09-12
申请号:CN202310320554.9
申请日:2023-03-29
Applicant: 中国工程物理研究院计算机应用研究所
IPC: G06T1/00 , G06V10/764 , G06V10/774
Abstract: 本发明公开了一种基于图像固有特征的模型水印植入和验证方法及系统,属于人工智能安全技术领域,解决现有技术使验证水印存在的方法失效的问题。本发明版权所有者选择图片的任一全局特征作为植入水印的基础,并基于选择的全局特征确定全局特征量化函数;给定阈值,并结合全局特征量化函数来构建输出结果为True或False的标准判断函数;基于全局特征量化函数和标准判断函数判断各图片对应的输出结果;若为True时,版权所有者将对应图片的原始标签y修改为验证标签,得到变更后的图片;版权所有者利用变更后的图片作为训练集训练模型,即在此训练过程中以全局特征为触发器的水印将被植入到受保护的模型中,得到训练后的模型。本发明用于模型水印植入和验证。
-
-
-
-
-
-
-
-
-