-
公开(公告)号:CN120011556A
公开(公告)日:2025-05-16
申请号:CN202510033099.3
申请日:2025-01-09
Applicant: 桂林电子科技大学
IPC: G06F16/35 , G06F16/334 , G06F16/335 , G06F16/338 , G06N5/04 , G06F18/241
Abstract: 本发明提供一种面向中文生成大模型的偏见检测方法,属于自然语言处理领域,该方法包括定义偏见上下文;生成文本样本;关注度标注和分析;构建中文关注度分类器和使用关注度分类器器评估文本中的偏见。该方法通过分析由不同人口群体提示生成的文本,在中文引入了对人口群体的关注概念,并使用不同人口群体的关注度水平差异作为偏见的衡量指标。本发明还提供了一种基于预训练模型的关注分类器,可用于分析未见过的文本中的偏见。
-
公开(公告)号:CN119940362A
公开(公告)日:2025-05-06
申请号:CN202510033047.6
申请日:2025-01-09
Applicant: 桂林电子科技大学
IPC: G06F40/289 , G06F40/30 , G06N3/08
Abstract: 本发明提供一种基于束搜索的中文文本对抗攻击方法,属于自然语言处理领域,该方法包括获取对抗样本攻击的中文数据集;对中文文本进行分词;随后对分词后的文本使用中文的字形、拼音、同义词等进行扰动,从而增强对抗样本的语义保留性;最后利用束搜索算法探索对抗样本空间,从而进一步提高攻击成功率。本发明能够实现高攻击成功率的文本对抗攻击,并且生成的中文文本对抗样本具有良好的可读性。
-
公开(公告)号:CN119938882A
公开(公告)日:2025-05-06
申请号:CN202510033143.0
申请日:2025-01-09
Applicant: 桂林电子科技大学
IPC: G06F16/334 , G06F16/335 , G06F16/338 , G06F16/35 , G06N5/04
Abstract: 本发明公开一种面向中文生成大型语言模型的偏见攻击方法,属于自然语言处理领域,用于文本对抗攻击,该方法包括获取偏见攻击所需数据集;利用数据集初始化偏见关联并设置优化的目标;然后通过基于适应性的搜索利来寻找流畅的对抗提示,适应性搜索利用了大模型预测下一个词元的概率分布和语义相似度过滤来提高对抗提示的隐蔽性;随后计算不同目标的Pareto前沿;并用面向偏见的选择策略选择有效的候选对抗提示;最后利用获得的对抗提示评估生成文本的偏见的鲁棒性。
-
-