一种基于反义词替换的文本对抗攻击方法

    公开(公告)号:CN119538923A

    公开(公告)日:2025-02-28

    申请号:CN202411616617.6

    申请日:2024-11-13

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于反义词替换的文本对抗攻击方法,包括1)通过LAC、HanLP、LTP分词和词性标注工具对原始文本进行分词,并标注出其中的形容词;2)利用OpenHowNet对未标注的文本进一步筛选,生成与正向或负向形容词相关的词汇库,并对相似度大于阈值的词语进行标注;3)采用基于贪心算法和词语重要性排序的搜索算法,根据重要性分数对词语进行排序,确定文本中各个词的扰动顺序;4)基于筛选和人工标注结果,构建出一个完整的反义词库,并对标注出的形容词进行扰动,生成高相似度且可读的对抗文本。本发明基于反义词替换策略,提出通过特殊结构进行文本扰动,使生成的对抗文本既保持原文本的语义相似度,又能够有效干扰情感分类模型的判断。

    一种基于软提示调优模型防御中文文本对抗性攻击方法

    公开(公告)号:CN119848253A

    公开(公告)日:2025-04-18

    申请号:CN202411925450.1

    申请日:2024-12-25

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于软提示调优模型防御中文文本对抗性攻击方法,包括1)使用五种特定于中文的文本攻击策略生成目标域数据,并引入源域和目标域来模拟原始文本和对抗文本;2)基于少量源域数据去训练初始的软提示调优模型,为目标域实例分配伪标签;3)将目标域实例划分为n个子集,通过多次迭代获取目标域实例的n个标签,同时结合图注意力模型分析句法特征;4)通过投票机制选出在多次迭代中一致的标签,作为最终训练数据进行模型训练,实现中文对抗文本的分类预测。本发明通过少量源域数据训练初始模型,揭示目标域的真实标签信息,并通过投票机制结合图注意力增强中文语法特征的软提示调优模型,实现准确分类。

    一种基于提示调优的文本对抗防御方法

    公开(公告)号:CN118349675A

    公开(公告)日:2024-07-16

    申请号:CN202410455499.9

    申请日:2024-04-16

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于提示调优的文本对抗防御方法,包括1)采取四种策略对原始文本进行添加扰动形成对抗文本,并引入源域和目标域来模拟原始文本和对抗文本;2)手动构建提示调优模型的模板;3)在标签词映射器的构建中使用三种词汇注释工具在目标域上进行标注,根据主题分类或情感分类的任务类型抽取名词或形容词,并采用分层聚类和优化策略得到最终的标签词;4)随机选取少量源域数据样本,基于步骤2)和步骤3)中构建出优化的提示调优模型,实现对抗文本的分类预测。本发明基于提示调优模型,在少量源域数据样本的前提下,解决了多种文本攻击方法对文本准确分类的影响,实现文本对抗防御。

Patent Agency Ranking