-
公开(公告)号:CN118503821A
公开(公告)日:2024-08-16
申请号:CN202410568417.1
申请日:2024-05-09
Applicant: 扬州大学
IPC: G06F18/2415 , G06N3/045 , G06F40/247
Abstract: 本发明公开了一种创新的跨领域自适应提示学习方法,包括1)在带有标记的源域数据上进行预训练,使用掩码语言模型来学习源域数据的语言特征,将该模型应用于目标域;2)利用微调后的模型在源域进行同义词检索,并在目标域结合FastText相似、概率预测和上下文信息策略对标签词进行扩展;通过取源域和目标域扩展的标签词之间的交集来构建最终的标签词;3)将目标域数据嵌入到提示模板中,使得提示学习模型能够预测扩展后的标签词集中每个单词的概率;将每个单词的预测概率映射到具体的类别标签上,并对预测的概率取平均值,作为最终分类预测目标域数据的依据。本发明实现了对目标域数据的准确分类预测,提高了模型在跨领域分类任务中的性能。
-
公开(公告)号:CN118132709A
公开(公告)日:2024-06-04
申请号:CN202410272235.X
申请日:2024-03-11
Applicant: 扬州大学
IPC: G06F16/332 , G06F16/35 , G06F40/30 , G06N3/0455 , G06N3/047 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于提示学习扩展标签词的领域自适应方法,1)在带有标记的源域数据上进行预训练,利用掩码语言模型学习源域数据的语言特征,随后将此模型迁移到目标域进行应用;2)通过引入外部的先验知识,利用知识图谱Probase获取每个类别y相关的多个扩展标签词,对源域和目标域的标签词空间分别进行扩展,并对得到的标签词集取交集;3)将目标域数据嵌入到提示模板中,提示学习模型预测扩展后的标签词集中每个单词的概率,将每个单词得到的预测概率映射到具体地类别标签上,并对预测的概率取平均值作为最后类别分类的依据。本发明通过利用源域的少量标注数据训练模型,来引导模型学习目标领域的有用特征,提高模型的适应性和泛化能力。
-
公开(公告)号:CN119538923A
公开(公告)日:2025-02-28
申请号:CN202411616617.6
申请日:2024-11-13
Applicant: 扬州大学
IPC: G06F40/289 , G06F40/268 , G06F40/247 , G06F18/22
Abstract: 本发明公开了一种基于反义词替换的文本对抗攻击方法,包括1)通过LAC、HanLP、LTP分词和词性标注工具对原始文本进行分词,并标注出其中的形容词;2)利用OpenHowNet对未标注的文本进一步筛选,生成与正向或负向形容词相关的词汇库,并对相似度大于阈值的词语进行标注;3)采用基于贪心算法和词语重要性排序的搜索算法,根据重要性分数对词语进行排序,确定文本中各个词的扰动顺序;4)基于筛选和人工标注结果,构建出一个完整的反义词库,并对标注出的形容词进行扰动,生成高相似度且可读的对抗文本。本发明基于反义词替换策略,提出通过特殊结构进行文本扰动,使生成的对抗文本既保持原文本的语义相似度,又能够有效干扰情感分类模型的判断。
-
-