-
公开(公告)号:CN117421420A
公开(公告)日:2024-01-19
申请号:CN202311088275.0
申请日:2023-08-28
Applicant: 扬州大学
IPC: G06F16/35 , G06F40/211 , G06F40/253 , G06F40/268 , G06F40/284 , G06F40/30 , G06N3/0442 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开了自然语言处理研究领域的一种基于软提示学习的中文点击诱饵检测方法,通过图注意力网络捕获新闻标题的句法结构特征,选择合适的预训练语言模型,将该训练模型作为主干,构建提示学习中的标签词和软模板,通过三种优化策略扩展标签词集,得到优化后的标签词集;将每个标签词的概率映射到对应的类别标签中,并用该类别标签的最终预测分数作为分类结果;本发明可用较少的训练数据获得更准确的检测结果,减少了模型的训练成本,具有较高的实用性,适于在文本分类中使用。
-
公开(公告)号:CN117033639A
公开(公告)日:2023-11-10
申请号:CN202311065635.5
申请日:2023-08-23
Applicant: 扬州大学
IPC: G06F16/35 , G06F40/30 , G06N3/045 , G06N3/0895
Abstract: 本发明公开了自然语言处理研究领域的一种仅利用标题进行提示学习的点击诱饵检测方法,包括:1.选择合适的预训练语言模型作为主干,构建提示学习中的标签词和模板;2.通过五种优化策略对提示学习中的标签词进行优化,利用扩展后的标签词,将分类任务转化为类别标签词的概率计算问题;3.将输入文本与预设提示模板构建成带有mask的提示文本,作为模型的输入,利用优化后的标签词进行点击诱饵检测;4.最终将每个标签词上预测的概率映射到对应的类别中,得到该标签最终的预测分数作为分类结果;本发明使用五种优化策略筛选提示学习标签词,可以利用较少的数据来获得更准确的检测结果,大大减少了模型的训练成本,具有较高的实用性。
-
公开(公告)号:CN118779452A
公开(公告)日:2024-10-15
申请号:CN202410884762.6
申请日:2024-07-03
Applicant: 扬州大学
IPC: G06F16/35 , G06V10/40 , G06V10/77 , G06F40/284 , G06F40/211 , G06F40/186 , G06F18/2415 , G06F18/25 , G06N3/042 , G06N3/045 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种基于多模态软提示学习的中文点击诱饵检测方法,包括(1)通过预训练的CLIP模型学习新闻中图片的特征;(2)通过图注意力网络捕获新闻标题的句法结构特征;(3)通过提示学习模型充分学习新闻标题与内容的关联性特征,并构造可学习的软提示,生成一个最优的提示模板;(4)将学习到的图片特征、句法结构特征与标题和内容的关联性特征拼接,将拼接后的特征用于检测;(5)将每个标签词的概率映射到对应的类别标签中,并用该类别标签的最终预测分数作为分类结果。本发明针对中文点击诱饵的特殊结构对模型进行了改进,同时结合了新闻中丰富的图片信息,能够充分提取中文点击诱饵的文本特征,有效地提升了检测的准确性。
-
公开(公告)号:CN118260413A
公开(公告)日:2024-06-28
申请号:CN202410342826.X
申请日:2024-03-25
Applicant: 扬州大学
IPC: G06F16/34 , G06F16/35 , G06F18/213 , G06F18/2415 , G06F18/22
Abstract: 本发明公开了一种利用新闻摘要生成的点击诱饵检测方法,包括:1)采用两阶段方法SummaReranker,基于三个评估指标实现最佳摘要的选择;2)构建提示学习中的标签词映射器,并通过四种优化策略对标签词进行优化;3)通过预设提示模板将标题和生成的摘要构建成带有mask的提示文本,作为提示学习模型的输入,利用优化后的标签词映射器进行点击诱饵检测;4)最终将每个标签词上预测的概率映射到对应的类别中,得到该标签最终的预测分数作为点击诱饵检测结果。本发明引入SummaReranker模型生成高质量新闻摘要,将原新闻标题和新生成的摘要作为提示调整模型的输入并使用四种优化策略优化提示学习标签词映射器,利用较少的数据来获得更准确的检测结果,减少了模型的训练成本。
-
公开(公告)号:CN117171342A
公开(公告)日:2023-12-05
申请号:CN202310990840.6
申请日:2023-08-08
Applicant: 扬州大学
IPC: G06F16/35 , G06F18/2415 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了自然语言处理研究领域的一种基于预训练语言模型的中文点击诱饵检测方法,主要包括在预训练语言模型中处理输入,对输入进行编码,将其转换成模型所需要的编码格式;之后构建BERT模型的嵌入层,将得到的序列编码转换成连续的N维空间向量;再构建编码器,并将步嵌入层输出的隐状态进行非线性的表示,提取其中的特征;最终通过softmax分类器得到最后的预测结果。本发明提高了表示学习和特征提取的效果,能够有效地提取中文点击诱饵的特征,提升了数据集分类的准确性,同时本方法使用微调的方法对模型进行预训练,可以利用较少的数据来获得更准确的检测结果,大大减少了模型的训练成本,具有较高的实用性,适于在文本分类中使用。
-
-
-
-