一种基于软提示学习的中文点击诱饵检测方法

    公开(公告)号:CN117421420A

    公开(公告)日:2024-01-19

    申请号:CN202311088275.0

    申请日:2023-08-28

    Applicant: 扬州大学

    Abstract: 本发明公开了自然语言处理研究领域的一种基于软提示学习的中文点击诱饵检测方法,通过图注意力网络捕获新闻标题的句法结构特征,选择合适的预训练语言模型,将该训练模型作为主干,构建提示学习中的标签词和软模板,通过三种优化策略扩展标签词集,得到优化后的标签词集;将每个标签词的概率映射到对应的类别标签中,并用该类别标签的最终预测分数作为分类结果;本发明可用较少的训练数据获得更准确的检测结果,减少了模型的训练成本,具有较高的实用性,适于在文本分类中使用。

    一种仅利用标题进行提示学习的点击诱饵检测方法

    公开(公告)号:CN117033639A

    公开(公告)日:2023-11-10

    申请号:CN202311065635.5

    申请日:2023-08-23

    Applicant: 扬州大学

    Abstract: 本发明公开了自然语言处理研究领域的一种仅利用标题进行提示学习的点击诱饵检测方法,包括:1.选择合适的预训练语言模型作为主干,构建提示学习中的标签词和模板;2.通过五种优化策略对提示学习中的标签词进行优化,利用扩展后的标签词,将分类任务转化为类别标签词的概率计算问题;3.将输入文本与预设提示模板构建成带有mask的提示文本,作为模型的输入,利用优化后的标签词进行点击诱饵检测;4.最终将每个标签词上预测的概率映射到对应的类别中,得到该标签最终的预测分数作为分类结果;本发明使用五种优化策略筛选提示学习标签词,可以利用较少的数据来获得更准确的检测结果,大大减少了模型的训练成本,具有较高的实用性。

    一种基于提示学习的中文短文本分类方法

    公开(公告)号:CN115169340A

    公开(公告)日:2022-10-11

    申请号:CN202210670231.8

    申请日:2022-06-14

    Applicant: 扬州大学

    Abstract: 本发明公开了一种基于提示学习的中文短文本分类方法,包括:1)使用非自然语言化的模板,利用少量的参数在连续空间中自动搜索模板,减少人工设计模板的成本以及误差;2)类别预测,将加入模板后的新的输入数据送到选定的预训练语言模型中,利用bert预训练语言模型对输入数据进行类别的预测;3)所有的标签词概率计算好以后,再将每个标签词上预测好的概率映射到回真实的标签中,最后得出分类的结果。本发明提升了中文短文本数据集分类的准确性,仅需要很少的训练样本就能实现良好的分类,大大减少了模型对大规模数据的依赖,降低了训练模型的成本,具有较高的鲁棒性和实用性。

    一种基于预训练语言模型的中文点击诱饵检测方法

    公开(公告)号:CN117171342A

    公开(公告)日:2023-12-05

    申请号:CN202310990840.6

    申请日:2023-08-08

    Applicant: 扬州大学

    Abstract: 本发明公开了自然语言处理研究领域的一种基于预训练语言模型的中文点击诱饵检测方法,主要包括在预训练语言模型中处理输入,对输入进行编码,将其转换成模型所需要的编码格式;之后构建BERT模型的嵌入层,将得到的序列编码转换成连续的N维空间向量;再构建编码器,并将步嵌入层输出的隐状态进行非线性的表示,提取其中的特征;最终通过softmax分类器得到最后的预测结果。本发明提高了表示学习和特征提取的效果,能够有效地提取中文点击诱饵的特征,提升了数据集分类的准确性,同时本方法使用微调的方法对模型进行预训练,可以利用较少的数据来获得更准确的检测结果,大大减少了模型的训练成本,具有较高的实用性,适于在文本分类中使用。

    一种基于软提示的医疗文本分类方法

    公开(公告)号:CN116595170A

    公开(公告)日:2023-08-15

    申请号:CN202310427121.3

    申请日:2023-04-20

    Abstract: 本发明公开了一种基于软提示的医疗文本分类方法,包括1)在原始的输入序列中插入可训练的词向量token,固定一些任务相关的锚点token,使用神经网络对其进行随机初始化;2)通过使用四种策略对原有的类别标签词空间进行扩展,将原始输入文本加入软模板后送入预训练语言模型中,利用预训练语言模型的知识库计算每个单词被填入的概率;3)将单词的概率映射到特定的类别标签,得出分类的结果;4)通过损失函数计算真实标签和预测结果之间的误差,不断更新连续模板以及模型参数。本发明不仅大大减少了对人工资源以及对大规模训练样本的依赖,也在一定程度上降低了模型训练的成本,具有较高的鲁棒性和实用性。

Patent Agency Ranking