基于软标签和数据增强的半监督文本分类方法及系统

    公开(公告)号:CN117435734A

    公开(公告)日:2024-01-23

    申请号:CN202311345904.3

    申请日:2023-10-17

    Abstract: 本发明公开了一种基于软标签和数据增强的半监督文本分类方法及系统,方法步骤如下:S1、对无标签的数据样本赋予初始标签,并初始化模型参数;S2、在BERT模型中随机选择第k层隐藏层进行有标签文本和无标签文本隐藏层输出的TMix操作;S3、基于UDA的无监督学习;S4、更新最终损失与模型;S5、更新无标签样本的标签;S6、返回执行步骤S2,直到达到最大训练轮数或预设的性能目标为止。本发明不仅对数据进行数据增强,又以多种方式挖掘数据的信息,丰富了模型的表达能力。

Patent Agency Ranking