一种标签语义增强的弱监督文本分类方法及系统

    公开(公告)号:CN116628199A

    公开(公告)日:2023-08-22

    申请号:CN202310520566.6

    申请日:2023-05-10

    Inventor: 王雷 林呈宇 薛聪

    Abstract: 本发明公开一种一种标签语义增强的弱监督文本分类方法及系统,属于机器学习领域,基于BERT弱监督文本分类框架,在类别词表构建阶段,基于Zipf定律加权类别表示实现类别词去噪,利用了语义相似度递减特性去除类别词表中的无关词;在样本标注阶段,基于MASK机制的词类别标注,然后基于自训练模块进行优化分类模型,以样本中的类别指示性单词为桥梁,建立“样本句‑指示词‑类别标签”跨层级语义关联。本发明在词表构建与样本弱标注生成阶段引入了更多降低标签噪声的算法,以达到标签语义增强的效果,在不同语种环境中显著提升文本分类效果。

Patent Agency Ranking