一种大规模极弱监督多标签政策分类方法及系统

    公开(公告)号:CN116127078A

    公开(公告)日:2023-05-16

    申请号:CN202310416484.7

    申请日:2023-04-19

    Applicant: 吉林大学

    Abstract: 本发明公开了一种大规模极弱监督多标签政策分类方法及系统,包括以下步骤:基于未标记政策语料库对WoBERT进行连续的预训练,获得政策领域专用的语言模型;利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表;利用所述种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中;利用所述伪训练集对所述政策领域专用的语言模型进行训练,利用训练好的所述政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。本发明利用用户提供标签名称,而不是使用任何的标记文档,来对海量的政策数据进行分类。

    一种大规模极弱监督多标签政策分类方法及系统

    公开(公告)号:CN116127078B

    公开(公告)日:2023-07-21

    申请号:CN202310416484.7

    申请日:2023-04-19

    Applicant: 吉林大学

    Abstract: 本发明公开了一种大规模极弱监督多标签政策分类方法及系统,包括以下步骤:基于未标记政策语料库对WoBERT进行连续的预训练,获得政策领域专用的语言模型;利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表;利用所述种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中;利用所述伪训练集对所述政策领域专用的语言模型进行训练,利用训练好的所述政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。本发明利用用户提供标签名称,而不是使用任何的标记文档,来对海量的政策数据进行分类。

Patent Agency Ranking