-
公开(公告)号:CN116127078A
公开(公告)日:2023-05-16
申请号:CN202310416484.7
申请日:2023-04-19
Applicant: 吉林大学
Abstract: 本发明公开了一种大规模极弱监督多标签政策分类方法及系统,包括以下步骤:基于未标记政策语料库对WoBERT进行连续的预训练,获得政策领域专用的语言模型;利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表;利用所述种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中;利用所述伪训练集对所述政策领域专用的语言模型进行训练,利用训练好的所述政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。本发明利用用户提供标签名称,而不是使用任何的标记文档,来对海量的政策数据进行分类。
-
公开(公告)号:CN116127078B
公开(公告)日:2023-07-21
申请号:CN202310416484.7
申请日:2023-04-19
Applicant: 吉林大学
Abstract: 本发明公开了一种大规模极弱监督多标签政策分类方法及系统,包括以下步骤:基于未标记政策语料库对WoBERT进行连续的预训练,获得政策领域专用的语言模型;利用所述政策领域专用的语言模型,从所述未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表;利用所述种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中;利用所述伪训练集对所述政策领域专用的语言模型进行训练,利用训练好的所述政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。本发明利用用户提供标签名称,而不是使用任何的标记文档,来对海量的政策数据进行分类。
-