Patent search ap:("吉林大学") AND inv:"邹桐" Page 1

1.

发明公开
一种大规模极弱监督多标签政策分类方法及系统有权

公开(公告)号：CN116127078A

公开(公告)日：2023-05-16

申请号：CN202310416484.7

申请日：2023-04-19

Applicant: 吉林大学

Inventor： 徐昊 , 赵久峰 , 宋瑞 , 邹桐 , 石立达 , 赵强

IPC: G06F16/35 , G06N20/00

Abstract: 本发明公开了一种大规模极弱监督多标签政策分类方法及系统，包括以下步骤：基于未标记政策语料库对WoBERT进行连续的预训练，获得政策领域专用的语言模型；利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词，并为每个类别种子词构建种子词汇表；利用所述种子词汇表中的类别种子词信息，为未标记的政策生成伪标签，并将带有伪标签的政策添加到伪训练集中；利用所述伪训练集对所述政策领域专用的语言模型进行训练，利用训练好的所述政策领域专用的语言模型为政策进行编码操作，完成多标签政策分类。本发明利用用户提供标签名称，而不是使用任何的标记文档，来对海量的政策数据进行分类。

2.

发明授权
一种大规模极弱监督多标签政策分类方法及系统有权

公开(公告)号：CN116127078B

公开(公告)日：2023-07-21

申请号：CN202310416484.7

申请日：2023-04-19

Applicant: 吉林大学

Inventor： 徐昊 , 赵久峰 , 宋瑞 , 邹桐 , 石立达 , 赵强

IPC: G06F16/35 , G06N20/00

Abstract: 本发明公开了一种大规模极弱监督多标签政策分类方法及系统，包括以下步骤：基于未标记政策语料库对WoBERT进行连续的预训练，获得政策领域专用的语言模型；利用所述政策领域专用的语言模型，从所述未标记政策语料库中学习与标签名称语义相关的种子词，并为每个类别种子词构建种子词汇表；利用所述种子词汇表中的类别种子词信息，为未标记的政策生成伪标签，并将带有伪标签的政策添加到伪训练集中；利用所述伪训练集对所述政策领域专用的语言模型进行训练，利用训练好的所述政策领域专用的语言模型为政策进行编码操作，完成多标签政策分类。本发明利用用户提供标签名称，而不是使用任何的标记文档，来对海量的政策数据进行分类。

Patent Agency Ranking