一种基于标签关系的多标签文本分类方法及系统

    公开(公告)号:CN119938924A

    公开(公告)日:2025-05-06

    申请号:CN202510020631.8

    申请日:2025-01-07

    Abstract: 本发明公开了一种基于标签关系的多标签文本分类方法,涉及自然语言处理技术领域,通过预训练模型捕获文本数据集中的文本特征,根据文本特征获得初始分类排名,得到第一标签序列S1;根据S1中的头部标签,得到第二标签序列S2;将S2与来自给定文本数据集的标签频率共现矩阵M相结合获得第三标签序列S3,由S2与S3取并集获取第四标签序列S4,通过标签频率分布信息对S4中的标签重新排序,得到频率整合的标签序列S,基于S产生一个标签特征序列#imgabs0#通过注意机制将#imgabs1#与文本建立语义关系获得最终特征fcat;采用最终特征fcat进行最终分类。本发明还公开了一种基于标签关系的多标签文本分类系统,本发明可有效缓解长尾问题,提高最终分类的准确性和相关性。

Patent Agency Ranking