一种基于DiTextCNN的中文政务信息的文本分类方法

    公开(公告)号:CN112328791A

    公开(公告)日:2021-02-05

    申请号:CN202011238122.6

    申请日:2020-11-09

    Applicant: 济南大学

    Inventor: 吴颖 王琳 孙润元

    Abstract: 本发明公开了一种基于DiTextCNN的中文政务信息的文本分类方法,该方法包括以下步骤:步骤1:使用中文分词工具将政务数据标题文本信息切分成若干个中文单词;步骤2:将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理,得到文本信息中的各个中文单词的词向量表示;步骤3:将中文单词的词向量输入DiTextCNN模型的卷积层进行卷积和池化计算,提取局部关键词特征。本发明构思巧妙,DiTextCNN模型的全连接层有两种特征输入,一种是政务数据标题经过卷积层提取的局部关键词特征,另一种是政务数据的来源部门编码得到的one‑hot向量,两种特征拼接得到更加丰富的特征,从而更好地对政务信息进行分类,提升分类精度。

Patent Agency Ranking