-
公开(公告)号:CN110674289A
公开(公告)日:2020-01-10
申请号:CN201910597279.9
申请日:2019-07-04
Applicant: 南瑞集团有限公司 , 国电南瑞科技股份有限公司 , 国电南瑞科技股份公司信息系统集成分公司
IPC: G06F16/35
Abstract: 本发明公开了一种基于分词权重判断文章所属分类的方法、装置和存储介质,属于自然语言处理技术领域。所述方法包括:对文本语料进行分词和去停用词处理,得到训练集语料库;将训练集中的特征项转变成词频矩阵,统计每个特征项的TF-IDF值,作为特征权重;将训练集的权重矩阵和初始标签传给分类器,训练得到分类模型;获取待分类文章的权重矩阵,使用训练好的分类模型对文章进行分类。本发明通过分词,构建基于权重的词向量空间,再使用贝叶斯分类器可以对文章类型直接进行判断,可以在短时间内判断出大量的文本类型,且具有准确、稳定的优点。