-
公开(公告)号:CN106156163A
公开(公告)日:2016-11-23
申请号:CN201510179303.9
申请日:2015-04-15
Applicant: 株式会社日立制作所
IPC: G06F17/30
Abstract: 本发明公开了一种文本分类方法,包括:建立训练文本集,生成第一和第二文本分类器;对待分类文本进行预处理,采用替换字符串替换其中的文本噪声;统计替换字符串的概率,当概率大于等于第一文本分类器的过滤阈值时,待分类文本被划分为普通文本;当概率小于过滤阈值时,对经过预处理的待分类文本进行分词;建立待分类文本的第一文本表示、第二文本表示和第三文本表示;基于特征表示的方法,计算第一文本表示的第一文本特征表示、第二文本表示的第二文本特征表示和第三文本表示的第三文本特征表示;以及基于第一文本特征表示、第二文本特征表示和第三文本特征表示,利用第二分类器对待分类文本进行分类。还公开了一种文本分类装置。
-
公开(公告)号:CN106156163B
公开(公告)日:2021-06-22
申请号:CN201510179303.9
申请日:2015-04-15
Applicant: 株式会社日立制作所
IPC: G06F16/35
Abstract: 本发明公开了一种文本分类方法,包括:建立训练文本集,生成第一和第二文本分类器;对待分类文本进行预处理,采用替换字符串替换其中的文本噪声;统计替换字符串的概率,当概率大于等于第一文本分类器的过滤阈值时,待分类文本被划分为普通文本;当概率小于过滤阈值时,对经过预处理的待分类文本进行分词;建立待分类文本的第一文本表示、第二文本表示和第三文本表示;基于特征表示的方法,计算第一文本表示的第一文本特征表示、第二文本表示的第二文本特征表示和第三文本表示的第三文本特征表示;以及基于第一文本特征表示、第二文本特征表示和第三文本特征表示,利用第二分类器对待分类文本进行分类。还公开了一种文本分类装置。
-