-
公开(公告)号:CN105574047A
公开(公告)日:2016-05-11
申请号:CN201410555450.7
申请日:2014-10-17
Applicant: 任子行网络技术股份有限公司 , 华南理工大学
IPC: G06F17/30
CPC classification number: G06F16/951 , G06F16/285 , H04L67/02 , H04L67/2804 , H04L67/2823
Abstract: 本发明公开了一种基于网站主页特征分析的中文网站分类方法和系统,具体包括以下步骤:S1.爬取网站内容;S2.标记网站类别;S3.提取网站信息;S4.计算权重并以特征向量的形式表示;S5.通过特征向量的对比对网站进行分类。使用所述的基于网站主页特征分析的中文网站分类方法和系统可以实现只提取网站的标题和元信息来最大程度减少噪音的干扰;通过预处理和特征向量表示将网站的特征准确地用向量表示出来,从而提高分类准确率;因为只要处理网站的标题和元信息,要处理的数据量小,处理速度快。