-
公开(公告)号:CN104142960A
公开(公告)日:2014-11-12
申请号:CN201310172687.2
申请日:2013-05-10
Applicant: 上海普华诚信信息技术有限公司
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06F17/30705
Abstract: 本申请公开了一种互联网数据分析系统,包括:数据预处理模块,从互联网的网页信息中提取其主要内容,过滤而得到每个网页对应的文本;对获取的文本首先由分词器得到多个分词,再经过特征值降维仅保留突出该文本特征的分词。数据分析模块,根据分析要求,从分类算法、聚类算法、关联规则算法、特殊规则算法这四类算法中选择相应的一类对多类算法,每类算法中采用一种或多种算法,对所述数据预处理模块输出的每个网页所对应的经过降维后的分词进行处理,并存储分析结果。本申请避免了使用单一数据挖掘算法造成数据分析结果不准确的缺陷,或在使用一种算法的基础上再使用其它算法时需要进行系统的二次开发的时间成本,提高了数据分析的效率和准确率。