-
公开(公告)号:CN100412888C
公开(公告)日:2008-08-20
申请号:CN200610073172.7
申请日:2006-04-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开一种基于内容的敏感网页识别方法,包括步骤:在给定网页的统一资源定位器的条件下,获取该网页的源码,数据分流和预处理,获取文本信息和有效图像信息;利用连续敏感文本分类器对文本信息处理,如果分类器输出结果为敏感,则处理完毕。否则利用离散敏感文本分类器对文本信息处理,如果分类器输出结果大于事先给定阈值,识别结果为敏感,则处理完毕。否则利用图像分类器对图像识别,识别结果与离散分类器输出结果融合。本发明采用连续敏感文本识别器、离散文本识别器和敏感图像识别器三者结合的方案解决现有技术的问题,本发明利用web结构信息及构造了一个图像集合识别问题来进行信息融合,提高对敏感网页的识别率。
-
公开(公告)号:CN100565523C
公开(公告)日:2009-12-02
申请号:CN200710065181.6
申请日:2007-04-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开基于多分类器融合的敏感网页过滤系统及方法,处理对象是一幅网页,其处理结果是该网页是否包含敏感内容,此处的敏感可以定义为色情,反动,暴力等危害社会的不健康互联网内容。系统包括数据流的获取与预处理单元、图像与文本流过滤单元、图像过滤器与文本过滤器的信息融合单元,系统基于多个分类器的协作,在给定网页的统一资源定位器的条件下,获取该网页的源代码,在预处理阶段进行文本和图像的分流,获取文本信息和有效图像信息;利用决策树算法将输入网页分为三种样式;利用连续文本分类器、离散敏感文本分类器和图像分类器对网页进行识别,根据各分类器识别的输出结果进行融合计算,给出判别因子,将最终结果返回给浏览器。
-
公开(公告)号:CN101281521A
公开(公告)日:2008-10-08
申请号:CN200710065181.6
申请日:2007-04-05
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开基于多分类器融合的敏感网页过滤系统及方法,处理对象是一幅网页,其处理结果是该网页是否包含敏感内容,此处的敏感可以定义为色情,反动,暴力等危害社会的不健康互联网内容。系统包括数据流的获取与预处理单元、图像与文本流过滤单元、图像过滤器与文本过滤器的信息融合单元,系统基于多个分类器的协作,在给定网页的统一资源定位器的条件下,获取该网页的源代码,在预处理阶段进行文本和图像的分流,获取文本信息和有效图像信息;利用决策树算法将输入网页分为三种样式;利用连续文本分类器、离散敏感文本分类器和图像分类器对网页进行识别,根据各分类器识别的输出结果进行融合计算,给出判别因子,将最终结果返回给浏览器。
-
公开(公告)号:CN101055621A
公开(公告)日:2007-10-17
申请号:CN200610073172.7
申请日:2006-04-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开一种基于内容的敏感网页识别方法,包括步骤:在给定网页的统一资源定位器的条件下,获取该网页的源码,数据分流和预处理,获取文本信息和有效图像信息;利用连续敏感文本分类器对文本信息处理,如果分类器输出结果为敏感,则处理完毕。否则利用离散敏感文本分类器对文本信息处理,如果分类器输出结果大于事先给定阈值,识别结果为敏感,则处理完毕。否则利用图像分类器对图像识别,识别结果与离散分类器输出结果融合。本发明采用连续敏感文本识别器、离散文本识别器和敏感图像识别器三者结合的方案解决现有技术的问题,本发明利用web结构信息及构造了一个图像集合识别问题来进行信息融合,提高对敏感网页的识别率。
-
-
-