-
公开(公告)号:CN107911360A
公开(公告)日:2018-04-13
申请号:CN201711115196.9
申请日:2017-11-13
Applicant: 哈尔滨工业大学(威海)
CPC classification number: H04L63/1466 , G06F16/951 , G06F16/955 , H04L63/1416 , H04L63/1483
Abstract: 本发明涉及一种被黑网站检测方法及系统,包括:(1)获取原始数据;(2)数据清洗;(3)分别抽取出文本检测、图片检测、启发式检测所需的数据;(4)查询文本检测的索引库,返回相似度值S1;(5)采用匈牙利算法计算两个图片之间的emd距离并转化成相似性S2;(6)相似度值S1和相似性S2线性融合;(7)如果融合结果S≥T,则判定该网站没有被黑,标记为0;否则,判定该网站被黑,标记为1;(8)采用决策树模型对待检测网页进行判断,输出结果为0(未被黑)或1(被黑),如果(7)、(8)至少有一个为1,则表示网页被黑,否则网页正常。本发明采取两种方式检测,根据阈值判断,精确度更高,可及时发现互联网中一些恶意网页或被黑网页。