基于域名解析特征的网站作弊检测方法

    公开(公告)号:CN103684896A

    公开(公告)日:2014-03-26

    申请号:CN201210333167.0

    申请日:2012-09-07

    Abstract: 本发明涉及基于域名解析特征的网站作弊检测方法,其步骤为:对取样出的样本网站进行分类得到训练集L和测试集T,提取出所述训练集L和测试集T中网站的特征向量;特征向量包括解析量和独立IP访问页数和基于所述解析量和独立IP访问页数的变换率向量、出入链接平均数向量和出入链接方差向量确定的多维向量;在所述训练集L中建立每个网站的多维向量形式,根据分类算法训练网站作弊分类器,建立判别模型;用户输入待检测网站后利用所述判别模型对待检测网站进行判定,输出作弊或非作弊结果给用户。本发明充分利用作弊网站以提升流量为目标的特点,以解析数据为核心的特征,并在该特征空间上训练分类器,利用该分类器对未知样本进行作弊与否的判定。

    基于网页图标匹配的品牌仿冒网站检测方法

    公开(公告)号:CN103281320A

    公开(公告)日:2013-09-04

    申请号:CN201310195688.9

    申请日:2013-05-23

    Inventor: 耿光刚 王伟

    CPC classification number: G06Q30/0248 G06Q30/0277 H04L63/1416 H04L63/1483

    Abstract: 本发明涉及一种基于网页图标匹配的品牌仿冒网站检测方法,其步骤为:1)收集品牌仿冒次数大于设定阀值的网站品牌,获取其网页图标并建立品牌图标图像集BrandSet;2)根据多个待检测网站的网页URL提取得到该网站的网页图标并建立待检测图像集DetectSet;3)对BrandSet和DetectSet中的图像进行匹配,判断两个集合中是否存在匹配图像;4)根据匹配图像找到与其匹配网页URL,并判断匹配网页URL是否有品牌图标使用权;5)将步骤4)中没有品牌网页图标使用权的网页URL判定为品牌仿冒网站,完成检测。本发明方法充分利用了一种之前研究中未涉及的元素—网页图标。易于实现,且识别率高,易于推广。

    网络钓鱼检测方法及装置

    公开(公告)号:CN102316099A

    公开(公告)日:2012-01-11

    申请号:CN201110212909.X

    申请日:2011-07-28

    CPC classification number: H04L63/1483

    Abstract: 本发明提供一种网络钓鱼检测方法及装置。该方法包括:获取与钓鱼目标关键词匹配的疑似钓鱼主机名;获取与所述钓鱼目标对应的钓鱼统一资源定位符URL路径;将所述疑似钓鱼主机名和所述钓鱼URL路径拼接成疑似钓鱼URL;对所述疑似钓鱼URL进行检测,确定所述疑似钓鱼URL是否为钓鱼URL。本发明实施例通过主动获取与钓鱼目标关键词匹配的疑似钓鱼主机名和与所述钓鱼目标对应的钓鱼URL路径,拼接成疑似钓鱼URL,并对疑似钓鱼URL进行检测确定是否为钓鱼URL的技术手段,克服了现有技术中依靠用户触发的被动检测无法应对越来越猖獗普遍的钓鱼攻击的问题,进而实现了更早的发现钓鱼网站,提高了钓鱼网站检出效率。

    基于域名解析特征的网站作弊检测方法

    公开(公告)号:CN103684896B

    公开(公告)日:2017-02-01

    申请号:CN201210333167.0

    申请日:2012-09-07

    Abstract: 本发明涉及基于域名解析特征的网站作弊检测方法,其步骤为:对取样出的样本网站进行分类得到训练集L和测试集T,提取出所述训练集L和测试集T中网站的特征向量;特征向量包括解析量和独立IP访问页数和基于所述解析量和独立IP访问页数的变换率向量、出入链接平均数向量和出入链接方差向量确定的多维向量;在所述训练集L中建立每个网站的多维向量形式,根据分类算法训练网站作弊分类器,建立判别模型;用户输入待检测网站后利用所述判别模型对待检测网站进行判定,输出作弊或非作弊结果给用户。本发明充分利用作弊网站以提升流量为目标的特点,以解析数据为核心的特征,并在该特征空间上训练分类器,利用该分类器对未知样本进行作弊与否的判定。

    一种基于统计机器学习的互联网暗链检测方法

    公开(公告)号:CN104239485A

    公开(公告)日:2014-12-24

    申请号:CN201410452221.2

    申请日:2014-09-05

    CPC classification number: G06F21/60 G06F16/951 G06K9/6267

    Abstract: 本发明涉及一种基于统计机器学习的暗链检测方法,其步骤包括:1)收集真实的网页源码数据作为分类模型的训练集,将其分为含有暗链和不含暗链两类;2)从收集的所有两类网页的Html源码文件中分别提取锚文本,即链接字段的文字内容,再将锚文本分割为单个词语;3)将分词后的两类文本进行向量化;4)对每个文本对应的向量进行降低维度处理;5)利用分类器对步骤4)得到的两类数据进行训练,得到分类模型;6)将得到的分类模型用于待检测的未知网页,得到暗链检测结果。本发明利用网页的源码有效自动地检测网页中是否含有暗链的存在,能够为搜索引擎打击网络作弊提供理论和实践支持。

    网站内容质量评估方法和装置

    公开(公告)号:CN102243661B

    公开(公告)日:2014-04-23

    申请号:CN201110205726.5

    申请日:2011-07-21

    CPC classification number: G06Q30/00

    Abstract: 本发明提供一种网站内容质量评估方法和装置,该网站内容质量评估方法包括:获取样本网站的第一特征集,根据第一特征集,生成第一特征空间,通过第一特征空间训练分类器,生成预测模型,其中第一特征集中包括至少两类特征;获取待评估网站的第二特征集,根据第二特征集,生成第二特征空间,其中第二特征集中特征的数量和类别与第一特征集相同;根据预测模型对第二特征空间进行预测,生成待评估网站的内容质量评估值。该网站内容质量评估装置包括预测模型模块、第二特征空间模块和评估模块。本发明提供的网站内容质量评估方法和装置,从多角度对网站内容质量进行评估,提高了网站内容质量评估的效果。

    不良网站检测方法及设备

    公开(公告)号:CN102663093A

    公开(公告)日:2012-09-12

    申请号:CN201210104059.6

    申请日:2012-04-10

    Abstract: 本发明提供一种不良网页检测方法及设备。该方法包括:对待检测网页进行分词处理,获取所述待检测网页的分词数据;根据所述分词数据和预先获取的至少一个不良网页特征词,获取所述待检测网页的不良网页特征词;根据与所述待检测网页的不良网页特征词对应的不良网页概率值,获取所述待检测网页的不良网页判定概率;若所述不良网页判定概率大于第一预定阈值,则判定所述待检测网页为不良网页。本发明提供的不良网页检测方法及设备,能够实现快速、有效的不良网页检测。

    网页跳转作弊检测方法及装置

    公开(公告)号:CN102521331A

    公开(公告)日:2012-06-27

    申请号:CN201110402588.X

    申请日:2011-12-06

    Abstract: 本发明提供一种网页跳转作弊检测方法及装置,该网页跳转作弊检测方法包括分别获取待检测网页的网址对应的第一网页和第二网页,其中,所述第一网页为动态脚本禁止执行状态下获取的,所述第二网页为动态脚本启动执行状态下获取的;分别抓取所述第一网页对应的第一图像和所述第二网页对应的第二图像;将所述第一图像和所述第二图像进行对比,生成用以指示所述待检测网页是否存在恶意跳转的检测结果。本发明提供的网页跳转作弊检测方法及装置,通过图像对比进行网页跳转作弊的检测,实现简单且稳定性高。避免了通过分析网页源码进行检测而忽略动态脚本的缺陷,易于进行分布式处理,提高了网页跳转作弊的检测效果。

    一种基于统计机器学习的互联网暗链检测方法

    公开(公告)号:CN104239485B

    公开(公告)日:2018-05-01

    申请号:CN201410452221.2

    申请日:2014-09-05

    CPC classification number: G06F21/60

    Abstract: 本发明涉及一种基于统计机器学习的暗链检测方法,其步骤包括:1)收集真实的网页源码数据作为分类模型的训练集,将其分为含有暗链和不含暗链两类;2)从收集的所有两类网页的Html源码文件中分别提取锚文本,即链接字段的文字内容,再将锚文本分割为单个词语;3)将分词后的两类文本进行向量化;4)对每个文本对应的向量进行降低维度处理;5)利用分类器对步骤4)得到的两类数据进行训练,得到分类模型;6)将得到的分类模型用于待检测的未知网页,得到暗链检测结果。本发明利用网页的源码有效自动地检测网页中是否含有暗链的存在,能够为搜索引擎打击网络作弊提供理论和实践支持。

Patent Agency Ranking