一种基于概率潜在语义分析模型的万维网服务发现方法

    公开(公告)号:CN102129479A

    公开(公告)日:2011-07-20

    申请号:CN201110112383.8

    申请日:2011-04-29

    Abstract: 一种基于概率潜在语义分析模型的Web服务发现方法利用了概率潜在语义分析模型对解析后的Web服务描述性文档进行建模分析,挖掘隐藏在服务描述背后的语义概念,进行语义聚类,在较先进的概念层次将请求服务和服务集中的服务进行相似性匹配,并且结合了语法层次上的谱聚类,在语义聚类之前以一种基于谱聚类的算法对服务数据集进行无关数据的滤除,从而压缩了计算的复杂性。经过试验证明,此方法在服务发现的查准率和查全率方面都有着很好的表现。

    利用空间混合索引机制检测钓鱼网页的方法

    公开(公告)号:CN102662959B

    公开(公告)日:2014-07-16

    申请号:CN201210057731.0

    申请日:2012-03-07

    Abstract: 一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。

    基于半监督的垃圾图片过滤方法

    公开(公告)号:CN102663435B

    公开(公告)日:2013-12-11

    申请号:CN201210129234.7

    申请日:2012-04-28

    Abstract: 基于半监督的垃圾图片过滤技术研究对图像型垃圾邮件进行检测判定工作时,先提取文本和图片特征进行特征处理,利用已经得到的分类模型进行检测分类,并不断加入新的标签样本,训练分类器,提高分类精度同时误判率将大大降低。经大量实验数据检验证明,该方法构建了一种高效率垃圾邮件网页过滤系统,在保证高准确率的同时,处理效率有很大的提高,并显著减小网页检测时间。

    基于匈牙利匹配算法的钓鱼网页检测方法

    公开(公告)号:CN101826105B

    公开(公告)日:2013-06-05

    申请号:CN201010139929.4

    申请日:2010-04-02

    Abstract: 基于匈牙利匹配的钓鱼网页检测方法首先提取渲染后网页的文本特征签名、图像特征签名以及网页整体特征签名,比较全面地刻画了网页访问后的特征;然后通过匈牙利算法计算二分图的最佳匹配来寻找不同网页签名之间匹配的特征对,在此基础上能够更加客观地度量网页之间的相似性,从而提高钓鱼网页的检测效果。在方法中还利用曲线下面积值来确定文本特征、图像特征以及全局图像特征的内部权重;利用对数回归分析法确定了网页相似性计算中的文本相似性、图像相似性和全局图像相似性之间的相对权重。本发明提出的基于匈牙利匹配的钓鱼网页检测方法,在精度、召回率上都有了很大提高。

    一种基于关系的垃圾评论检测方法

    公开(公告)号:CN103020482A

    公开(公告)日:2013-04-03

    申请号:CN201310002583.7

    申请日:2013-01-05

    Abstract: 利用基于关系的垃圾评论检测方法,是一种基于网购的评论者,评论以及店家的关系特征的检测方法。提出了评论者的可信度,评论的诚实度以及店家的可靠度的概念,并引出了三者相互关系:评论者所写的评论的诚实度越高,他的可信度就越高;店家拥有的来自可信的评论者的诚实评论越多,他的可靠度就越高;评论被其他诚实评论支持的个数越多,他的诚实度就越高。第一次提出这样的迭代关系,并将其应用到实际的检测工作中。利用关系特征建模,并将这个模型和三者的其他特征所得到的模型相结合,得到改进后的用于垃圾评论检测的模型。

    一种基于网页关联性的钓鱼检测方法

    公开(公告)号:CN102096781B

    公开(公告)日:2012-11-28

    申请号:CN201110020890.9

    申请日:2011-01-18

    Abstract: 一种基于网页关联性的钓鱼检测方法整合了页面之间关联性以及页面的整体性布局特征,主要解决了基于网页关联性和视觉相似性角度进行快速钓鱼网页检测的问题。该方法主要从4个方面研究网页之间的关联性,主要指嵌在网页里的链接关联性、搜索关联性和文本关联性以及网页的整体关联性,把网页看作一个不可分割的整体,对其进行压缩处理,获取主要信息。经大量实验数据检验证明,该方法构建了一种高速高精度钓鱼网页检测方法,在保证高准确率的同时,显著减小网页检测时间。

    利用空间混合索引机制检测钓鱼网页的方法

    公开(公告)号:CN102662959A

    公开(公告)日:2012-09-12

    申请号:CN201210057731.0

    申请日:2012-03-07

    Abstract: 一种基于空间混合索引机制的综合利用网页的空间布局、文字特征以及图像特征的钓鱼网页检测方法,涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题。方法结合浏览器渲染引擎,对指定的可疑网页进行视觉布局特征抽取,再利用空间数据库索引同步结合网页的文本特征以及图像特征,形成空间混合索引机制的综合文件图像倒排索引的空间树,即DIIR树。DIIR树是对空间索引机制的空间区域R树进行改进,在空间区域R树的每一个结点上添加网络对象中文字的倒排索引文件以及图像特征的倒排索引文件。在查询一个新的网络对象时并不仅仅考虑其空间布局特征,而是同步结合网络对象的文字特征以及图像特征。

    一种基于连续时间马尔科夫链的网站导航性实现方法

    公开(公告)号:CN101826104B

    公开(公告)日:2012-07-04

    申请号:CN201010139891.0

    申请日:2010-04-02

    Abstract: 基于连续时间马尔科夫链的网站导航性实现方法采用连续时间马尔科夫链为用户访问行为建模,以期对网站的导航性和网页的重要性做更接近实际情况的评价。网站导航性在网站设计、改进和质量评价方面受到越来越多的重视。基于连续时间马尔科夫链的网站导航度量不但考虑了网站的链接结构,还考虑了了网页内容好坏对导航性的影响。通过对用户日志的分析获取用户在网页上访问时序及停留时间,在此基础上建立连续时间马尔科夫的嵌入链模型和用户停留时间的指数分布模型,综合两种模型得到连续时间马尔科大链模型,最终得到基于连续时间马尔科夫链模型的网站导航性度量。本发明具有比已有的度量方法更好的网站导航性评价效果。

    一种基于空间布局的钓鱼网页检测及其实现方法

    公开(公告)号:CN101894134B

    公开(公告)日:2012-04-11

    申请号:CN201010204724.X

    申请日:2010-06-21

    Abstract: 一种基于空间布局的钓鱼网页检测方法涉及了一种基于页面视觉布局特征结合空间数据库的设计方案,主要解决了基于网页视觉相似性角度进行快速钓鱼网页检测的问题,系统由5个模块组成,其中最上层是用户界面模块,主要负责获取用户输入并将结果反馈回用户,中间是控制模块,负责调度所有功能模块完成钓鱼网站检测。最核心的是3个功能模块,即:布局特征抽取模块、空间数据库模块、机器学习匹配模块。经大量实验数据检验证明,该方法构建了一种高速高精度钓鱼网页检测系统,在保证高准确率的同时,处理数据容量上有了重大提升,并显著减小网页检测时间。

Patent Agency Ranking