-
公开(公告)号:CN104142985A
公开(公告)日:2014-11-12
申请号:CN201410352349.1
申请日:2014-07-23
Applicant: 哈尔滨工业大学(威海)
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种半自动化的垂直爬虫生成工具及方法,该半自动化的垂直爬虫生成方法包括:用户可以选择新建或采用lex-yacc技术打开模板,对模板文件进行词法与语法分析,维护符号表,构造出语法分析树;通过寻找词法与语法分析的规律,以及对整个分析过程中数据的存储与处理,根据模板内容构造出树形模板结构;根据要抽取的内容,在树形模板结构中增加、修改或删除模板节点,节点信息中包含跳转关系、XPath表达式、数据存储方式内容;保存模板;该半自动化的垂直爬虫生成工具包括:爬虫自动生成工具模块、爬虫模块。本发明由自动生成模板内容代替人工手动配置模板,使配置模板变得更加方便快捷,可以大大节省相关人员的工作量。
-
公开(公告)号:CN104133870A
公开(公告)日:2014-11-05
申请号:CN201410348586.0
申请日:2014-07-22
Applicant: 哈尔滨工业大学(威海)
IPC: G06F17/30
CPC classification number: G06F17/30861
Abstract: 本发明实施例公开一种网页相似度计算方法及装置,应用于计算机网络领域,能够解决现有的比对两个网页的相似度时判断不准的问题。该方法包括:生成待测网页对应的基于视觉结构的第一分块特征向量,其中第一分块特征向量包括第一分块位置特征向量和第一分块内容特征向量;将第一分块特征向量和预设网页对应的基于视觉结构的第二分块特征向量进行比对,获得待测网页的相似度。本发明的实施例应用于比较网页相似度。
-
公开(公告)号:CN108960833B
公开(公告)日:2022-03-11
申请号:CN201810909350.8
申请日:2018-08-10
Applicant: 哈尔滨工业大学(威海)
Abstract: 本发明提供一种基于异构金融特征的异常交易识别方法,设备及存储介质,能够利用疑似异常或与某些确定异常账号相关的大量待检测金融交易流水信息数据,提取自定义交易熵特征和交易活跃度、金额统计特征,并构建异构金融特征向量表示,然后基于异构特征向量利用投票分类器进行待检测交易账号是否为传销异常交易关系的分类识别。本发明提出的可疑金融交易关系识别方法利用金融交易流水数据实现了对交易主体复杂行为规律特征的较丰富的抽象和表达,取得较好的异常金融交易关系检测识别效果。本方法提供的异常金融交易关系检测结果可以辅助相关工作人员进行传销等异常金融活动的侦查研判,在一定程度上可以提高工作效率以及提高研判准确率。
-
公开(公告)号:CN108960833A
公开(公告)日:2018-12-07
申请号:CN201810909350.8
申请日:2018-08-10
Applicant: 哈尔滨工业大学(威海)
CPC classification number: G06Q20/382 , G06Q40/04
Abstract: 本发明提供一种基于异构金融特征的异常交易识别方法,设备及存储介质,能够利用疑似异常或与某些确定异常账号相关的大量待检测金融交易流水信息数据,提取自定义交易熵特征和交易活跃度、金额统计特征,并构建异构金融特征向量表示,然后基于异构特征向量利用投票分类器进行待检测交易账号是否为传销异常交易关系的分类识别。本发明提出的可疑金融交易关系识别方法利用金融交易流水数据实现了对交易主体复杂行为规律特征的较丰富的抽象和表达,取得较好的异常金融交易关系检测识别效果。本方法提供的异常金融交易关系检测结果可以辅助相关工作人员进行传销等异常金融活动的侦查研判,在一定程度上可以提高工作效率以及提高研判准确率。
-
公开(公告)号:CN104142985B
公开(公告)日:2018-02-06
申请号:CN201410352349.1
申请日:2014-07-23
Applicant: 哈尔滨工业大学(威海)
IPC: G06F17/30
Abstract: 本发明公开了一种半自动化的垂直爬虫生成工具及方法,该半自动化的垂直爬虫生成方法包括:用户可以选择新建或采用lex‑yacc技术打开模板,对模板文件进行词法与语法分析,维护符号表,构造出语法分析树;通过寻找词法与语法分析的规律,以及对整个分析过程中数据的存储与处理,根据模板内容构造出树形模板结构;根据要抽取的内容,在树形模板结构中增加、修改或删除模板节点,节点信息中包含跳转关系、XPath表达式、数据存储方式内容;保存模板;该半自动化的垂直爬虫生成工具包括:爬虫自动生成工具模块、爬虫模块。本发明由自动生成模板内容代替人工手动配置模板,使配置模板变得更加方便快捷,可以大大节省相关人员的工作量。
-
公开(公告)号:CN104166725A
公开(公告)日:2014-11-26
申请号:CN201410422615.3
申请日:2014-08-26
Applicant: 哈尔滨工业大学(威海)
IPC: G06F17/30
CPC classification number: H04L63/1483
Abstract: 本发明实施例公开一种钓鱼网站检测方法,应用于计算机网络领域,以解决现有的检测钓鱼网站不能主动检测、误报、漏报、不及时的问题。该方法包括:建立待测网页对应的基于视觉内容的特征向量;将特征向量与预设的特征向量集合里的特征向量进行比对;根据比对结果判断待检测网页是否是钓鱼网站。本发明实施例适用于钓鱼网站检测。
-
公开(公告)号:CN110609857A
公开(公告)日:2019-12-24
申请号:CN201910811085.4
申请日:2019-08-30
Applicant: 哈尔滨工业大学(威海) , 威海天之卫网络空间安全科技有限公司
IPC: G06F16/2458 , G06Q40/04
Abstract: 本发明属于数据处理技术领域,涉及一种序列模式的挖掘方法。该方法包括:利用时间窗口对原始序列进行划分,形成时间序列集;扫描时间序列集,获取一项式集合;根据频繁一项式定义采用动态阈值对一项式进行筛选,将非频繁的项从序列集中删除,得到频繁一项式集;从频繁一项式集中的第一项开始以所述的第一项为前缀构造后缀,对后缀进行频繁多项式的挖掘,满足频繁多项式定义的项为频繁项,当后缀为空时,挖掘结束;遍历频繁一项式集合,迭代进行上一步操作,直到频繁一项式集合被遍历完成,得到频繁项集合。本发明的方法,在识别频繁一项式时,采用了动态变化的支持度阈值;不仅对不同序列之间频繁出现的模式进行挖掘,也挖掘一个序列内部频繁出现的模式。
-
公开(公告)号:CN104166725B
公开(公告)日:2018-01-12
申请号:CN201410422615.3
申请日:2014-08-26
Applicant: 哈尔滨工业大学(威海)
IPC: G06F17/30
Abstract: 本发明实施例公开一种钓鱼网站检测方法,应用于计算机网络领域,以解决现有的检测钓鱼网站不能主动检测、误报、漏报、不及时的问题。该方法包括:建立待测网页对应的基于视觉内容的特征向量;将特征向量与预设的特征向量集合里的特征向量进行比对;根据比对结果判断待测网页是否是钓鱼网站。本发明实施例适用于钓鱼网站检测。
-
公开(公告)号:CN104113539A
公开(公告)日:2014-10-22
申请号:CN201410332426.7
申请日:2014-07-11
Applicant: 哈尔滨工业大学(威海)
IPC: H04L29/06
Abstract: 本发明实施例公开一种钓鱼网站引擎探测方法及装置,应用于通信领域,能够解决现有的探测钓鱼网站引擎不及时只能对钓鱼网站被动防御的问题。该方法包括:对保护列表信息进行域名变换,获得变换后的域名;将变换后的域名进行DNS解析,以获得可疑域名;将可疑域名进行URL检测,以获得可疑URL信息;根据可疑URL信息探测钓鱼网站引擎。本发明的实施例应用于探测钓鱼网站。
-
公开(公告)号:CN110609857B
公开(公告)日:2021-03-05
申请号:CN201910811085.4
申请日:2019-08-30
Applicant: 哈尔滨工业大学(威海) , 威海天之卫网络空间安全科技有限公司
IPC: G06F16/2458 , G06Q40/04
Abstract: 本发明属于数据处理技术领域,涉及一种序列模式的挖掘方法。该方法包括:利用时间窗口对原始序列进行划分,形成时间序列集;扫描时间序列集,获取一项式集合;根据频繁一项式定义采用动态阈值对一项式进行筛选,将非频繁的项从序列集中删除,得到频繁一项式集;从频繁一项式集中的第一项开始以所述的第一项为前缀构造后缀,对后缀进行频繁多项式的挖掘,满足频繁多项式定义的项为频繁项,当后缀为空时,挖掘结束;遍历频繁一项式集合,迭代进行上一步操作,直到频繁一项式集合被遍历完成,得到频繁项集合。本发明的方法,在识别频繁一项式时,采用了动态变化的支持度阈值;不仅对不同序列之间频繁出现的模式进行挖掘,也挖掘一个序列内部频繁出现的模式。
-
-
-
-
-
-
-
-
-