-
公开(公告)号:CN107229668A
公开(公告)日:2017-10-03
申请号:CN201710131780.7
申请日:2017-03-07
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于关键词匹配的正文抽取方法,通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库,再构建相应的DOM树;层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重,并通过对节点子女最大关键词权重的判断,有效甄别并定位包含正文文本的正文节点,完成正文抽取;针对关键词匹配方法不能有效抽取的短文本问题,提出相似度匹配方法,其将段落文本和页面标题转换成8位二进制数据,通过海明距离判断相似性实现短文本的正文抽取。本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。
-
公开(公告)号:CN107229668B
公开(公告)日:2020-04-21
申请号:CN201710131780.7
申请日:2017-03-07
Applicant: 桂林电子科技大学
IPC: G06F16/957 , G06F40/284
Abstract: 本发明公开了一种基于关键词匹配的正文抽取方法,通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库,再构建相应的DOM树;层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重,并通过对节点子女最大关键词权重的判断,有效甄别并定位包含正文文本的正文节点,完成正文抽取;针对关键词匹配方法不能有效抽取的短文本问题,提出相似度匹配方法,其将段落文本和页面标题转换成8位二进制数据,通过海明距离判断相似性实现短文本的正文抽取。本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。
-
公开(公告)号:CN105391742B
公开(公告)日:2019-05-21
申请号:CN201510953639.6
申请日:2015-12-18
Applicant: 桂林电子科技大学
IPC: H04L29/06 , H04L29/08 , G06F16/182
Abstract: 本发明公开了一种基于Hadoop的分布式入侵检测系统,包括数据采集模块、数据存储模块、控制中心和数据分析模块,其中控制中心包括系统管理模块、系统监控模块、任务调度模块和报警响应模块。本发明利用Hadoop的分布式计算框架,使系统具有良好的互操作性,提高了系统的可靠性;系统采用分布式方式进行数据并行采集,提高数据采集能力,降低丢包率;系统采用的算法中根据结点的能力和负载分配数据,并采用动态负载均衡策略进行调整,有效发挥结点的数据处理能力,维持系统的负载均衡;利用本算法避免了将包含同一攻击的数据分发到两个或多个检测结点分别处理而破坏数据的完整性,有效提高检测率。
-
公开(公告)号:CN105391742A
公开(公告)日:2016-03-09
申请号:CN201510953639.6
申请日:2015-12-18
Applicant: 桂林电子科技大学
CPC classification number: H04L63/1466 , G06F16/182 , H04L63/1416 , H04L67/1097
Abstract: 本发明公开了一种基于Hadoop的分布式入侵检测系统,包括数据采集模块、数据存储模块、控制中心和数据分析模块,其中控制中心包括系统管理模块、系统监控模块、任务调度模块和报警响应模块。本发明利用Hadoop的分布式计算框架,使系统具有良好的互操作性,提高了系统的可靠性;系统采用分布式方式进行数据并行采集,提高数据采集能力,降低丢包率;系统采用的算法中根据结点的能力和负载分配数据,并采用动态负载均衡策略进行调整,有效发挥结点的数据处理能力,维持系统的负载均衡;利用本算法避免了将包含同一攻击的数据分发到两个或多个检测结点分别处理而破坏数据的完整性,有效提高检测率。
-
-
-