-
公开(公告)号:CN101593200A
公开(公告)日:2009-12-02
申请号:CN200910031625.3
申请日:2009-06-19
Applicant: 淮海工学院
IPC: G06F17/30
Abstract: 一种基于关键词频度分析的中文网页分类方法,是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,通过首先获取到网页的HTML源码,对网页进行预处理。通过测试和分析,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文文本,接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词,通过该词在文本中的权重排序,通过网页模糊分类算法,得到该网页关键词所属类别的类别排名,取其中前几位,进行隶属率的计算,得出该网页的所属类别的模糊匹配结果。有利于高效的组织网络上海量信息,用于互联网用户兴趣度分析;搜索引擎目录更新;Web内容挖掘;在线文档管理;数字图书馆建设。
-
公开(公告)号:CN106649823A
公开(公告)日:2017-05-10
申请号:CN201611247621.5
申请日:2016-12-29
Applicant: 淮海工学院
IPC: G06F17/30
CPC classification number: G06F16/9566 , G06F16/951
Abstract: 本发明公开了一种基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法,属于网页搜索引擎技术领域,本发明是针对网页中动态变化的主题词垂直搜索引擎中的网页识别方法研究,主要研究如何判断一个动态变化的网页是否与主题词相关,通过计算页面的主题词关联度,筛出与综合主题词关联度较大的URL进入待爬行队列,利用垂直搜索和聚焦爬虫技术获得网页的分类信息,设计了网页分类识别模型和算法,通过对动态变化的网页识别,获得不同分类的URL,为用户对提供网页的精准搜索,也能给出未知的URL所属网页分类。本发明对于动态网页的分类识别具有非常广泛的意义和较高的应用价值。
-
公开(公告)号:CN106789297A
公开(公告)日:2017-05-31
申请号:CN201611249158.8
申请日:2016-12-29
Applicant: 淮海工学院
CPC classification number: H04L41/147 , H04L43/0876 , H04L63/1425
Abstract: 本发明公开一种基于神经网络的网络流量预测系统及网络流量预测方法,属于计算机技术领域。所述网络流量预测系统包括数据采集模块、数据预处理模块以及网络流量预测模块,数据采集子模块采用基于端口镜像的网络方式实现对网络中各种流量信息的实时采集,数据预处理模块把采集到的数据分别保存并做归一化处理,使得样本数据值在0~1之间,为预测模块提供纯净的数据。流量预测模块根据采集到的IP网络流量数据确定用于流量预测的神经网络的拓扑结构和网络参数,并利用神经网络的方法进行预测,得出预测结果。本发明可对各种骨干网络进行监控检测和分析,实时监控、检测骨干网络中的网络异常事件,实现对网络异常情况的提前预警。
-
公开(公告)号:CN101593200B
公开(公告)日:2012-10-03
申请号:CN200910031625.3
申请日:2009-06-19
Applicant: 淮海工学院
IPC: G06F17/30
Abstract: 一种基于关键词频度分析的中文网页分类方法,是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,通过首先获取到网页的HTML源码,对网页进行预处理。通过测试和分析,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文文本,接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词,通过该词在文本中的权重排序,通过网页模糊分类算法,得到该网页关键词所属类别的类别排名,取其中前几位,进行隶属率的计算,得出该网页的所属类别的模糊匹配结果。有利于高效的组织网络上海量信息,用于互联网用户兴趣度分析;搜索引擎目录更新;Web内容挖掘;在线文档管理;数字图书馆建设。
-
-
-