-
公开(公告)号:CN104516982A
公开(公告)日:2015-04-15
申请号:CN201510004508.3
申请日:2015-01-06
Applicant: 南通大学
IPC: G06F17/30
CPC classification number: G06F16/951
Abstract: 本发明公开了一种基于Nutch的Web信息提取系统,包括信息提取模块、存储模块、索引模块和检索模块;所述信息提取模块通过Nutch框架从互联网中抓取网页数据,解析数据;所述存储模块用于存储过滤掉网页数据的网页提取文件;所述索引模块用于将Nutch采集的网页信息传递给Solr建立索引;所述检索模块使用Solr响应用户查询请求并把查询结果以XML页面形式显示给用户。提高了信息提取的响应和运行速度、稳定性及可扩展性,减少程序占用过多的存储空间,为用户能够及时地获得有效信息提供保证。