-
公开(公告)号:CN101582075A
公开(公告)日:2009-11-18
申请号:CN200910012239.X
申请日:2009-06-24
Applicant: 大连海事大学
IPC: G06F17/30
Abstract: 本发明公开了一种Web信息抽取系统,其特征在于包括:检索解析模块、规则生成模块和数据抽取存储模块:检索解析模块包括网络爬虫单元和HTML解析器;规则生成模块包括单槽抽取规则生成单元和多槽抽取规则生成单元;数据抽取存储模块,规则生成模块生成的抽取规则,从检索解析模块下载的网页上提取数据并以结构化的形式存储。该系统具有:生成单槽抽取规则时界面操作简单、容易理解;对于生成多槽抽取规则,系统提供图形界面帮助用户标注,节省用户的时间和体力;对于预先生成的抽取规则和任务序列,系统提供两种方式实现批量任务的抽取和存储;系统可以根据用户配置的参数,在预先设定的周期和时间完成抽取存储任务。
-
公开(公告)号:CN101582075B
公开(公告)日:2011-05-11
申请号:CN200910012239.X
申请日:2009-06-24
Applicant: 大连海事大学
IPC: G06F17/30
Abstract: 本发明公开了一种Web信息抽取系统,其特征在于包括:检索解析模块、规则生成模块和数据抽取存储模块:检索解析模块包括网络爬虫单元和HTML解析器;规则生成模块包括单槽抽取规则生成单元和多槽抽取规则生成单元;数据抽取存储模块,规则生成模块生成的抽取规则,从检索解析模块下载的网页上提取数据并以结构化的形式存储。该系统具有:生成单槽抽取规则时界面操作简单、容易理解;对于生成多槽抽取规则,系统提供图形界面帮助用户标注,节省用户的时间和体力;对于预先生成的抽取规则和任务序列,系统提供两种方式实现批量任务的抽取和存储;系统可以根据用户配置的参数,在预先设定的周期和时间完成抽取存储任务。
-