-
公开(公告)号:CN101645082A
公开(公告)日:2010-02-10
申请号:CN200910061694.9
申请日:2009-04-17
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 本发明提出的基于并行编程模式的相似网页去重系统,包括网页内容预处理模块、网页特征向量提取模块、网页特征指纹计算模块、网页指纹在线去重模块、网页指纹分布式批处理去重模块、基于特定分布式计算平台。该系统能够完成对网络爬虫爬行获得的网页进行文本内容编码的统一转换、文档结构的规范化、舍弃网页噪声内容和分析识别网页的主题内容、连续文本内容的词项切分等环节、形成能够代表网页的特征向量。针对该向量可以使用相关的算法得到代表网页特征的网页指纹。本发明设计提出的系统在互联网海量数据量的情况下,准确、快速地探测由于网站镜像和网络文档转载等因素造成的网页内容完全重复或近似重复,并完成相应的去重工作,从无提高搜索引擎的存储效率,给搜索引擎带来更好的用户体验。
-
公开(公告)号:CN101561814A
公开(公告)日:2009-10-21
申请号:CN200910062020.0
申请日:2009-05-08
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 一种基于社会标注的主题爬虫系统,包括页面获取模块,页面处理模块,相关度计算模块,存储模块,链接提取模块和链接分析模块。系统充分利用了网页的社会标注,是对页面内容公认的描述,更加贴近网页描述的真实内容,利用此性质来进行网页相关性的判断,将其应用在网络主题爬虫中,指导爬虫的爬行方向,对主题搜索引擎提供优质的网页数据内容。本发明很好地利用了网络带宽资源,在网页获取的过程中减少了不必要的开销,针对不同的需求采用不同的存储方式,减少了IO的消耗,采用了多级缓存机制,减少了阻塞,提高了爬虫的效率。该系统在社会标注的支撑下,优化了爬虫架构,为后续主题搜索引擎其他处理流程提供最佳的网页数据集。
-
公开(公告)号:CN101320373B
公开(公告)日:2011-05-18
申请号:CN200810048012.6
申请日:2008-06-13
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种网站支撑数据库安全搜索引擎系统。系统对网站支撑数据库存放的网页文本信息的访问角色信息和显示网址进行描述;直接对网页文本信息建立索引,索引中包含显示网址信息和访问角色信息;按照用户提交的查询关键字从牵引库中获取匹配的记录,根据用户所对应的访问控制规则对匹配记录进行过滤,并返回给用户;用户通过原始页面查看网页文本信息。本发明实现对网站文本信息的深度、全面搜索,索引中包含网页文本信息的访问角色信息,用户只能查看到其权限许可范围内的网页文本信息,实现安全搜索,索引中包含网页文本信息的显示网址信息,用户通过显示网址信息在原始页面中查看网页文本信息,继承传统搜索引擎突出的优点,符合用户操作习惯。
-
公开(公告)号:CN101320373A
公开(公告)日:2008-12-10
申请号:CN200810048012.6
申请日:2008-06-13
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种网站支撑数据库安全搜索引擎系统。系统对网站支撑数据库存放的网页文本信息的访问角色信息和显示网址进行描述;直接对网页文本信息建立索引,索引中包含显示网址信息和访问角色信息;按照用户提交的查询关键字从牵引库中获取匹配的记录,根据用户所对应的访问控制规则对匹配记录进行过滤,并返回给用户;用户通过原始页面查看网页文本信息。本发明实现对网站文本信息的深度、全面搜索,索引中包含网页文本信息的访问角色信息,用户只能查看到其权限许可范围内的网页文本信息,实现安全搜索,索引中包含网页文本信息的显示网址信息,用户通过显示网址信息在原始页面中查看网页文本信息,继承传统搜索引擎突出的优点,符合用户操作习惯。
-
公开(公告)号:CN101561814B
公开(公告)日:2012-05-09
申请号:CN200910062020.0
申请日:2009-05-08
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 一种基于社会标注的主题爬虫系统,包括页面获取模块,页面处理模块,相关度计算模块,存储模块,链接提取模块和链接分析模块。系统充分利用了网页的社会标注,是对页面内容公认的描述,更加贴近网页描述的真实内容,利用此性质来进行网页相关性的判断,将其应用在网络主题爬虫中,指导爬虫的爬行方向,对主题搜索引擎提供优质的网页数据内容。本发明很好地利用了网络带宽资源,在网页获取的过程中减少了不必要的开销,针对不同的需求采用不同的存储方式,减少了IO的消耗,采用了多级缓存机制,减少了阻塞,提高了爬虫的效率。该系统在社会标注的支撑下,优化了爬虫架构,为后续主题搜索引擎其他处理流程提供最佳的网页数据集。
-
公开(公告)号:CN101645082B
公开(公告)日:2011-04-20
申请号:CN200910061694.9
申请日:2009-04-17
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 本发明提出的基于并行编程模式的相似网页去重系统,包括网页内容预处理模块、网页特征向量提取模块、网页特征指纹计算模块、网页指纹在线去重模块、网页指纹分布式批处理去重模块、基于特定分布式计算平台。该系统能够完成对网络爬虫爬行获得的网页进行文本内容编码的统一转换、文档结构的规范化、舍弃网页噪声内容和分析识别网页的主题内容、连续文本内容的词项切分等环节、形成能够代表网页的特征向量。针对该向量可以使用相关的算法得到代表网页特征的网页指纹。本发明设计提出的系统在互联网海量数据量的情况下,准确、快速地探测由于网站镜像和网络文档转载等因素造成的网页内容完全重复或近似重复,并完成相应的去重工作,从无提高搜索引擎的存储效率,给搜索引擎带来更好的用户体验。
-
-
-
-
-