一种WEB聚焦搜索系统的搜索方法

    公开(公告)号:CN103226609A

    公开(公告)日:2013-07-31

    申请号:CN201310159265.1

    申请日:2013-05-03

    Abstract: 本发明涉及一种WEB聚焦搜索系统的搜索方法,设定爬虫程序分别为网页搜集线程和网页处理线程,用户根据关键词通过网页搜集线程检索电子商务网站的网络地址链接域名,然后通过建立哈希表去除重复链接,存入链接缓冲池等待网页处理线程解析及爬取信息,最后将爬取的信息存入到数据库中的数据模型,用户通过数据库查看搜索结果;采用以上方法,实现了爬虫程序多线程分别处理,使其便于管理和加快运行速度,利用哈希表去重,相对于现有技术中的搜索引擎可以排除掉大量的无关链接,使人们获取有价值的信息;通过synchronized关键字加锁,保证取出链接的唯一性,防止多次爬取导致的资源浪费以及数据重复,使用户有效地提取和利用这些信息与资源。

Patent Agency Ranking