-
公开(公告)号:CN106980677B
公开(公告)日:2020-05-12
申请号:CN201710201272.1
申请日:2017-03-30
Applicant: 电子科技大学
IPC: G06F16/9535 , G06F16/951
Abstract: 本发明公开了一种面向行业的主题搜索方法。其包括初始化并建立初始待爬取队列,分别判断是否到达爬虫爬取时间及待爬取队列是否为空,采用Shark‑Search‑Advanced算法计算网页与主题的相关度值,采用PageRank‑Advanced算法计算网页的连接值和网页排序分值,判断是否到达爬虫再次爬取的时间间隔。本发明能够有效的提高搜索结果的准确性和可靠性,从而高效获取高准确率、高覆盖率的检索结果,保证搜索引擎可高效率、高准确度、高覆盖率的响应用户面向特定行业的搜索需求。
-
公开(公告)号:CN106980677A
公开(公告)日:2017-07-25
申请号:CN201710201272.1
申请日:2017-03-30
Applicant: 电子科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种面向行业的主题搜索方法。其包括初始化并建立初始待爬取队列,分别判断是否到达爬虫爬取时间及待爬取队列是否为空,采用Shark‑Search‑Advanced算法计算网页与主题的相关度值,采用PageRank‑Advanced算法计算网页的连接值和网页排序分值,判断是否到达爬虫再次爬取的时间间隔。本发明能够有效的提高搜索结果的准确性和可靠性,从而高效获取高准确率、高覆盖率的检索结果,保证搜索引擎可高效率、高准确度、高覆盖率的响应用户面向特定行业的搜索需求。
-