-
公开(公告)号:CN101826110B
公开(公告)日:2011-12-21
申请号:CN201010147527.9
申请日:2010-04-13
Applicant: 北京大学
Abstract: 本发明涉及一种BitTorrent种子文件爬取方法,属于计算机网络领域。本发明的方法为:1)根据设定的BT服务器特征关键词,探测模块调用搜索引擎接口查找BT发布WEB站点并将其发布页面地址发送到爬虫模块;2)爬虫模块根据接收到的发布页面地址下载相应页面;3)爬虫模块从所下载页面中解析出种子文件地址,并根据种子文件地址将种子文件下载到种子文件库;4)种子文件解析器从种子文件中解析出索引服务器的地址,并把索引服务器地址转换成发布页面地址发送给爬虫模块,重复步骤2)~4)。与现有技术相比,本发明可爬取的种子资源更全面、丰富,大大提高了种子文件库的种子资源。
-
公开(公告)号:CN101826110A
公开(公告)日:2010-09-08
申请号:CN201010147527.9
申请日:2010-04-13
Applicant: 北京大学
Abstract: 本发明涉及一种BitTorrent种子文件爬取方法,属于计算机网络领域。本发明的方法为:1)根据设定的BT服务器特征关键词,探测模块调用搜索引擎接口查找BT发布WEB站点并将其发布页面地址发送到爬虫模块;2)爬虫模块根据接收到的发布页面地址下载相应页面;3)爬虫模块从所下载页面中解析出种子文件地址,并根据种子文件地址将种子文件下载到种子文件库;4)种子文件解析器从种子文件中解析出索引服务器的地址,并把索引服务器地址转换成发布页面地址发送给爬虫模块,重复步骤2)~4)。与现有技术相比,本发明可爬取的种子资源更全面、丰富,大大提高了种子文件库的种子资源。
-
公开(公告)号:CN101916291B
公开(公告)日:2012-05-02
申请号:CN201010263210.1
申请日:2010-08-26
Applicant: 北京大学
Abstract: 本发明公布了一种通过关键词查询获取eDonkey网络共享文件及客户端信息爬取方法,具体涉及一种通过关键词查找来快速地获得共享文件及客户端信息的方法。本方法主要包括如下步骤:建立常用词列表;通过查询常用词以获取服务器的查询结果上限;把待查询的关键词放入一个队列中;在服务器中查询队列中的关键词,如果实际结果多于查询结果,则把关键词和常用词进行组合产生新词进行重新查询。通过本发明提供的方法,可以获取更多的eDonkey网络共享文件信息和客户端信息,从而提高了查找效率和查找质量。
-
公开(公告)号:CN101916291A
公开(公告)日:2010-12-15
申请号:CN201010263210.1
申请日:2010-08-26
Applicant: 北京大学
Abstract: 本发明公布了一种通过关键词查询获取eDonkey网络共享文件及客户端信息爬取方法,具体涉及一种通过关键词查找来快速地获得共享文件及客户端信息的方法。本方法主要包括如下步骤:建立常用词列表;通过查询常用词以获取服务器的查询结果上限;把待查询的关键词放入一个队列中;在服务器中查询队列中的关键词,如果实际结果多于查询结果,则把关键词和常用词进行组合产生新词进行重新查询。通过本发明提供的方法,可以获取更多的eDonkey网络共享文件信息和客户端信息,从而提高了查找效率和查找质量。
-
-
-