一种基于重做日志的分布式商品信息爬虫方法

    公开(公告)号:CN106126648B

    公开(公告)日:2019-04-09

    申请号:CN201610472048.1

    申请日:2016-06-23

    Abstract: 本发明公开了一种基于重做日志的分布式商品信息爬虫方法,包括:从数据库中读取配置来生成爬虫任务,定义三种爬虫的重做日志记录格式,执行商品搜索爬虫,在电商网站的搜索结果页中提取商品列表并生成商品信息任务和商品评论任务;把商品信息任务和商品评论任务再分配到各个服务器上,执行商品信息爬虫采集并保存商品的各种属性数据,执行商品评论爬虫采集并保存商品的评论数据;重做日志会记录采集失败的任务和状态;定时从重做日志中取出日志,反序列化为爬虫任务进行重新爬取。本发明的基于重做日志的分布式商品信息爬虫方法,能够针对电商网站的商品数据和评论数据的爬取,有效地提高数据采集的效率和完善性。

    一种基于重做日志的分布式商品信息爬虫方法

    公开(公告)号:CN106126648A

    公开(公告)日:2016-11-16

    申请号:CN201610472048.1

    申请日:2016-06-23

    CPC classification number: G06F17/30864 G06F17/30887 G06Q30/0623

    Abstract: 本发明公开了一种基于重做日志的分布式商品信息爬虫方法,包括:从数据库中读取配置来生成爬虫任务,定义三种爬虫的重做日志记录格式,执行商品搜索爬虫,在电商网站的搜索结果页中提取商品列表并生成商品信息任务和商品评论任务;把商品信息任务和商品评论任务再分配到各个服务器上,执行商品信息爬虫采集并保存商品的各种属性数据,执行商品评论爬虫采集并保存商品的评论数据;重做日志会记录采集失败的任务和状态;定时从重做日志中取出日志,反序列化为爬虫任务进行重新爬取。本发明的基于重做日志的分布式商品信息爬虫方法,能够针对电商网站的商品数据和评论数据的爬取,有效地提高数据采集的效率和完善性。

    一种手机游戏分类方法
    3.
    发明授权

    公开(公告)号:CN108228845B

    公开(公告)日:2020-10-27

    申请号:CN201810018771.1

    申请日:2018-01-09

    Abstract: 本发明公开了一种手机游戏分类方法,通过计算不同平台下的游戏的名称、图标和描述简介的相似度,找出同款游戏,统一互联网上16个游戏提供平台的分类体系,按照统一的标准,通过计算游戏的描述简介文本的句子向量相似度和主题分布向量,以分词统计后的游戏标题、原有平台名称和原有平台的分类标签作为输入,训练GBDT模型,然后进行特征融合,在采用特定的分类算法进行分类,准确地将不同平台下的各种游戏进行分类。本发明具有极高的准确率,效果好,能有效地提高不同数据源游戏分类的精确率。

    一种手机游戏分类算法
    4.
    发明公开

    公开(公告)号:CN108228845A

    公开(公告)日:2018-06-29

    申请号:CN201810018771.1

    申请日:2018-01-09

    Abstract: 本发明公开了一种手机游戏分类算法,通过计算不同平台下的游戏的名称、图标和描述简介的相似度,找出同款游戏,统一互联网上16个游戏提供平台的分类体系,按照统一的标准,通过计算游戏的描述简介文本的句子向量相似度和主题分布向量,以分词统计后的游戏标题、原有平台名称和原有平台的分类标签作为输入,训练GBDT模型,然后进行特征融合,在采用特定的分类算法进行分类,准确地将不同平台下的各种游戏进行分类。本发明具有极高的准确率,效果好,能有效地提高不同数据源游戏分类的精确率。

Patent Agency Ranking