基于脚本引擎的微博用户关系采集方法

    公开(公告)号:CN103377207B

    公开(公告)日:2016-12-07

    申请号:CN201210114869.X

    申请日:2012-04-17

    Inventor: 都云程

    Abstract: 本发明涉及信息采集技术领域,公开了一种基于脚本引擎的微博用户关系采集方法,该方法包括步骤:S1,采用脚本引擎技术自动登录微博客网站;S2,采用网页采集方式对特定账户信息爬取其对应内容页面信息;S3,元数据解析,获取用户列表、用户行为机制及用户基本信息;S4,实现用户关系抽取;S5,使用广度优先遍历用户列表,丰富用户关联关系。本发明提供的采集方法克服了API访问限制问题,有利于微博客信息的规模化采集,同时也提高了信息采集的精确度。

    基于网页结构的信息动态采集更新调度方法

    公开(公告)号:CN103793421A

    公开(公告)日:2014-05-14

    申请号:CN201210428272.2

    申请日:2012-10-31

    Inventor: 都云程

    Abstract: 本发明公开了一种基于网页结构的信息动态采集更新调度方法,该方法包括:S1,采用网页结构分析方法对每个采集后的网页进行量化打分;S2,页面分数大于一定阈值()判定为Hub页面,参与更新采集调度;S3,将Hub页面分数划定等级,不同等级采用不同的调度周期实施调度;S4,每轮采集后,重新调整Hub页面调度等级,在持续调整过程中实现更新采集效果的不断优化。本发明实现了海量信息时代下,信息采集系统准确、高效的要求。

    基于网页结构的信息动态采集更新调度方法

    公开(公告)号:CN103793421B

    公开(公告)日:2017-07-07

    申请号:CN201210428272.2

    申请日:2012-10-31

    Inventor: 都云程

    Abstract: 本发明公开了一种基于网页结构的信息动态采集更新调度方法,该方法包括:S1,采用网页结构分析方法对每个采集后的网页进行量化打分;S2,页面分数大于一定阈值(θ)判定为Hub页面,参与更新采集调度;S3,将Hub页面分数划定等级,不同等级采用不同的调度周期实施调度;S4,每轮采集后,重新调整Hub页面调度等级,在持续调整过程中实现更新采集效果的不断优化。本发明实现了海量信息时代下,信息采集系统准确、高效的要求。

    基于脚本引擎的微博用户关系采集方法

    公开(公告)号:CN103377207A

    公开(公告)日:2013-10-30

    申请号:CN201210114869.X

    申请日:2012-04-17

    Inventor: 都云程

    Abstract: 本发明涉及信息采集技术领域,公开了一种基于脚本引擎的微博用户关系采集方法,该方法包括步骤:S1,采用脚本引擎技术自动登录微博客网站;S2,采用网页采集方式对特定账户信息爬取其对应内容页面信息;S3,元数据解析,获取用户列表、用户行为机制及用户基本信息;S4,实现用户关系抽取;S5,使用广度优先遍历用户列表,丰富用户关联关系。本发明提供的采集方法克服了API访问限制问题,有利于微博客信息的规模化采集,同时也提高了信息采集的精确度。

Patent Agency Ranking