Patent search ap:("北京拓尔思信息技术股份有限公司") AND inv:"都云程" Page 1

1.

发明授权
基于脚本引擎的微博用户关系采集方法有权

公开(公告)号：CN103377207B

公开(公告)日：2016-12-07

申请号：CN201210114869.X

申请日：2012-04-17

Applicant: 北京拓尔思信息技术股份有限公司

Inventor： 都云程

IPC: G06F17/30

Abstract: 本发明涉及信息采集技术领域，公开了一种基于脚本引擎的微博用户关系采集方法，该方法包括步骤：S1，采用脚本引擎技术自动登录微博客网站；S2，采用网页采集方式对特定账户信息爬取其对应内容页面信息；S3，元数据解析，获取用户列表、用户行为机制及用户基本信息；S4，实现用户关系抽取；S5，使用广度优先遍历用户列表，丰富用户关联关系。本发明提供的采集方法克服了API访问限制问题，有利于微博客信息的规模化采集，同时也提高了信息采集的精确度。

2.

发明公开
基于网页结构的信息动态采集更新调度方法有权

公开(公告)号：CN103793421A

公开(公告)日：2014-05-14

申请号：CN201210428272.2

申请日：2012-10-31

Applicant: 北京拓尔思信息技术股份有限公司

Inventor： 都云程

IPC: G06F17/30

Abstract: 本发明公开了一种基于网页结构的信息动态采集更新调度方法，该方法包括：S1，采用网页结构分析方法对每个采集后的网页进行量化打分；S2，页面分数大于一定阈值（）判定为Hub页面，参与更新采集调度；S3，将Hub页面分数划定等级，不同等级采用不同的调度周期实施调度；S4，每轮采集后，重新调整Hub页面调度等级，在持续调整过程中实现更新采集效果的不断优化。本发明实现了海量信息时代下，信息采集系统准确、高效的要求。

3.

发明授权
基于网页结构的信息动态采集更新调度方法有权

公开(公告)号：CN103793421B

公开(公告)日：2017-07-07

申请号：CN201210428272.2

申请日：2012-10-31

Applicant: 北京拓尔思信息技术股份有限公司

Inventor： 都云程

IPC: G06F17/30

Abstract: 本发明公开了一种基于网页结构的信息动态采集更新调度方法，该方法包括：S1，采用网页结构分析方法对每个采集后的网页进行量化打分；S2，页面分数大于一定阈值(θ)判定为Hub页面，参与更新采集调度；S3，将Hub页面分数划定等级，不同等级采用不同的调度周期实施调度；S4，每轮采集后，重新调整Hub页面调度等级，在持续调整过程中实现更新采集效果的不断优化。本发明实现了海量信息时代下，信息采集系统准确、高效的要求。

4.

发明公开
基于脚本引擎的微博用户关系采集方法有权

公开(公告)号：CN103377207A

公开(公告)日：2013-10-30

申请号：CN201210114869.X

申请日：2012-04-17

Applicant: 北京拓尔思信息技术股份有限公司

Inventor： 都云程

IPC: G06F17/30

Abstract: 本发明涉及信息采集技术领域，公开了一种基于脚本引擎的微博用户关系采集方法，该方法包括步骤：S1，采用脚本引擎技术自动登录微博客网站；S2，采用网页采集方式对特定账户信息爬取其对应内容页面信息；S3，元数据解析，获取用户列表、用户行为机制及用户基本信息；S4，实现用户关系抽取；S5，使用广度优先遍历用户列表，丰富用户关联关系。本发明提供的采集方法克服了API访问限制问题，有利于微博客信息的规模化采集，同时也提高了信息采集的精确度。

Patent Agency Ranking