一种基于枚举的网络实体爬取方法

    公开(公告)号:CN103699687B

    公开(公告)日:2017-02-01

    申请号:CN201410003459.7

    申请日:2014-01-03

    Applicant: 复旦大学

    Abstract: 本发明属于网络爬虫技术领域,具体为一种基于枚举的网络实体爬取方法。该方法分为三个部分:对目标网络实体进行采样和预处理、对样本进行特征聚类和特征合并、生成可枚举的表达式。即;通过一定采样方式、采样规模来对目标网络实体进行采样,并对可转化样本进行样本分解;将分解后的样本进行k均值聚类操作,并进行类内噪音去除;利用特征合并、特征补全和优化枚举顺序的方法生成一个或者一组可以枚举的表达式。本发明建立了一种全新的爬取技术及其算法框架,在覆盖率、可分布性和额外时间代价等方面优于传统的基于关系的网络爬虫技术,在进行网络大规模实体爬取时具有更好的效果。

    一种基于枚举的网络实体爬取方法

    公开(公告)号:CN103699687A

    公开(公告)日:2014-04-02

    申请号:CN201410003459.7

    申请日:2014-01-03

    Applicant: 复旦大学

    Abstract: 本发明属于网络爬虫技术领域,具体为一种基于枚举的网络实体爬取方法。该方法分为三个部分:对目标网络实体进行采样和预处理、对样本进行特征聚类和特征合并、生成可枚举的表达式。即;通过一定采样方式、采样规模来对目标网络实体进行采样,并对可转化样本进行样本分解;将分解后的样本进行k均值聚类操作,并进行类内噪音去除;利用特征合并、特征补全和优化枚举顺序的方法生成一个或者一组可以枚举的表达式。本发明建立了一种全新的爬取技术及其算法框架,在覆盖率、可分布性和额外时间代价等方面优于传统的基于关系的网络爬虫技术,在进行网络大规模实体爬取时具有更好的效果。

Patent Agency Ranking