基于加权轮叫算法的分布式爬虫任务调度方法

    公开(公告)号:CN103870329A

    公开(公告)日:2014-06-18

    申请号:CN201410073829.4

    申请日:2014-03-03

    Applicant: 同济大学

    Abstract: 一种基于加权轮叫算法的分布式爬虫任务调度方法,包括1)根据规模不同,将网络爬虫分为单机多线程、同构集中式、异构集中式、小型分布式和大型分布式五类爬虫;2)主从式架构部署;3)当爬虫节点第一次连接到主控节点时,主控节点给予它初始权值;4)主控节点根据基于加权轮叫的调度算法,不断选择出一个爬虫节点,将一个待爬取的URL任务分配给它;5)每当爬虫节点爬取完一个URL任务时,将结果返回给主控节点,主控节点更新该爬虫节点的权值;等等。本发明提出的基于加权轮叫算法的分布式爬虫调度策略,是针对小型分布式爬虫而进行设计的,能够使各爬虫节点负载平衡,并使爬虫节点拥有灵活的可扩展性及容错性。

    一种基于局部敏感Hash函数的网页分类方法

    公开(公告)号:CN103744964A

    公开(公告)日:2014-04-23

    申请号:CN201410005868.0

    申请日:2014-01-06

    Applicant: 同济大学

    CPC classification number: G06F17/30864 G06F17/30705

    Abstract: 本发明涉及一种基于局部敏感Hash函数实现网页分类的方法,其特征在于:首先是训练分类器,其输入是所有类的训练集,输出是能够代表特定类的64位的指纹;然后用测试集测试该分类器,在测试通过之后,利用该分类器对待定网页进行分类,分类过程的输入是待分类网页的正文,经过处理将正文内容映射成一个64位的指纹,同所有类的指纹进行对比,计算海明距离;同哪个类的海明距离最小,则判定该网页属于哪个类。本发明通过利用局部敏感hash函数实现对文本的分类,保证准确率的情况下可以大幅度提高分类效率。

    基于加权轮叫算法的分布式爬虫任务调度方法

    公开(公告)号:CN103870329B

    公开(公告)日:2017-01-18

    申请号:CN201410073829.4

    申请日:2014-03-03

    Applicant: 同济大学

    Abstract: 一种基于加权轮叫算法的分布式爬虫任务调度方法,包括1)根据规模不同,将网络爬虫分为单机多线程、同构集中式、异构集中式、小型分布式和大型分布式五类爬虫;2)主从式架构部署,3)当爬虫节点第一次连接到主控节点时,主控节点给予它初始权值;4)主控节点根据基于加权轮叫的调度算法,不断选择出一个爬虫节点,将一个待爬取的URL任务分配给它;5)每当爬虫节点爬取完一个URL任务时,将结果返回给主控节点,主控节点更新该爬虫节点的权值;等等。本发明提出的基于加权轮叫算法的分布式爬虫调度策略,是针对小型分布式爬虫而进行设计的,能够使各爬虫节点负载平衡,并使爬虫节点拥有灵活的可扩展性及容错性。

    一种基于分布式计算的网页分类方法

    公开(公告)号:CN103744958B

    公开(公告)日:2016-10-19

    申请号:CN201410004646.7

    申请日:2014-01-06

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于分布式计算的网页分类算法,包括步骤如下:步骤一,分类模型的建立;(1)网页预处理;(2)特征词关联信息;(3)特征词位置信息;步骤二,网页分类过程;1)网页预处理;(2)计算网页归属类别;(3)动态词库;本发明基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息,而同时也保证了随着分布式系统中的集群的数量的增加,信息处理的速度也会有显著地提高,因此基于分布式的网页分类算法具有很大的应用前景。

    用户需求分析定位器和分析及定位方法

    公开(公告)号:CN102999569B

    公开(公告)日:2015-08-19

    申请号:CN201210445804.3

    申请日:2012-11-09

    Applicant: 同济大学

    Abstract: 一种用户需求分析定位器和分析及定位方法,其用户需求分析及定位器可以分为两个模块:1用户需求分析模块。2用户需求定位模块。用户需求分析模块的主要功能为:理解用户输入的信息。用户需求定位模块的主要功能为:将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页。用户需求分析及定位器主要是根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息。然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。

    一种基于蚁群算法的网页类特征向量提取方法

    公开(公告)号:CN103744959A

    公开(公告)日:2014-04-23

    申请号:CN201410004815.7

    申请日:2014-01-06

    Applicant: 同济大学

    CPC classification number: G06F17/30705 G06N3/00

    Abstract: 本发明涉及一种利用改进的蚁群算法提取特征词,具体过程:在预处理时,将所有信息存取到hash表中,其中coco_prepare存取每篇文章的信息,包括文章的id和每个词及其出现的次数;readhdfs_prepare存取每个类的训练集的统计信息,包括每个词的词频,文档数,和类名共现的次数;设置蚁群算法的参数:蚂蚁个数M;迭代次数N;蚂蚁走的步数即特征词个数K;初始化路径信息素矩阵adMatrixs;局部更新衰减速率p1和全局更新衰减速率p2;蚂蚁释放信息素量m;本发明首次引入蚁群算法解决在没有准确样本集的情况下为类提取准确的特征向量的问题。

    一种基于分布式计算的网页分类算法

    公开(公告)号:CN103744958A

    公开(公告)日:2014-04-23

    申请号:CN201410004646.7

    申请日:2014-01-06

    Applicant: 同济大学

    CPC classification number: G06F17/30707 G06F17/30666

    Abstract: 本发明涉及一种基于分布式计算的网页分类算法,包括步骤如下:步骤一,分类模型的建立;(1)网页预处理;(2)特征词关联信息;(3)特征词位置信息;步骤二,网页分类过程;1)网页预处理;(2)计算网页归属类别;(3)动态词库;本发明基于分布式计算的分类算法可以应对现实网络中呈指数级增长的网络信息,而同时也保证了随着分布式系统中的集群的数量的增加,信息处理的速度也会有显著地提高,因此基于分布式的网页分类算法具有很大的应用前景。

    用户需求分析定位器和分析及定位方法

    公开(公告)号:CN102999569A

    公开(公告)日:2013-03-27

    申请号:CN201210445804.3

    申请日:2012-11-09

    Applicant: 同济大学

    Abstract: 一种用户需求分析定位器和分析及定位方法,其用户需求分析及定位器可以分为两个模块:1用户需求分析模块。2用户需求定位模块。用户需求分析模块的主要功能为:理解用户输入的信息。用户需求定位模块的主要功能为:将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页。用户需求分析及定位器主要是根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息。然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。

    一种基于蚁群算法的网页类特征向量提取方法

    公开(公告)号:CN103744959B

    公开(公告)日:2017-01-25

    申请号:CN201410004815.7

    申请日:2014-01-06

    Applicant: 同济大学

    Abstract: 本发明涉及一种利用改进的蚁群算法提取特征词,具体过程:在预处理时,将所有信息存取到hash表中,其中coco_prepare存取每篇文章的信息,包括文章的id和每个词及其出现的次数;readhdfs_prepare存取每个类的训练集的统计信息,包括每个词的词频,文档数,和类名共现的次数;设置蚁群算法的参数:蚂蚁个数M;迭代次数N;蚂蚁走的步数即特征词个数K;初始化路径信息素矩阵adMatrixs;局部更新衰减速率p1和全局更新衰减速率p2;蚂蚁释放信息素量m;本发明首次引入蚁群算法解决在没有准确样本集的情况下为类提取准确的特征向量的问题。

Patent Agency Ranking