一种获取搜索引擎搜索结果的方法和装置

    公开(公告)号:CN106970962B

    公开(公告)日:2020-08-11

    申请号:CN201710170469.3

    申请日:2017-03-21

    Abstract: 本发明公开了一种获取搜索引擎搜索结果的方法和装置。所述方法包括:输入待测试的搜索引擎、关键词和页码;将关键词和页码输入搜索引擎对应的搜索引擎模板,获得关键词和页码对应的一级页面地址;将一级页面地址输入到预设的浏览器中,通过浏览器访问一级页面地址,并获取一级页面地址对应一级页面信息和二级页面信息。本发明采用自动化的方式获取搜索引擎的搜索结果,通过预先设置搜索引擎模板的方式,自动获得一级页面地址,并将一级页面地址输入预设的浏览器中,进而通过访问该一级页面地址,自动获得所需的一级页面信息和二级页面信息。通过本发明可以有效提升搜索验证效率和准确率,提高搜索效果以及获得搜索结果的效率。

    一种网页主题的标注方法和装置

    公开(公告)号:CN104881458B

    公开(公告)日:2019-05-28

    申请号:CN201510266108.X

    申请日:2015-05-22

    Abstract: 本发明公开了一种网页主题的标注方法和装置。所述方法包括:基于网页的标题和正文,获得所述网页的主题特征向量;利用预先训练获得的分类器,对所述主题特征向量进行分类处理;判断是否存在所述主题特征向量所属的类型;若是,则将所述网页标注为所述主题特征向量所属的类型;若否,则将所述网页标记为待标注网页;进一步地,对多个待标注网页进行聚类处理;分析出每个聚类集合的类型;将待标注网页标注为其所属的聚类集合的类型。本发明采用有监督的分类方法和无监督的聚类方法级联的方式,自动的从网页中获取主题并标注网页,有效提高了网页主题标注的效率和准确性。

    一种跨域传输的方法
    18.
    发明授权

    公开(公告)号:CN105846982B

    公开(公告)日:2019-03-15

    申请号:CN201610285419.5

    申请日:2016-04-29

    Abstract: 本发明提出了一种跨域传输的方法,该方法包括:在发送终端,按顺序对每个待发送信息进行编号,并对经过编号的每个待发送信息进行分解得到多个数据包,并按顺序为每个数据包编号;为任一待发送信息中的首个数据包添加包头信息,为所述任一待发送信息中的其他数据包添加编号信息;将经过编号的待发送信息中的数据包通过用户数据报协议UDP传输至接收终端。在接收终端,接收发送终端传输来的数据包,并按照所述数据包的包头信息或编号信息对所述数据包进行重组,形成接收信息。该方法能够减少数据反馈量、提高传输速率、增强可靠性。

    一种基于视觉相似性镜像网站发现方法及系统

    公开(公告)号:CN108628703A

    公开(公告)日:2018-10-09

    申请号:CN201810225421.2

    申请日:2018-03-19

    Abstract: 本发明提供一种基于视觉相似性镜像网站发现方法及系统,该方法的步骤包括:对网页页面进行初步分块,将得到的块作为DOM树的结点;对可分割的结点继续分割,将分出的新块作为该结点的孩子结点;对于不可分割的结点,将该结点的块作为页面块存入页面块池中,如此循环迭代分块,直至得到全部的页面块;检测出页面中的分隔条,确定分割条的权重;基于分割条的权重进行重建,得到语义块;将语义块转换成图像,提取图像的签名特征;根据上述步骤提取目标网页和基准网页的各语义块的签名特征,基于签名特征通过EMD距离算法计算目标网页和基准网页之间的距离,如果该距离小于一设定阈值,则判定该目标网页的网站属于镜像网站。

Patent Agency Ranking