一种基于URL特征的网站首页识别方法及电子装置

    公开(公告)号:CN114201698A

    公开(公告)日:2022-03-18

    申请号:CN202010981078.1

    申请日:2020-09-17

    Abstract: 本发明提供一种基于URL特征的网站首页识别方法及电子装置,包括剔除待识别URL首部的http://字符或者https://字符,获取包含http://字符或https://字符的临时变量t1;按照“/”字符对临时变量t1进行拆分,并进行有效性判断;若不能拆分或仅能拆成两部分且第二部分为空,则判断临时变量t1是否包含是二级、三级或四级域名;若仅能拆成两部分、第二部分不为空且第二部分长度小于第一阈值,则判断第二部分是否包含特定字符;若临时变量t1包含是二级、三级或四级域名或第二部分包含特定字符,则判断待识别URL为首页URL。本发明无需训练分类器、人工标注大量数据集及对URL页面内容进行分析,解决了通过语义无法识别嵌套URL的情况,降低了误报率,节省人力与网络资源,提升了识别速度。

    数据流处理方法和系统
    8.
    发明授权

    公开(公告)号:CN102761487B

    公开(公告)日:2016-04-27

    申请号:CN201210242506.4

    申请日:2012-07-12

    Abstract: 本发明公开了一种数据流处理方法和系统,该方法用于借助众核处理器的多个处理核心对数据流进行解码处理,其中,多个处理器核心被划分为多个资源组,该方法包括:将数据流分配给多个资源组中的部分或全部;以及每个资源组对被分配到该资源组的数据流进行解码处理。本发明通过将数据流分配给多个处理核心划分得到的多个资源组中的部分或全部,并在每个资源组中对被分配到该资源组的数据流进行解码处理,从而能够对多个数据流进行并行处理,并且减少各个流的各个片段输入产生的响应延迟以及整个流的响应延迟,提高了处理效率,优化了处理器资源的使用。

Patent Agency Ranking