一种对DNS网络域名数据快速匹配的方法及装置

    公开(公告)号:CN114860682A

    公开(公告)日:2022-08-05

    申请号:CN202210567424.0

    申请日:2022-05-24

    Abstract: 本发明公开了一种对DNS网络域名数据快速匹配的方法及装置,方法包括:Hadoop高可用分布式集群用于对分布式文件系统中的名称节点进程和资源管理器中的资源管理进程进行多节点设计,若主节点出现故障,备用节点切换为激活模式;选择对存放在分布式文件系统上的DNS日志数据处理的资源管理器集群模式,通过对有向无环图的弹性数据集进行算子优化,对Spark作业运行参数设计;采用改进的双数组字典树,利用广度优先搜索算法计算fail()指针,并将各父子节点按照预设的规则进行指向连接,创建匹配输出函数;安装parallel python模块,在所述集群上结合多线程的并行计算和增强的AC自动机算法,对DNS日志数据里面的海量CNAME域名与指定的域名库进行匹配计算。装置包括:处理器和存储器。

    一种高效率、高精度的网络数据抓取方法及装置

    公开(公告)号:CN114756784A

    公开(公告)日:2022-07-15

    申请号:CN202210373194.4

    申请日:2022-04-11

    Applicant: 新疆大学

    Inventor: 贾振红 冷正刚

    Abstract: 本发明公开了一种高效率、高精度的网络数据抓取方法及装置,方法包括:设计K个高可用散列函数,通过散列值集合中的哈希值对改进的Bloom Filter函数执行插入操作;通过散列值集合中的哈希值得到与之相对应的bit位数组上的位置,再获取相应的位置设置值,并进行与运算,若运算结果为1则执行过爬取操作,判定该条URL为重复的URL;通过改进的Bloom Filter函数对插入的URL映射信息进行删除操作,基于并行Bloom Filter的URL去重方法对URL信息进行去重;将最终去重后的批量URL存储在基于Redis的URL去重队列里,通过调度器不断的从URL去重队列里获取到不重复的URL,再对不重复的URL发起爬虫请求,实现了对网络数据资源的获取。装置包括:处理器和存储器。本发明提高了获取网络数据的效率与精确度,节约了内存空间资源。

Patent Agency Ranking