一种滑动窗口下多维数据重复检测快速索引方法

    公开(公告)号:CN105989061B

    公开(公告)日:2019-11-26

    申请号:CN201510066798.4

    申请日:2015-02-09

    Abstract: 本发明涉及一种滑动窗口下多维数据重复检测快速索引方法。该方法采用压缩计数型布隆过滤器矩阵数组来维护滑动窗口内的数据项,在滑动窗口内维护多个子窗口,队首子窗口以滑动方式接收新元素,队尾子窗口以滑动方式淘汰老元素;每个独立子窗口由一个计数型布隆过滤器矩阵组成,计数型布隆过滤器矩阵具备面向多维数据的维度删减能力,并且其内部维护计数器单元。通过对所有计数型布隆过滤器矩阵均采用相同的设计容量并共享同一组k个哈希函数,能够有效提升重复元素检测效率;通过在计数器单元中维护系统基础时钟,能够有效支持滑动窗口的元素隐式删除;通过矩阵方式维护多维数据,有效降低多维数据的组合误差率,降低整体误判率。

    一种界标窗口下域名数据重复检测快速索引方法

    公开(公告)号:CN104794158B

    公开(公告)日:2018-11-13

    申请号:CN201510117236.8

    申请日:2015-03-17

    Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。

    一种海量非结构化数据的数据存储方法

    公开(公告)号:CN104731864B

    公开(公告)日:2018-05-29

    申请号:CN201510088785.7

    申请日:2015-02-26

    Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。

    数据即服务模式下支持范围查询的隐私保护方法和系统

    公开(公告)号:CN110378144B

    公开(公告)日:2021-09-07

    申请号:CN201910481273.5

    申请日:2019-06-04

    Abstract: 本发明涉及一种数据即服务模式下支持范围查询的隐私保护方法和系统。在数据即服务的管理模式中,数据服务商的安全策略可能并不完备,数据所有者对其并不完全信任。在这样的环境下,设计一个能够完备的、能够保证数据隐私安全同时数据查询相对高效的机制是很有必要的。已有的数据即服务的管理模式中存在时间效率低和隐私信息攻击的风险。本发明提出一个完备、隐私安全并且支持范围查询和数据验证的方案,其核心是通过对数据分区,在同一分区内的数据采取哈希函数部分和的方式获得索引;为了能够在范围查询时避免假命中数据和数据验证,引入了查询精度和验证矩阵。通过实验验证,本发明具有很好的时间效率,同时能够很好地减少数据信息泄露。

    一种基于配置文件和日志文件的跨组件数据流向审计方法和系统

    公开(公告)号:CN113271220A

    公开(公告)日:2021-08-17

    申请号:CN202110340162.X

    申请日:2021-03-30

    Abstract: 本发明涉及一种基于配置文件和日志文件的跨组件数据流向审计方法和系统。该方法的步骤包括:采集大数据平台中各个组件的配置文件和日志文件;根据采集的配置文件和日志文件,识别分布式环境下部署在不同物理服务器上的大数据组件;根据识别出的大数据组件并结合日志文件中的信息,构建跨组件的数据流向图;根据数据流向图进行数据流向的异常判定及告警。本发明通过采集各个组件的配置文件、运行日志文件、审计日志文件实现交叉验证,实现高精度的组件识别,结合凝练的安全审计模型,实现大数据平台整体数据流转情况的采集,进而支持业务流程中不同环节的数据使用情况审计,并能够对异常任务、异常数据使用场景进行识别和告警。

Patent Agency Ranking