一种滑动窗口下多维数据重复检测快速索引方法

    公开(公告)号:CN105989061B

    公开(公告)日:2019-11-26

    申请号:CN201510066798.4

    申请日:2015-02-09

    Abstract: 本发明涉及一种滑动窗口下多维数据重复检测快速索引方法。该方法采用压缩计数型布隆过滤器矩阵数组来维护滑动窗口内的数据项,在滑动窗口内维护多个子窗口,队首子窗口以滑动方式接收新元素,队尾子窗口以滑动方式淘汰老元素;每个独立子窗口由一个计数型布隆过滤器矩阵组成,计数型布隆过滤器矩阵具备面向多维数据的维度删减能力,并且其内部维护计数器单元。通过对所有计数型布隆过滤器矩阵均采用相同的设计容量并共享同一组k个哈希函数,能够有效提升重复元素检测效率;通过在计数器单元中维护系统基础时钟,能够有效支持滑动窗口的元素隐式删除;通过矩阵方式维护多维数据,有效降低多维数据的组合误差率,降低整体误判率。

    一种界标窗口下域名数据重复检测快速索引方法

    公开(公告)号:CN104794158B

    公开(公告)日:2018-11-13

    申请号:CN201510117236.8

    申请日:2015-03-17

    Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。

    一种海量非结构化数据的数据存储方法

    公开(公告)号:CN104731864B

    公开(公告)日:2018-05-29

    申请号:CN201510088785.7

    申请日:2015-02-26

    Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。

    一种大数据多区间查询条件下的基数估计方法及装置

    公开(公告)号:CN103544258B

    公开(公告)日:2016-11-30

    申请号:CN201310484503.6

    申请日:2013-10-16

    Abstract: 本发明涉及一种大数据多区间查询条件下的基数估计方法及装置,包括以下步骤:按照数值属性对大数据预先划分成多个分区;建立树形索引结构,每个分区作为树形索引结构的一个节点;获取待写入树形索引结构的数据源,对支持区间查询条件的数据源进行倒排索引处理;将经过倒排索引处理的数据源写入树形索引结构中的节点内,将数据源的相应部分分别写入数据文件及基数估算器内;根据区间查询条件在树形索引结构中查询满足区间查询条件的节点,得到节点中的基数估算器,对基数估算器进行逻辑处理,得到基数估算值。本发明通过降低数据的计算精度提高基数统计效率,在任意多区间查询条件下,具备较高的查询效率,使用了大数据增量更新技术提高索引数据在线更新效率。

    一种海量结构化日志数据全局索引管理方法及装置

    公开(公告)号:CN103544261B

    公开(公告)日:2016-06-22

    申请号:CN201310484663.0

    申请日:2013-10-16

    Abstract: 本发明涉及一种海量结构化日志数据全局索引管理方法,包括以下步骤:在数据存储子系统中在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认本地是否有全局索引服务器的地址信息,客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子系统中的相应数据节点发送远程调用请求;数据存储子系统汇总各数据节点的响应数据,将最终查询结果发送给客户端。本发明该方法有效地增加了系统的查询多样性和查询效率,并且提高了系统的可扩展性。

    集群内存自适应管理方法、服务器集群系统

    公开(公告)号:CN103226520A

    公开(公告)日:2013-07-31

    申请号:CN201310113105.3

    申请日:2013-04-02

    Abstract: 本发明涉及一种集群内存自适应管理方法、服务器集群。其中,集群内存自适应管理方法包括:对于数据服务器集群中的每个数据服务器,在使用前对该数据服务器按照变步长加性增长方式进行内存预分配,将内存分割为设定数目的片组,每个片组的总容量相等,每个片组包含容量相等的多个分片。本发明的集群内存自适应调管理方法,采用优化模式的内存预先分配的策略,保证了内存的合理分片,从而提高了内存的存取效率,也减少了内存碎片的产生。此外,本发明的集群内存自适应调管理方法能够进行内存自适应调整,大大提高了内存的自治能力和稳定性。

    一种基于快速傅里叶变换和可学习滤波器的联邦推荐方法

    公开(公告)号:CN115409204A

    公开(公告)日:2022-11-29

    申请号:CN202210884125.X

    申请日:2022-07-26

    Abstract: 本发明公开了一种基于快速傅里叶变换和可学习滤波器的联邦推荐方法。本方法为:服务器选取多个客户端,并将全局模型发送至每一所选客户端;各客户端分别利用本地数据集对全局模型进行训练更新;服务器收集各客户端计算的模型参数并进行平均,获取本轮更新后的全局模型,并进行下一轮次的训练。客户端的本地模型训练:1)根据用户的交互项目序列生成嵌入矩阵;2)将嵌入矩阵进行快速傅里叶变换至频域;3)将上述结果乘以一个滤波器来调制频域,再快速傅里叶逆变换将其变回时域后输入前馈神经网络,得到用户兴趣表示;4)基于用户兴趣表示与嵌入矩阵计算用户对各项目的偏好分数;5)根据所述偏好分数对各项目进行排序,得到项目推荐结果。

Patent Agency Ranking