一种滑动窗口下多维数据重复检测快速索引方法

    公开(公告)号:CN105989061A

    公开(公告)日:2016-10-05

    申请号:CN201510066798.4

    申请日:2015-02-09

    Abstract: 本发明涉及一种滑动窗口下多维数据重复检测快速索引方法。该方法采用压缩计数型布隆过滤器矩阵数组来维护滑动窗口内的数据项,在滑动窗口内维护多个子窗口,队首子窗口以滑动方式接收新元素,队尾子窗口以滑动方式淘汰老元素;每个独立子窗口由一个计数型布隆过滤器矩阵组成,计数型布隆过滤器矩阵具备面向多维数据的维度删减能力,并且其内部维护计数器单元。通过对所有计数型布隆过滤器矩阵均采用相同的设计容量并共享同一组k个哈希函数,能够有效提升重复元素检测效率;通过在计数器单元中维护系统基础时钟,能够有效支持滑动窗口的元素隐式删除;通过矩阵方式维护多维数据,有效降低多维数据的组合误差率,降低整体误判率。

    一种多源异构大数据的一致性表示方法

    公开(公告)号:CN105893612A

    公开(公告)日:2016-08-24

    申请号:CN201610266857.7

    申请日:2016-04-26

    CPC classification number: G06F16/217 G06F16/215 G06F17/2785

    Abstract: 本发明公开了一种多源异构大数据的一致性表示方法。本方法针对多源异构数据的特征异构性问题,利用多源异构数据间的语义互补性,基于子空间学习方法,将多源异构数据投影到一个中层冗余特征同构空间。并在这个同构空间中,将来自不同来源的相关描述耦合到一起。为了挖掘出中层空间中同构描述之间的语义一致性,利用先验知识,将特征同构描述投影到高层语义共享子空间上,进而消除冗余和噪声信息。由此,可以获得多源异构数据的语义一致模式。本发明有助于在多媒体分析、信息检索和医疗诊断等领域,获得准确且鲁棒的多源数据评估分析结果。

    一种多源异构大数据的缺失源补全方法

    公开(公告)号:CN105893610A

    公开(公告)日:2016-08-24

    申请号:CN201610265744.5

    申请日:2016-04-26

    CPC classification number: G06F16/215 G06F2216/03

    Abstract: 本发明公开了一种多源异构大数据的缺失源补全方法。本方法针对多源异构数据的缺失源问题,利用多源异构数据间的语义互补性和分布相似性,基于子空间学习方法,通过对完整的多源异构数据的语义互补性和分布相似性的挖掘,获得一个不同来源间的特征同构的语义共享子空间,从而在这个特征同构空间中,利用学习到的语义互补性和分布相似性,补全多源异构数据的缺失来源。本方法中,假设不同的来源都服从正态分布,那么缺失源的数据矩阵可以塑造为低秩(捕捉类间差异,代表期望)加稀疏(捕捉类内差异,代表方差)两个成分的和。由此,利用异源间的语义互补性和等同分布补全多源异构数据的缺失描述。

    一种多源异构大数据的冗余源协同缩减方法

    公开(公告)号:CN105843896A

    公开(公告)日:2016-08-10

    申请号:CN201610166631.X

    申请日:2016-03-22

    CPC classification number: G06F16/215

    Abstract: 本发明涉及一种多源异构大数据的冗余源协同缩减方法。该方法包括两个模型,一个为异构流形平滑学习(HMSL)模型,另一个为基于相关性的多源冗余缩减(CMRR)模型。其中,HMSL模型将多源异构数据线性投影到一个低维特征同构空间,并在这个空间中,使信息相关描述的流形距离更近,而语义互补样本的欧氏距离更近;CMRR模型利用基于梯度能量竞争策略的广义初等变换约束,在由HMSL模型学习得来的特征同构空间中,消除多源冗余数据的三向冗余和双层异构性。本发明能够消除多源冗余数据的三向冗余和双层异构性,进而精简多源异构数据的冗余源。

    一种有向链接式分类器构造方法及分类方法

    公开(公告)号:CN104820687A

    公开(公告)日:2015-08-05

    申请号:CN201510192537.7

    申请日:2015-04-22

    Abstract: 本发明公开了一种有向链接式分类器构造方法及分类方法。本方法为:1)初始化一已标注训练数据集T的权值分布、一增量集和迭代截止条件;2)对于第m次迭代,采用已标注训练集T(m)训练一弱分类器Gm(x),并用当前的Gm(x)的分类误差率和系数更新已标注训练集T(m)的权值分布;并且利用当前的Gm(x)对一未标注集U进行预测,然后从预测结果中选出置信度最高的前K个样本及其对应的预测标签放入或更新到增量集中;3)当满足迭代截止条件时,停止迭代并根据每次迭代得到的弱分类器构建一强分类器G(x)。该方法通过有价值知识的共享传递与协同指导,充分挖掘与利用已标注和未标注这两种样本,实现了模型信息的有效利用与融合增强。

    一种已标注样本的维护方法及双向学习交互式分类方法

    公开(公告)号:CN104657745A

    公开(公告)日:2015-05-27

    申请号:CN201510046891.9

    申请日:2015-01-29

    Abstract: 本发明公开了一种已标注样本的维护方法及双向学习交互式分类方法。本方法一方面采用正向学习从未标注集中选取最有价值的样本,另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声,从而优化改善已标注集;本发明通过正向学习与反向学习的有机结合、借助人机交互机制,获得高效、优化的海量数据分类模型,对未标注样本进行分类。本发明通过正向学习与反向学习的有机结合,在高效利用标注信息的同时自动优化标注信息,实现高效化、智能化的交互式分类。

    一种用于海量数据管理的多盘位存储方法及系统

    公开(公告)号:CN103761059A

    公开(公告)日:2014-04-30

    申请号:CN201410035889.7

    申请日:2014-01-24

    Abstract: 本发明涉及一种用于海量数据管理的多盘位存储方法及系统,所述方法包括:建立四层树型的数据存储结构,即一个Master节点、位于Master节点下的若干数据存储节点、位于各数据存储节点下的若干磁盘和位于各磁盘下的若干数据分片;在每个数据存储节点上设置一个多盘位管理器,用于维护当前数据存储节点的磁盘信息,并在多盘位管理器的管理下,在磁盘中进行数据分片的增加或删除;通过多盘位管理器,对各数据存储节点之间的负载进行负载均衡分析,且同时对数据存储节点内部各磁盘间的负载进行负载均衡分析。本发明既能充分利用多盘的并行读写的特点,又能够最小化数据盘出现故障时对其他盘的数据的影响,同时还能够不增加数据的冗余度,大大提高了系统效率。

    一种分布式元数据管理方法及系统

    公开(公告)号:CN103729436A

    公开(公告)日:2014-04-16

    申请号:CN201310741599.X

    申请日:2013-12-27

    CPC classification number: G06F17/30289 G06F17/30371

    Abstract: 本发明涉及一种分布式元数据管理方法及系统,所述方法具体包括:存储步骤,划分独立的元数据节点和用户表节点,分别用于存储元数据和用户表,并采用多个元数据节点存储元数据的多副本,形成存储相同元数据的主副本节点和从副本节点;校验步骤,对主副本节点和从副本节点进行数据校验,以保证主副本节点和从副本节点存储的元数据一致;修复步骤,采用ZooKeeper技术建立基于主副本节点和从副本节点的监视环,当监视到有主副本节点或从副本节点宕机时,其触发主副本节点和从副本节点之间的切换,实现对宕机节点的修复。所述系统与分布式元数据管理方法的技术方案一一对应。本发明解决了元数据管理中存在的单点故障和多幅本间一致性等问题。

Patent Agency Ranking