-
公开(公告)号:CN107391555B
公开(公告)日:2020-08-04
申请号:CN201710422553.X
申请日:2017-06-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/27 , G06F16/2455 , G06F16/23
Abstract: 本发明涉及一种面向Spark‑Sql检索的元数据实时更新方法。该方法在Spark Sql进行检索时,会将使用的元数据进行缓存,将被检索的数据块文件元数据以集合的形式缓存于内存中;当获得文件元数据的增量信息时,将首先检查该增量信息所属的表的检索元数据是否存在于缓存之中,若存在,则将增量的文件元数据增加至缓存的该表文件元数据的集合之中,由此完成Spark Sql检索元数据的增量更新。本发明还提出了对Spark Sql检索元数据增加情况的处理方法,可以实时的对检索元数据的增加情况进行处理,提高检索结果的实时性。本发明可以避免对检索元数据进行经常性的全量更新,以减少更新元数据时的时间和资源开销。
-
公开(公告)号:CN110288507A
公开(公告)日:2019-09-27
申请号:CN201910371230.1
申请日:2019-05-06
Applicant: 中国科学院信息工程研究所
IPC: G06T1/20 , G06F16/901
Abstract: 本发明提出一种基于GPU的多分区强连通图检测方法,包括以下步骤:加载图数据并统一存储格式;在图数据上基于GPU进行第一剪枝操作,检测出1-SCC;在除1-SCC外的部分上选取中心点,从中心点开始并行地前向和后向遍历,更新状态得到SCC和多个分区;在未被检测的图数据上基于GPU进行第二剪枝操作,检测出2-SCC;在未被检测的图数据上检测弱连通区域,并在弱连通区域上每个选取中心点,从中心点开始前向遍历;在弱连通区域的中未被前向遍历到的区域随机选取保存的最后一个顶点做为副中心点,从中心点与副中心点开始后向遍历,再进行第一剪枝操作,再次更新状态得到SCC和分区;通过上述步骤获得全部的SCC。
-
公开(公告)号:CN106127305B
公开(公告)日:2019-07-16
申请号:CN201610439325.9
申请日:2016-06-17
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种针对多源异构数据的异源间相似性度量方法。该方法利用多源异构数据间的语义互补性,基于子空间学习方法,根据马氏距离度量和伪度量约束,将多源异构数据线性投影到一个特征同构空间,消除了异源间的特征异构性,实现了异源间的相似度对比,并在这个空间中充分嵌入异源间的互补信息。本发明对包括多源检索,聚类和分类这样的现实应用有着十分重要的意义。
-
公开(公告)号:CN105045806B
公开(公告)日:2019-04-09
申请号:CN201510304691.9
申请日:2015-06-04
Applicant: 中国科学院信息工程研究所
IPC: G06F16/903
Abstract: 本发明涉及一种面向分位数查询的概要数据动态分裂与维护方法。该方法首先对写入的数据项进行采样,构建q‑digit概要数据;然后按照q‑digit后序遍历的分位数查询规则,查询q‑digit概要数据中数据项的中间点;然后以中间点为基础逆序遍历q‑digit概要数据,建立分割路径,根据分割路径把q‑digit概要数据分裂成两个数据量近似均等的概要数据结构;分裂以后每个结构仍然是独立的q‑digit结构,可以正常接收并处理新到达的数据源。本发明可用于分布式环境下q‑digit概要数据的动态管理,有效支持大数据环境下概要数据的维护与管理,有效支持分位数查询与计算。
-
公开(公告)号:CN108319645A
公开(公告)日:2018-07-24
申请号:CN201711420097.1
申请日:2017-12-25
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F17/30557 , G06F11/1458 , G06F17/30386 , G06F17/30554 , G06F17/30575
Abstract: 本发明涉及一种异构存储环境下多版本文件视图管理方法和装置。该方法包括:抽取异构存储环境下的多版本数据的元数据信息,利用元数据信息形成关系表结构,并利用关系型数据库对元数据进行集中存储;通过逻辑卷整合分布在不同存储位置的多版本数据,实现介质无关的多版本数据的管理与组织;利用SQL语法规则实现对元数据的访问控制与选择过滤,并在文件视图中以目录树的形式展示和管理异构存储环境下的多版本数据。本发明能够针对本地存储、云存储等异构存储环境,针对增量备份、差量备份、全量备份等不同备份策略,实现高性能的多版本文件视图管理。
-
公开(公告)号:CN107729177A
公开(公告)日:2018-02-23
申请号:CN201710841028.1
申请日:2017-09-18
Applicant: 中国科学院信息工程研究所
CPC classification number: G06F11/1464 , G06F3/0647 , G06F3/067 , H04L67/1095
Abstract: 本发明涉及一种基于云存储的备份数据存储管理方法、装置和系统。备份控制端进行备份作业、恢复作业、迁移作业的管理和调度;备份客户端执行备份作业时将数据复制到本地存储端,执行恢复作业时接收本地存储端或云储存端发送的数据;本地存储端执行备份作业时接收来自备份客户端的数据并将其写入本地存储介质;执行迁移作业时将本地存储介质内的数据迁移到云存储端,执行恢复任务时将本地存储介质内的数据复制到备份客户端;云存储端执行迁移任务时接收来自本地存储端的迁移数据,执行恢复任务时将云存储设备内的数据复制到备份客户端。本发明充分结合了本地存储的高效性与云存储的可靠性,在提升备份效率的同时实现了备份数据云存储的目标。
-
公开(公告)号:CN104657744B
公开(公告)日:2017-10-24
申请号:CN201510046879.8
申请日:2015-01-29
Applicant: 中国科学院信息工程研究所
IPC: G06K9/62
Abstract: 本发明公开了一种基于非确定主动学习的多分类器训练方法及分类方法。本方法为:1)选取或初始化一多分类器;对未标注样本集中的每一样本,利用该多分类器计算该样本的总体信息量Info;所述总体信息量为:模型变更信息量与模型调优信息量之和;2)对该未标注样本集进行聚类,得到J个子类;3)从每个子类中选取总体信息量Info值最小的若干未标注样本;再从所选样本中选取K个样本进行标注后加入到已标注样本集L;4)将更新后的已标注集L作为训练数据重新训练该多分类器;5)迭代执行步骤1)~4)设定次数;然后利用最终得到的多分类器对未标注集进行分类。本发明实现样本信息量的综合评价,从而获得高效化、智能化的多分类器。
-
公开(公告)号:CN104657434B
公开(公告)日:2017-10-24
申请号:CN201510050126.4
申请日:2015-01-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种社交网络结构构建方法。本方法为:1)基于待构建社交网络的社交网络图模型G=(V,L),获取用户之间交互行为的加权链接矩阵以及该社交网络的用户属性矩阵F;2)将加权链接矩阵和用户属性矩阵合并,构建一综合信息矩阵N;3)根据综合信息矩阵N,对||W||0+λrank(W)求最小化,得到该社交网络的链接强度矩阵W;最小化约束条件为N=NW,diag(W)=0,W≥0;4)将该链接强度矩阵W作为该社交网络图模型中边集L的权重信息,得到G=(V,LW),构建出该社交网络的网络结构。本方法可实现对社交网络整体结构的建模,从而获得社交网络中任意用户之间相互关系的真实、可靠度量,且求解效率高。
-
公开(公告)号:CN103809981B
公开(公告)日:2017-06-23
申请号:CN201410066581.9
申请日:2014-02-26
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种通用文件系统的操作获取记录的方法,包括以下步骤:1:为文件操作截获模块与外部文件系统建立连接;2:判断是否是首次连接,如果是,执行步骤3;否则,执行步骤4;3:对不存在对应通信设备的空闲设备号进行创建通信设备,并对创建的通信设备与空闲设备号创建连接;4:接收并向文件操作截获模块发送截获指令信息;5:按照截获指令信息截获操作信息;6:将截获的操作信息发送到通信设备,将接收到的文件的操作信息发送到用户态操作记录模块;7:将处理后的操作信息按照不同类型写入存储空间;8:断开连接,完成卸载。本发明从文件系统级别掌握用户操作的特点,便于进一步的基于用户行为的数据分析和文件系统的特性改进等。
-
公开(公告)号:CN103761059B
公开(公告)日:2017-02-08
申请号:CN201410035889.7
申请日:2014-01-24
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种用于海量数据管理的多盘位存储方法及系统,所述方法包括:建立四层树型的数据存储结构,即一个Master节点、位于Master节点下的若干数据存储节点、位于各数据存储节点下的若干磁盘和位于各磁盘下的若干数据分片;在每个数据存储节点上设置一个多盘位管理器,用于维护当前数据存储节点的磁盘信息,并在多盘位管理器的管理下,在磁盘中进行数据分片的增加或删除;通过多盘位管理器,对各数据存储节点之间的负载进行负载均衡分析,且同时对数据存储节点内部各磁盘间的负载进行负载均衡分析。本发明既能充分利用多盘的并行读写的特点,又能够最小化数据盘出现故障时对其他盘的数据的影响,同时还能够不增加数据的冗余度,大大提高了系统效率。
-
-
-
-
-
-
-
-
-