-
公开(公告)号:CN106407224B
公开(公告)日:2019-09-13
申请号:CN201510466697.6
申请日:2015-07-31
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
IPC: G06F16/174
Abstract: 本发明实施例公开了一种键值存储系统中文件压实的方法和装置,涉及数据处理技术领域,用以减少执行压实操作时所需要占用的I/O带宽和内存资源,从而使得在执行压实操作的过程中,不影响执行其他操作的速率,以提升用户体验。本发明实施例提供的方法包括:根据待压实SSTable对应的Delete Log,对待压实SSTable进行压实,生成新的SSTable;其中,该Delete Log中记录有待压实SSTable中保存的键值存储KV‑Store系统中的非最新Value所对应的Key,该新的SSTable中不包含该Delete Log中的Key对应的Key‑Value对;删除待压实SSTable。
-
公开(公告)号:CN107016071B
公开(公告)日:2019-06-18
申请号:CN201710178692.2
申请日:2017-03-23
Applicant: 中国科学院计算技术研究所
IPC: G06F16/81 , G06F16/835 , G06F17/22
Abstract: 本发明提出利用简单路径特征优化的树状结构数据处理方法及系统,该方法包括步骤1,设置简单路径,其中所述简单路径为在数据定义的语法树中,从根节点到叶子节点最多只存在一个多值的域的路径;步骤2,通过在扁平行式结构数据中存储所述的简单路径上叶子节点的信息,获取路径上完整的嵌套结构;步骤3,在对列式数据查询过程中,需要将其组装为行式结构数据,通过简单路径的优化可以简化数据中的层次关系:仅通过叶子节点既可表示从根节点到叶子节点的路径而忽略路径中所有的非叶子节点。本发明中通过分析常见的半结构化数据,定义简单路径的概念,利用简单路径对STEED的数据存储、列式数据组装和查询过程进行了优化,提高了相关操作和功能的效率。
-
公开(公告)号:CN107092656A
公开(公告)日:2017-08-25
申请号:CN201710178695.6
申请日:2017-03-23
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明提出一种树状结构数据处理方法及系统(System for TrEE structured Data,STEED),涉及数据处理技术领域,该系统支持读取文本数据,并将其解析为行式或者列式的二进制格式数据,其中在解析的过程中,动态生成语法树,存储半结构化数据的定义;存储行式或列式的所述二进制格式数据,其中实现对行式或列式的所述二进制格式数据相互转换,以及将所述二进制格式数据直接输出为文本格式的JSON数据;基于所述二进制格式数据,对半结构化数据进行查询操作。
-
公开(公告)号:CN106933882A
公开(公告)日:2017-07-07
申请号:CN201511028360.3
申请日:2015-12-31
Applicant: 华为技术有限公司 , 中国科学院计算技术研究所
IPC: G06F17/30
Abstract: 本发明实施例提供了一种大数据计算方法和装置,实现了大数据计算。该方法包括:根据增量数据、每一个计算步骤的增量传递规则以及每一个计算步骤需要保存的必要数据,计算出大数据计算的增量输出结果,其中,该必要数据包括完整输入、完整输出中的至少一项,每一个计算步骤需要保存的必要数据在进行完整计算或增量计算时根据每一个计算步骤的增量传递规则进行保存;根据增量输出结果与大数据计算的原始输出结果,确定最终计算结果。将大数据计算分为至少两个计算步骤,通过每一个计算步骤的增量传递规则,以细粒度的方式进行大数据的增量计算,从而提升了大数据增量计算的效率。
-
公开(公告)号:CN105095371A
公开(公告)日:2015-11-25
申请号:CN201510370342.7
申请日:2015-06-29
Applicant: 清华大学 , 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30333 , G06F17/30442 , G06F17/30554
Abstract: 提供了时序图的图数据管理方法和装置,图由顶点和边组成。图数据管理方法包括:获得时序图的事件数据;以及以二维空间-时间数据块C=(Vc,Tc)形式组织时序图的数据并存储在存储设备上,一个维度是时间维度,另一个维度是顶点维度,数据块C=(Vc,Tc)保存一个时间区间[sc,tc]中与顶点集合Vc相关的数据,所述数据块C=(Vc,Tc)逻辑上包括与顶点集合Vc相关的、在时刻sc处图的快照以及在时间区间[sc,tc]内发生事件的日志,其中Vc是顶点集合,Tc指示时间区间,Tc=[sc,tc],sc表示该时间区间的起始时刻,tc表示该时间区间的结束时刻。根据本发明实施例的时序图的图数据管理方法和图数据管理装置,以二维空间-时间数据块形式组织时序图,适合于高效地存储和查询时序图数据。
-
公开(公告)号:CN112597254B
公开(公告)日:2023-02-03
申请号:CN202011439569.X
申请日:2020-12-07
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提出一种面向混合DRAM‑NVM主存的联机事务型数据库系统,包括:用于缓存数据的DRAM和用于持久存储数据的NVM;NVM通过第一数据表记录NVM中存储的多个数据元组,用于事务处理并发控制的元信息仅保存在DRAM中,即NVM中该数据元组不保存并发控制的元信息,根据访问任务将该数据元组以元组为粒度缓存至DRAM,且在数据元组缓存至DRAM时为每个数据元组增加并发控制元信息,DRAM通过第二数据表记录数据元组及其对应的并发控制元信息;该联机事务型数据库系统还包括混合数据表,该混合数据表包括该第一数据表、该第二数据表,以及用于管理该第一数据表和第二数据表的管理模块。
-
公开(公告)号:CN107016071A
公开(公告)日:2017-08-04
申请号:CN201710178692.2
申请日:2017-03-23
Applicant: 中国科学院计算技术研究所
CPC classification number: G06F17/2247 , G06F16/81 , G06F16/8365 , G06F16/8373
Abstract: 本发明提出利用简单路径特征优化的树状结构数据处理方法及系统,该方法包括步骤1,设置简单路径,其中所述简单路径为在数据定义的语法树中,从根节点到叶子节点最多只存在一个多值的域的路径;步骤2,通过在扁平行式结构数据中存储所述的简单路径上叶子节点的信息,获取路径上完整的嵌套结构;步骤3,在对列式数据查询过程中,需要将其组装为行式结构数据,通过简单路径的优化可以简化数据中的层次关系:仅通过叶子节点既可表示从根节点到叶子节点的路径而忽略路径中所有的非叶子节点。本发明中通过分析常见的半结构化数据,定义简单路径的概念,利用简单路径对STEED的数据存储、列式数据组装和查询过程进行了优化,提高了相关操作和功能的效率。
-
公开(公告)号:CN111274456B
公开(公告)日:2023-09-12
申请号:CN202010064770.8
申请日:2020-01-20
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901
Abstract: 本发明公开了一种基于NVM的数据索引方法,包括:于NVM主存设置树状索引结构的叶子节点;将新增数据写入叶子节点时,判断叶子节点是否存在空闲索引项,若存在,则进行数据写入操作,反之则进行并完成节点分裂操作后再进行数据写入操作;其中,数据写入操作包括:若叶子节点的首索引行存在空闲索引项,则将新增数据写入空闲索引项;反之则将新增数据和首索引行内存储的已存数据迁移至中间索引行和/或尾索引行的空闲索引项;节点分裂操作包括:构建新叶子节点,将叶子节点的部分已存数据迁移至新叶子节点的空闲索引项。
-
公开(公告)号:CN111274456A
公开(公告)日:2020-06-12
申请号:CN202010064770.8
申请日:2020-01-20
Applicant: 中国科学院计算技术研究所
IPC: G06F16/901
Abstract: 本发明公开了一种基于NVM的数据索引方法,包括:于NVM主存设置树状索引结构的叶子节点;将新增数据写入叶子节点时,判断叶子节点是否存在空闲索引项,若存在,则进行数据写入操作,反之则进行并完成节点分裂操作后再进行数据写入操作;其中,数据写入操作包括:若叶子节点的首索引行存在空闲索引项,则将新增数据写入空闲索引项;反之则将新增数据和首索引行内存储的已存数据迁移至中间索引行和/或尾索引行的空闲索引项;节点分裂操作包括:构建新叶子节点,将叶子节点的部分已存数据迁移至新叶子节点的空闲索引项。
-
公开(公告)号:CN111046630A
公开(公告)日:2020-04-21
申请号:CN201911240324.1
申请日:2019-12-06
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种JSON数据的语法树提取方法,包括:对给定的数据集中的JSON数据进行采样,记录JSON记录结构树;遍历所有的JSON记录结构树以累加生成一个统计结构树;遍历统计结构树中每个节点的计数器,将JSON记录中的域划分为稀疏域和非稀疏域;将特征相同的稀疏域归类到一起,形成相同特征的域的归类;基于非稀疏域、相同特征的域的归类生成语法树的初始状态:根据语法树的初始状态,对给定的数据集中的所有JSON记录逐条进行解析,动态构建数据集对应的语法树。本发明通过对JSON数据记录(Record)中的稀疏的域按照特征进行归类,提高了语法树的组织效率;通过对具有相同特征的域进行归类,减少了解析后的数据的列式文件数量,从而提高了在后续查询过程中的效率。
-
-
-
-
-
-
-
-
-