-
公开(公告)号:CN117194440B
公开(公告)日:2024-02-13
申请号:CN202311479042.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/22
Abstract: 本申请公开了数据库索引压缩方法、装置、电子设备及存储介质,涉及索引技术领域。通过获取包括多个叶子节点的索引树,对叶子节点列表中叶子节点提取公共前缀。在叶子节点列表中确定初始滑窗的第一边界和第二边界,并计算第一收益,根据第二边界移动至下一个索引值得到的预设边界计算第二收益。若第二收益大于或等于第一收益,则满足预设条件,对第二边界进行更新得到第二滑窗。将第二滑窗作为初始滑窗,迭代执行上述过程,直至不满足预设条件,从而获取初始滑窗的公共前缀。利用公共前缀对初始滑窗中叶子节点的索引值进行压缩。由此通过设置滑窗并根据收益更新滑窗,利用不同的公共前缀压缩不同滑窗中的索引值,有效提高了数据库索引压缩率。
-
公开(公告)号:CN117194355B
公开(公告)日:2024-02-13
申请号:CN202311479500.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/174 , G06F16/14 , G06F3/06
Abstract: 本申请实施例提供了一种基于数据库的数据处理方法、装置和电子设备,属于数据处理技术领域。该方法包括:根据新增数据表的数据类型筛选出选中数据表,从选中数据表中提取预设批量大小。根据预设批量大小和预设值构建预设批量范围,预设批量范围包括多个第一批量大小,根据第一批量大小对新增数据表进行压缩,得到多个候选数据表。获取每一候选数据表的第一扫描时间,将最小的第一扫描时间对应的第一批量大小作为目标批量大小;按目标批量大小对新增数据表进行压缩,得到目标数据表。按目标批量大小对新增数据表进行压缩时,得到的目标数据表扫描时间最小,因此实现了解压速度和压缩率之间的平衡。
-
公开(公告)号:CN117194440A
公开(公告)日:2023-12-08
申请号:CN202311479042.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/22
Abstract: 本申请公开了数据库索引压缩方法、装置、电子设备及存储介质,涉及索引技术领域。通过获取包括多个叶子节点的索引树,对叶子节点列表中叶子节点提取公共前缀。在叶子节点列表中确定初始滑窗的第一边界和第二边界,并计算第一收益,根据第二边界移动至下一个索引值得到的预设边界计算第二收益。若第二收益大于或等于第一收益,则满足预设条件,对第二边界进行更新得到第二滑窗。将第二滑窗作为初始滑窗,迭代执行上述过程,直至不满足预设条件,从而获取初始滑窗的公共前缀。利用公共前缀对初始滑窗中叶子节点的索引值进行压缩。由此通过设置滑窗并根据收益更新滑窗,利用不同的公共前缀压缩不同滑窗中的索引值,有效提高了数据库索引压缩率。
-
公开(公告)号:CN117194355A
公开(公告)日:2023-12-08
申请号:CN202311479500.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/174 , G06F16/14 , G06F3/06
Abstract: 本申请实施例提供了一种基于数据库的数据处理方法、装置和电子设备,属于数据处理技术领域。该方法包括:根据新增数据表的数据类型筛选出选中数据表,从选中数据表中提取预设批量大小。根据预设批量大小和预设值构建预设批量范围,预设批量范围包括多个第一批量大小,根据第一批量大小对新增数据表进行压缩,得到多个候选数据表。获取每一候选数据表的第一扫描时间,将最小的第一扫描时间对应的第一批量大小作为目标批量大小;按目标批量大小对新增数据表进行压缩,得到目标数据表。按目标批量大小对新增数据表进行压缩时,得到的目标数据表扫描时间最小,因此实现了解压速度和压缩率之间的平衡。
-
公开(公告)号:CN115309745B
公开(公告)日:2025-05-13
申请号:CN202210976474.4
申请日:2022-08-15
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F16/22 , G06F16/2455
Abstract: 本申请公开了一种键值对存储方法、装置、设备及介质,涉及计算机技术领域,包括:确定出键值对存储桶组中的键值对存储桶,并判断键值对存储桶内的剩余容量是否小于待存储键值对的占用容量;若键值对存储桶内的剩余容量小于待存储键值对的占用容量,则判断预先获取的键值对虚拟桶组的重散列次数与本地哈希表的延展次数之间的大小关系;若重散列次数小于延展次数,则确定出键值对转移存储桶组,并将属于键值对虚拟桶组中的历史键值对转移并存储至键值对转移存储桶组;确定出目标键值对存储桶,并将待存储键值对存储至目标键值对存储桶。本申请能够提高键值对存储效率,提高读取密集和读取偏斜场景下索引的读性能,并减少维护索引完美性的开销。
-
公开(公告)号:CN115309745A
公开(公告)日:2022-11-08
申请号:CN202210976474.4
申请日:2022-08-15
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F16/22 , G06F16/2455
Abstract: 本申请公开了一种键值对存储方法、装置、设备及介质,涉及计算机技术领域,包括:确定出键值对存储桶组中的键值对存储桶,并判断键值对存储桶内的剩余容量是否小于待存储键值对的占用容量;若键值对存储桶内的剩余容量小于待存储键值对的占用容量,则判断预先获取的键值对虚拟桶组的重散列次数与本地哈希表的延展次数之间的大小关系;若重散列次数小于延展次数,则确定出键值对转移存储桶组,并将属于键值对虚拟桶组中的历史键值对转移并存储至键值对转移存储桶组;确定出目标键值对存储桶,并将待存储键值对存储至目标键值对存储桶。本申请能够提高键值对存储效率,提高读取密集和读取偏斜场景下索引的读性能,并减少维护索引完美性的开销。
-
-
-
-
-