-
公开(公告)号:CN118312472A
公开(公告)日:2024-07-09
申请号:CN202410490129.9
申请日:2024-04-23
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/11 , G06F16/16 , G06F16/13 , G06F18/2431
Abstract: 本申请实施例提供了一种基于数据迁移的数据管理方法及相关设备,用于将具有相关性的数据块进行整理,以尽可能提高迁移效率。本申请实施例方法包括:获取第一待管理文件和第二待管理文件;其中,所述第一待管理文件包括对应不同类别的第一待分类数据块,所述第二待管理文件包括对应不同类别的第二待分类数据块;确定所述第一待分类数据块于所述第一待管理文件的第一标签分类结果;基于所述第一标签分类结果,确定所述第二待分类数据块于所述第二待管理文件的第二标签分类结果;根据所述第二标签分类结果对所述第一待分类数据块及所述第二待分类数据块进行聚类整理,确定存在关联的目标数据块,以将所述目标数据块进行迁移存储。
-
公开(公告)号:CN114422606A
公开(公告)日:2022-04-29
申请号:CN202210249791.6
申请日:2022-03-15
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本申请公开了一种联邦学习的通信开销压缩方法、装置、设备及介质,包括:根据联邦学习中的模型参数在训练前后的变化幅度确定基本参数,并将基本参数所在的卷积核中的所有模型参数确定为待传输参数;基于卷积核的目标特征将卷积核中的待传输参数封装至不同数据包中;对不同数据包中的待传输参数进行二值量化,并对待传输参数对应的索引进行位置编码,如此一来,由于一个卷积核内所有待传输参数的位置信息都是固定的,因此一个索引可以反应整个卷积核中所有待传输参数的位置信息,一定程度上降低了索引的通信开销,同时,本申请通过对待传输参数进行量化,对待传输参数对应的索引进行位置编码,进一步减少了通信开销。
-
公开(公告)号:CN119719054A
公开(公告)日:2025-03-28
申请号:CN202411781662.7
申请日:2024-12-05
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/174 , H03M7/30 , H03M7/40 , G06F18/2323
Abstract: 本申请实施例公开了数据压缩方法及相关装置。本申请实施例方法包括:通过遍历每个分组下待压缩数据中的各个数据单元,计算各个数据单元之间的相似度;根据各个数据单元之间的相似度,确定各个数据单元之间的依赖关系;根据各个数据单元之间的依赖关系,生成依赖关系树;对依赖关系树利用图遍历算法生成各个数据单元的排序结果;基于各个数据单元的排序结果,确定每个分组中各个数据单元的排列顺序,并对每个分组下的待压缩数据进行数据压缩。本申请通过计算数据单元间的相似度并生成依赖关系树,能够挖掘数据间的潜在关联性;通过对依赖关系树利用图遍历算法生成的排序结果来优化数据单元的排列顺序,能够进一步压缩冗余信息,提升数据压缩率。
-
公开(公告)号:CN114422606B
公开(公告)日:2022-06-28
申请号:CN202210249791.6
申请日:2022-03-15
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本申请公开了一种联邦学习的通信开销压缩方法、装置、设备及介质,包括:根据联邦学习中的模型参数在训练前后的变化幅度确定基本参数,并将基本参数所在的卷积核中的所有模型参数确定为待传输参数;基于卷积核的目标特征将卷积核中的待传输参数封装至不同数据包中;对不同数据包中的待传输参数进行二值量化,并对待传输参数对应的索引进行位置编码,如此一来,由于一个卷积核内所有待传输参数的位置信息都是固定的,因此一个索引可以反应整个卷积核中所有待传输参数的位置信息,一定程度上降低了索引的通信开销,同时,本申请通过对待传输参数进行量化,对待传输参数对应的索引进行位置编码,进一步减少了通信开销。
-
公开(公告)号:CN117194440B
公开(公告)日:2024-02-13
申请号:CN202311479042.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/22
Abstract: 本申请公开了数据库索引压缩方法、装置、电子设备及存储介质,涉及索引技术领域。通过获取包括多个叶子节点的索引树,对叶子节点列表中叶子节点提取公共前缀。在叶子节点列表中确定初始滑窗的第一边界和第二边界,并计算第一收益,根据第二边界移动至下一个索引值得到的预设边界计算第二收益。若第二收益大于或等于第一收益,则满足预设条件,对第二边界进行更新得到第二滑窗。将第二滑窗作为初始滑窗,迭代执行上述过程,直至不满足预设条件,从而获取初始滑窗的公共前缀。利用公共前缀对初始滑窗中叶子节点的索引值进行压缩。由此通过设置滑窗并根据收益更新滑窗,利用不同的公共前缀压缩不同滑窗中的索引值,有效提高了数据库索引压缩率。
-
公开(公告)号:CN116996077A
公开(公告)日:2023-11-03
申请号:CN202310953173.4
申请日:2023-07-31
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: H03M7/40
Abstract: 本申请实施例公开了面向时序浮点数据的有损压缩方法、解压方法及设备,用于提升时序浮点数据的数据压缩率以及解压速度。本申请实施例方法包括:获取浮点数组,浮点数组包括依时序排列的多个浮点数据;依次将浮点数组中其他浮点数据确定为目标浮点数据,并从浮点数组中确定目标浮点数据的前一浮点数据;将目标浮点数据与前一浮点数据之差,确定为目标浮点数据的差量数据;基于预设误差界对差量数据进行量化处理,获得目标浮点数据对应的量化差量数据,目标浮点数据对应的有损数据与目标浮点数据之差不大于预设误差界,目标浮点数据对应的有损数据通过对目标浮点数据对应的量化差量数据执行反差量化处理得到;对每个量化差量数据进行压缩处理。
-
公开(公告)号:CN116795808A
公开(公告)日:2023-09-22
申请号:CN202310913228.9
申请日:2023-07-24
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/174 , H03M7/30 , G06F18/22
Abstract: 本申请实施例公开了数据处理方法以及相关设备,用于在降低计算成本的同时,保证特征计算的准确率以及压缩率。本申请实施例方法包括:确定每个数据块对应的多个第一特征值,每个第一特征值表示数据块包含的部分数据内容的特征;根据每个第一特征值所对应部分数据内容,将每个数据块对应的多个第一特征值划分为多组内容分簇,每个数据块对应的内容分簇数量等于预设特征数量;对每个第一特征值执行一次线性变换操作,获得每个第一特征值对应的第二特征值;将每个内容分簇对应的取值最小的第二特征值确定为每个内容分簇所对应数据块的目标特征值;根据每个数据块对应的多个目标特征值,确定每个数据块对应的相似数据块。
-
公开(公告)号:CN114418098A
公开(公告)日:2022-04-29
申请号:CN202210255131.9
申请日:2022-03-16
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明提供一种神经网络差量压缩方法、装置、电子设备及存储介质,该方法在获取到神经网络的两个相邻训练版本时,可为这些版本所包含的各网络层生成专用的量化参数,并利用这些量化参数为对应的网络层进行浮点参数量化处理,得到训练版本对应的整数版本,再利用这些整数版本替代训练版本进行差量数据计算及差量压缩。换而言之,本发明为神经网络模型的每一网络层设置了生成的专用的量化参数,可采用不同力度对每一网络层进行针对性量化,相较于全局量化策略额外考虑了神经网络模型不同网络层之间的参数取值差异,能够有效避免将整个网络的浮点数参数看作一个集合来确定全局的量化参数所导致的量化误差增大及模型的精度下降问题。
-
公开(公告)号:CN117194355B
公开(公告)日:2024-02-13
申请号:CN202311479500.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/174 , G06F16/14 , G06F3/06
Abstract: 本申请实施例提供了一种基于数据库的数据处理方法、装置和电子设备,属于数据处理技术领域。该方法包括:根据新增数据表的数据类型筛选出选中数据表,从选中数据表中提取预设批量大小。根据预设批量大小和预设值构建预设批量范围,预设批量范围包括多个第一批量大小,根据第一批量大小对新增数据表进行压缩,得到多个候选数据表。获取每一候选数据表的第一扫描时间,将最小的第一扫描时间对应的第一批量大小作为目标批量大小;按目标批量大小对新增数据表进行压缩,得到目标数据表。按目标批量大小对新增数据表进行压缩时,得到的目标数据表扫描时间最小,因此实现了解压速度和压缩率之间的平衡。
-
公开(公告)号:CN117194440A
公开(公告)日:2023-12-08
申请号:CN202311479042.3
申请日:2023-11-08
Applicant: 本原数据(北京)信息技术有限公司 , 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/22
Abstract: 本申请公开了数据库索引压缩方法、装置、电子设备及存储介质,涉及索引技术领域。通过获取包括多个叶子节点的索引树,对叶子节点列表中叶子节点提取公共前缀。在叶子节点列表中确定初始滑窗的第一边界和第二边界,并计算第一收益,根据第二边界移动至下一个索引值得到的预设边界计算第二收益。若第二收益大于或等于第一收益,则满足预设条件,对第二边界进行更新得到第二滑窗。将第二滑窗作为初始滑窗,迭代执行上述过程,直至不满足预设条件,从而获取初始滑窗的公共前缀。利用公共前缀对初始滑窗中叶子节点的索引值进行压缩。由此通过设置滑窗并根据收益更新滑窗,利用不同的公共前缀压缩不同滑窗中的索引值,有效提高了数据库索引压缩率。
-
-
-
-
-
-
-
-
-