一种基于Spark计算框架的大表连接优化方法

    公开(公告)号:CN113868230B

    公开(公告)日:2024-06-04

    申请号:CN202111220042.2

    申请日:2021-10-20

    Abstract: 本发明涉及一种基于Spark计算框架的大表连接优化方法,属于大数据计算领域。该方法包括:S1:利用谓词下推结合压缩布隆过滤器进行数据清洗,过滤掉大表中大量无效的数据,避免大量无用数据进入到shuffle阶段;S2:搭建基于Spark的数据倾斜检测模型,通过蓄水池采样算法统计出全局Map阶段Key值分布;S3:采用中间数据簇分割策略,对倾斜数据簇根据平均负载额定容量进行切割,使出现频次多的Key进入到其他处理快的分区中,使Key处于均匀分布状态。本发明能滤掉大量无用数据,改进数据倾斜情况,缩短连接查询时间,解决Spark集群节点内存溢出问题,提高用户满意度。

    一种基于Spark计算框架的大表连接优化方法

    公开(公告)号:CN113868230A

    公开(公告)日:2021-12-31

    申请号:CN202111220042.2

    申请日:2021-10-20

    Abstract: 本发明涉及一种基于Spark计算框架的大表连接优化方法,属于大数据计算领域。该方法包括:S1:利用谓词下推结合压缩布隆过滤器进行数据清洗,过滤掉大表中大量无效的数据,避免大量无用数据进入到shuffle阶段;S2:搭建基于Spark的数据倾斜检测模型,通过蓄水池采样算法统计出全局Map阶段Key值分布;S3:采用中间数据簇分割策略,对倾斜数据簇根据平均负载额定容量进行切割,使出现频次多的Key进入到其他处理快的分区中,使Key处于均匀分布状态。本发明能滤掉大量无用数据,改进数据倾斜情况,缩短连接查询时间,解决Spark集群节点内存溢出问题,提高用户满意度。

    一种基于智慧数据平台脏数据清理方法

    公开(公告)号:CN113988817B

    公开(公告)日:2024-04-12

    申请号:CN202111330590.0

    申请日:2021-11-11

    Abstract: 本发明属于脏数据检测与清理领域,涉及一种基于智慧数据平台脏数据清理方法,包括;本发明对原始数据进行检测,并对原始数据进行规范化;将规范化的原始数据进行Hashing处理,得到数据对应的hash数据;使用聚类分析选择hash数据中的最优质心,原始数据中包括已聚类数据、原始分割数据;使用恒等判定公式将已聚类数据与原始分割数据的交集进行恒等判定,寻找出缺失的或不需要的脏数据;对找出的脏数据基于Rider‑Firefly混合算法进行清理;本发明提出的算法在脏数据和干净数据之间的区分能力相对于传统算法具有强鲁棒性。

    基于链上存储的区块链数据存储扩展方法

    公开(公告)号:CN114219477A

    公开(公告)日:2022-03-22

    申请号:CN202111296962.2

    申请日:2021-11-03

    Abstract: 本发明属于区块链技术领域,具体涉及一种基于链上存储的区块链数据存储扩展方法,包括:引入半节点存储部分区块详细数据以及全部区块索引值;引入副链存储哈希区块组数据;区块链网络中各节点对交易数据优化打包;将打包的交易数据发送给背书节点验证,验证后进行区块排序压缩;领导节点对排序压缩的区块进行接受与验证,验证成功将此区块广播至该网络所有节点并上链存储;散列新区块高度达到预设值时,多个连续新区块合为一个哈希区块组,根据各哈希区块组数据存储数量决定新节点是否存储数据,该发明对区块链的数据进行了结构优化与压缩,同时引入半节点减少区块链网络数据的臃肿,并能够保证所有节点在对交易数据查询时的效率以及真实性。

    一种基于智慧数据平台脏数据清理方法

    公开(公告)号:CN113988817A

    公开(公告)日:2022-01-28

    申请号:CN202111330590.0

    申请日:2021-11-11

    Abstract: 本发明属于脏数据检测与清理领域,涉及一种基于智慧数据平台脏数据清理方法,包括;本发明对原始数据进行检测,并对原始数据进行规范化;将规范化的原始数据进行Hashing处理,得到数据对应的hash数据;使用聚类分析选择hash数据中的最优质心,原始数据中包括已聚类数据、原始分割数据;使用恒等判定公式将已聚类数据与原始分割数据的交集进行恒等判定,寻找出缺失的或不需要的脏数据;对找出的脏数据基于Rider‑Firefly混合算法进行清理;本发明提出的算法在脏数据和干净数据之间的区分能力相对于传统算法具有强鲁棒性。

    基于数据存储的安全管理方法

    公开(公告)号:CN113536396A

    公开(公告)日:2021-10-22

    申请号:CN202110839906.2

    申请日:2021-07-20

    Abstract: 本发明涉及一种基于数据存储的安全管理方法,属于信息技术领域,包括以下步骤:S1:用户发送存储请求,系统进行初始化;S2:采用径向基神经网络对数据序列进行处理得到初始向量,再将所述初始向量进行多次加密处理得到带密钥的哈希函数;S3:基于得到的带密钥的哈希函数,将现有的Merkle哈希树MHT扩展成一个编号树,并采用改进的Merkle哈希树IMHT结构构造数据块的验证信息;S4:进行完整性审核,并将完整性审核结果发送给用户。本方法能够有效的提高数据的读写性能,并且使得数据安全操作的性能比当前的标准实现有所提高。

    一种改进离散萤火虫算法的数据仓库ETL调度优化方法

    公开(公告)号:CN113535683A

    公开(公告)日:2021-10-22

    申请号:CN202110834153.6

    申请日:2021-07-20

    Abstract: 本发明涉及一种改进离散萤火虫算法的数据仓库ETL调度优化方法,属于数据库技术领域,包括(1)数据仓库ETL调度优化通过离散萤火虫种群实现各自位置的优化,根据ETL调度任务集合T(i)进行初始化;(2)根据初始化后的萤火虫位置计算萤火虫亮度,萤火虫亮度通过目标函数计算获取;(3)对于萤火虫位置的更新则是根据萤火虫亮度进行移动,分为普通萤火虫的移动和最优萤火虫的移动。普通萤火虫根据自适应步长进行移动,并且表示了移动的方向,最优萤火虫的移动就是寻找当前情况下的最优解;(4)判断迭代次数是否满足条件,不满足继续进行迭代过程,满足则输出全局最优值。本方法提高了ETL访问效率。

Patent Agency Ranking