一种基于分布感知的二元等值连接倾斜优化方法和系统

    公开(公告)号:CN108804626A

    公开(公告)日:2018-11-13

    申请号:CN201810551311.5

    申请日:2018-05-31

    Abstract: 本发明公开了一种基于分布感知的二元等值连接倾斜优化方法,包括:使用两个MapReduce任务对准备进行二元连接操作的两个数据集合R和S分别进行采样,以获得两个样本集合,分别计算样本集合中倾斜键的权重和大小,将二者进行比较,选择比较结果中较大的一个所对应的数据集合作为主表,另一个所对应的数据集合作为副表;获取选定的主表和副表中各个簇的代价估计值,根据该代价估计值确定大簇集合和小簇集合,并为大簇集合和小簇集合分别生成RDD分区方案,使用大簇集合和小簇集合的RDD分区方案对主表和副表进行分区,根据对主表和副表进行分区的结果在Reduce端完成分区内的连接操作。本发明能够解决现有二元连接方法中存在的Reduce端容易发生负载倾斜的技术问题。

    一种基于分布感知的二元等值连接倾斜优化方法和系统

    公开(公告)号:CN108804626B

    公开(公告)日:2019-11-22

    申请号:CN201810551311.5

    申请日:2018-05-31

    Abstract: 本发明公开了一种基于分布感知的二元等值连接倾斜优化方法,包括:使用两个MapReduce任务对准备进行二元连接操作的两个数据集合R和S分别进行采样,以获得两个样本集合,分别计算样本集合中倾斜键的权重和大小,将二者进行比较,选择比较结果中较大的一个所对应的数据集合作为主表,另一个所对应的数据集合作为副表;获取选定的主表和副表中各个簇的代价估计值,根据该代价估计值确定大簇集合和小簇集合,并为大簇集合和小簇集合分别生成RDD分区方案,使用大簇集合和小簇集合的RDD分区方案对主表和副表进行分区,根据对主表和副表进行分区的结果在Reduce端完成分区内的连接操作。本发明能够解决现有二元连接方法中存在的Reduce端容易发生负载倾斜的技术问题。

Patent Agency Ranking