-
公开(公告)号:CN108710640A
公开(公告)日:2018-10-26
申请号:CN201810351379.9
申请日:2018-04-17
Applicant: 东南大学
IPC: G06F17/30
Abstract: 本发明公开了一种提高Spark SQL的查询效率的方法。本发明包括步骤S1:构建查询预分析模块,通过估算模型,计算Shuffle产生的中间数据的大小,从而计算出用于缓存所述中间数据的中间数据缓存层的总大小;步骤S2:根据步骤1计算出的中间数据缓存层的总大小,结合集群中每个结点输入数据的分布情况,通过缓存层分配模块为每个结点设置合理的内存空间大小。本发明能有效地通过Shuffle中间数据缓存处理方法解决Spark SQL查询中磁盘I/O开销较高的问题。
-
公开(公告)号:CN108763489B
公开(公告)日:2022-02-15
申请号:CN201810536078.3
申请日:2018-05-28
Applicant: 东南大学
IPC: G06F16/2453 , G06F16/2458
Abstract: 本发明公开了一种优化Spark SQL执行工作流的方法。该方法包括步骤S1:构建Spark任务执行的代价模型,分为读取输入数据的代价,对中间数据进行排序的代价和写输出数据的代价,将三者进行求和得到任务执行的总代价;步骤S2:提出基于代价的相关性合并算法,该算法的思想是对于两个具有输入数据相关性的任务,计算它们分别执行的代价之和与合并成一个任务之后执行的代价,通过比较两者的大小来决定是否将它们进行合并。本发明通过基于代价的相关性合并算法解决Spark SQL查询中对相同的输入数据进行重复读取的问题。
-
公开(公告)号:CN108763489A
公开(公告)日:2018-11-06
申请号:CN201810536078.3
申请日:2018-05-28
Applicant: 东南大学
IPC: G06F17/30
Abstract: 本发明公开了一种优化Spark SQL执行工作流的方法。该方法包括步骤S1:构建Spark任务执行的代价模型,分为读取输入数据的代价,对中间数据进行排序的代价和写输出数据的代价,将三者进行求和得到任务执行的总代价;步骤S2:提出基于代价的相关性合并算法,该算法的思想是对于两个具有输入数据相关性的任务,计算它们分别执行的代价之和与合并成一个任务之后执行的代价,通过比较两者的大小来决定是否将它们进行合并。本发明通过基于代价的相关性合并算法解决Spark SQL查询中对相同的输入数据进行重复读取的问题。
-
公开(公告)号:CN108710640B
公开(公告)日:2021-11-12
申请号:CN201810351379.9
申请日:2018-04-17
Applicant: 东南大学
IPC: G06F16/2455
Abstract: 本发明公开了一种提高Spark SQL的查询效率的方法。本发明包括步骤S1:构建查询预分析模块,通过估算模型,计算Shuffle产生的中间数据的大小,从而计算出用于缓存所述中间数据的中间数据缓存层的总大小;步骤S2:根据步骤1计算出的中间数据缓存层的总大小,结合集群中每个结点输入数据的分布情况,通过缓存层分配模块为每个结点设置合理的内存空间大小。本发明能有效地通过Shuffle中间数据缓存处理方法解决Spark SQL查询中磁盘I/O开销较高的问题。
-
-
-