Patent search ap:("东南大学") AND inv:"万雨桐" Page 1

1.

发明公开
一种提高Spark SQL的查询效率的方法失效

公开(公告)号：CN108710640A

公开(公告)日：2018-10-26

申请号：CN201810351379.9

申请日：2018-04-17

Applicant: 东南大学

Inventor： 宋爱波 , 万雨桐

IPC: G06F17/30

Abstract: 本发明公开了一种提高Spark SQL的查询效率的方法。本发明包括步骤S1：构建查询预分析模块，通过估算模型，计算Shuffle产生的中间数据的大小，从而计算出用于缓存所述中间数据的中间数据缓存层的总大小；步骤S2：根据步骤1计算出的中间数据缓存层的总大小，结合集群中每个结点输入数据的分布情况，通过缓存层分配模块为每个结点设置合理的内存空间大小。本发明能有效地通过Shuffle中间数据缓存处理方法解决Spark SQL查询中磁盘I/O开销较高的问题。

2.

发明授权
一种优化Spark SQL执行工作流的方法有权

公开(公告)号：CN108763489B

公开(公告)日：2022-02-15

申请号：CN201810536078.3

申请日：2018-05-28

Applicant: 东南大学

Inventor： 宋爱波 , 万雨桐

IPC: G06F16/2453 , G06F16/2458

Abstract: 本发明公开了一种优化Spark SQL执行工作流的方法。该方法包括步骤S1：构建Spark任务执行的代价模型，分为读取输入数据的代价，对中间数据进行排序的代价和写输出数据的代价，将三者进行求和得到任务执行的总代价；步骤S2：提出基于代价的相关性合并算法，该算法的思想是对于两个具有输入数据相关性的任务，计算它们分别执行的代价之和与合并成一个任务之后执行的代价，通过比较两者的大小来决定是否将它们进行合并。本发明通过基于代价的相关性合并算法解决Spark SQL查询中对相同的输入数据进行重复读取的问题。

3.

发明公开
一种优化Spark SQL执行工作流的方法有权

公开(公告)号：CN108763489A

公开(公告)日：2018-11-06

申请号：CN201810536078.3

申请日：2018-05-28

Applicant: 东南大学

Inventor： 宋爱波 , 万雨桐

IPC: G06F17/30

Abstract: 本发明公开了一种优化Spark SQL执行工作流的方法。该方法包括步骤S1：构建Spark任务执行的代价模型，分为读取输入数据的代价，对中间数据进行排序的代价和写输出数据的代价，将三者进行求和得到任务执行的总代价；步骤S2：提出基于代价的相关性合并算法，该算法的思想是对于两个具有输入数据相关性的任务，计算它们分别执行的代价之和与合并成一个任务之后执行的代价，通过比较两者的大小来决定是否将它们进行合并。本发明通过基于代价的相关性合并算法解决Spark SQL查询中对相同的输入数据进行重复读取的问题。

4.

发明授权
一种提高Spark SQL的查询效率的方法失效

公开(公告)号：CN108710640B

公开(公告)日：2021-11-12

申请号：CN201810351379.9

申请日：2018-04-17

Applicant: 东南大学

Inventor： 宋爱波 , 万雨桐

IPC: G06F16/2455

Abstract: 本发明公开了一种提高Spark SQL的查询效率的方法。本发明包括步骤S1：构建查询预分析模块，通过估算模型，计算Shuffle产生的中间数据的大小，从而计算出用于缓存所述中间数据的中间数据缓存层的总大小；步骤S2：根据步骤1计算出的中间数据缓存层的总大小，结合集群中每个结点输入数据的分布情况，通过缓存层分配模块为每个结点设置合理的内存空间大小。本发明能有效地通过Shuffle中间数据缓存处理方法解决Spark SQL查询中磁盘I/O开销较高的问题。

Patent Agency Ranking