-
公开(公告)号:CN106874215B
公开(公告)日:2020-02-07
申请号:CN201710160862.4
申请日:2017-03-17
Applicant: 重庆邮电大学
IPC: G06F12/02 , G06F12/0806
Abstract: 本发明公开了一种基于Spark算子的序列化存储优化方法,包括以下步骤:S1)使用ganglia检测应用执行过程中机器的内存使用量,如果检测到当前内存值正常,则继续监测,若检测到已达到指定阈值,则执行步骤S2);S2)计算RDD的执行时间和RDD的执行效率;S3)根据公式(5)得到已排序的RDD序列,即序列化候选集合;S4)从序列化候选集合中选择值最小的进行序列化存储;S5)继续步骤1),直到应用执行完毕。本发明实现在应用执行过程中高效存储有价值的RDD缓存,从而提高内存的使用率。相比与现有的缓存使用方案,本方法应用于现有的Spark大数据平台上,能够在内存资源有限时使整个应用保持较高的执行效率。
-
公开(公告)号:CN106874215A
公开(公告)日:2017-06-20
申请号:CN201710160862.4
申请日:2017-03-17
Applicant: 重庆邮电大学
IPC: G06F12/02 , G06F12/0806
Abstract: 本发明公开了一种基于Spark算子的序列化存储优化方法,包括以下步骤:S1)使用ganglia检测应用执行过程中机器的内存使用量,如果检测到当前内存值正常,则继续监测,若检测到已达到指定阈值,则执行步骤S2);S2)计算RDD的执行时间和RDD的执行效率;S3)根据公式(5)得到已排序的RDD序列,即序列化候选集合;S4)从序列化候选集合中选择值最小的进行序列化存储;S5)继续步骤1),直到应用执行完毕。本发明实现在应用执行过程中高效存储有价值的RDD缓存,从而提高内存的使用率。相比与现有的缓存使用方案,本方法应用于现有的Spark大数据平台上,能够在内存资源有限时使整个应用保持较高的执行效率。
-