针对Hadoop MapReduce中混洗阶段的优化系统

    公开(公告)号:CN110502337B

    公开(公告)日:2023-02-07

    申请号:CN201910627734.5

    申请日:2019-07-12

    Abstract: 本发明提供了一种针对Hadoop MapReduce中混洗阶段的优化系统,该优化系统以守护进程方式运行在Hadoop MapReduce的工作节点以及主节点中,并使用进程间通信以及远程过程调用的方式与Hadoop MapReduce进行通信。同时提供了一种基于上述优化系统实现的优化方法。本发明所提供的优化系统运行后接管Hadoop MapReduce任务运行中的所有中间数据,通过利用预先合并以及预先混洗的方式,一方面合理利用了Map阶段的空闲网络带宽,另一方面在合并同节点中的中间数据后有效减少小文件读写,从而优化了MapReduce任务的完成时间。

    针对Hadoop MapReduce中混洗阶段的优化系统及方法

    公开(公告)号:CN110502337A

    公开(公告)日:2019-11-26

    申请号:CN201910627734.5

    申请日:2019-07-12

    Abstract: 本发明提供了一种针对Hadoop MapReduce中混洗阶段的优化系统,该优化系统以守护进程方式运行在Hadoop MapReduce的工作节点以及主节点中,并使用进程间通信以及远程过程调用的方式与Hadoop MapReduce进行通信。同时提供了一种基于上述优化系统实现的优化方法。本发明所提供的优化系统运行后接管Hadoop MapReduce任务运行中的所有中间数据,通过利用预先合并以及预先混洗的方式,一方面合理利用了Map阶段的空闲网络带宽,另一方面在合并同节点中的中间数据后有效减少小文件读写,从而优化了MapReduce任务的完成时间。

Patent Agency Ranking