Kubernetes环境下的Spark数据本地性优化系统

    公开(公告)号:CN119781931A

    公开(公告)日:2025-04-08

    申请号:CN202411896740.8

    申请日:2024-12-23

    Inventor: 路正亮 归琳 任锐

    Abstract: 一种KUBERNETES环境下的SPARK数据本地性优化系统,包括:Spark驱动模块和Kubernetes网络插件模块,其中:Spark驱动模块根据客户端的计算任务请求,调用系统指令获取HDFS的网络地址IP和集群相关信息并根据该网络地址IP信息计算数据本地性后对计算任务进行节点分配;Kubernetes网络插件模块接收Spark驱动模块的调用并对计算任务指定所在容器的IP网络地址。本发明通过优化Spark驱动模块和调整Kubernetes内网络插件改进在Kubernetes环境中Spark的数据本地性,能够实现Spark作业对HDFS数据IP地址的识别的同时显著降低Spark任务执行过程中的网络传输吞吐开销,进而优化Spark在Kubernetes环境下的作业执行性能。

Patent Agency Ranking