一种基于机器学习的Hadoop参数自动调优方法及系统

    公开(公告)号:CN106202431B

    公开(公告)日:2019-06-28

    申请号:CN201610550098.7

    申请日:2016-07-13

    Abstract: 本发明属于大数据处理技术领域,涉及一种基于机器学习的Hadoop参数的自动调优方法及系统。本发明根据不同应用程序的资源消耗特征聚类分组,并针对不同组应用建立不同的性能模型,自动得到对不同类应用影响较大的不同参数,并给出定量参数建议值。系统包括离线模块和在线模块,离线模块包括Hadoop数据收集器、聚类器和性能模型构建子模块;在线模块包括作业管理器、优化器、资源消耗特征匹配器和作业探查器。本发明有效解决了现有的基于经验规律的方法对用户经验的高依赖问题和定性参数建议的限制问题;同时本发明将参数优化系统和Hadoop系统分离,降低系统耦合度,减少人工开销,避免人为误判,并且便于系统扩展与维护。

    一种基于机器学习的Hadoop参数自动调优方法及系统

    公开(公告)号:CN106202431A

    公开(公告)日:2016-12-07

    申请号:CN201610550098.7

    申请日:2016-07-13

    CPC classification number: G06F16/2471 G06F16/217 G06F16/285

    Abstract: 本发明属于大数据处理技术领域,涉及一种基于机器学习的Hadoop参数的自动调优方法及系统。本发明根据不同应用程序的资源消耗特征聚类分组,并针对不同组应用建立不同的性能模型,自动得到对不同类应用影响较大的不同参数,并给出定量参数建议值。系统包括离线模块和在线模块,离线模块包括Hadoop数据收集器、聚类器和性能模型构建子模块;在线模块包括作业管理器、优化器、资源消耗特征匹配器和作业探查器。本发明有效解决了现有的基于经验规律的方法对用户经验的高依赖问题和定性参数建议的限制问题;同时本发明将参数优化系统和Hadoop系统分离,降低系统耦合度,减少人工开销,避免人为误判,并且便于系统扩展与维护。

    基于点信息同步的动态流式图并行抽样方法

    公开(公告)号:CN106100921A

    公开(公告)日:2016-11-09

    申请号:CN201610406969.8

    申请日:2016-06-08

    Abstract: 本发明提供一种基于点信息同步的动态流式图并行抽样方法,具体为:S1.流式边到达滑动窗口,判断窗口是否满,如果不满则执行S1,否则执行S2;S2.将滑动窗口中的边按序随机分配给多个抽样器;S3.多个抽样器对被分配的边并行处理得到抽样子图;S4.读取抽样器的点集,去除重复的点,刷新全局点集合;S5.更新全局点推导的边集;S6.调整抽样目标点集数量;S7.如果未到设定的采集抽样子图时间点,更新滑动窗口,返回S1;否则执行S8;S8.根据每个抽样器的抽样结果合成抽样子图。本发明在快速获得抽样子图的同时,保证抽样子图与原图的特性相似度高,解决了动态流式图串行抽样算法处理时间长、不能满足实时性要求的问题。

    一种基于多外存设备多队列的I/O管理方法

    公开(公告)号:CN109343943A

    公开(公告)日:2019-02-15

    申请号:CN201811040593.9

    申请日:2018-09-07

    Abstract: 本发明公开了一种基于多外存设备多队列的I/O管理方法,包括:将边块文件划分成大小相等的条带单元,条带单元以递增的顺序循环地条带化到条带化文件中;采用上述条带化方式,对原始I/O请求进行地址映射;判断原始I/O请求是否需要分解,如果是,将其分解成对齐条带单元边界的多个新I/O请求;否则,直接将其映射成等长的新I/O请求;对新I/O请求进行预取合并;将新I/O请求分派到对应外存设备的相应的I/O任务队列。本发明通过基于多外设多队列的I/O管理,确保每个I/O请求只由一个外存设备服务,每个应用I/O线程专用于一个外存设备,通过对新I/O请求的预取合并,将多个小的请求合并成一个大的I/O请求,有效地减少了对外存设备的访问次数,使得多外存I/O性能充分发挥。

    匹配顺序大I/O负载特征的粗粒度条带化方法及系统

    公开(公告)号:CN109508234B

    公开(公告)日:2023-03-10

    申请号:CN201811053421.5

    申请日:2018-09-11

    Abstract: 本发明公开了一种匹配顺序大I/O负载特征的粗粒度条带化方法及系统,其中,该方法包括:图数据的分区;条带深度的确定;边块文件的条带化。本发明提出的匹配顺序大I/O负载特征的粗粒度条带化方法,将经过图分区处理后的所有边块文件,以匹配图数据访问特征的粗粒度条带深度,按照更新顺序条带化到一对一存储在多个外存设备的多个条带化文件中,在应用层实现图数据的多盘粗粒度条带化分布。本发明能保证每盘的顺序访问和减少设备I/O次数进而有效提高每个盘的I/O吞吐量,并为实现应用层高效I/O管理和发挥多盘并行I/O能力提供基础。

    一种基于多外存设备多队列的I/O管理方法

    公开(公告)号:CN109343943B

    公开(公告)日:2021-08-03

    申请号:CN201811040593.9

    申请日:2018-09-07

    Abstract: 本发明公开了一种基于多外存设备多队列的I/O管理方法,包括:将边块文件划分成大小相等的条带单元,条带单元以递增的顺序循环地条带化到条带化文件中;采用上述条带化方式,对原始I/O请求进行地址映射;判断原始I/O请求是否需要分解,如果是,将其分解成对齐条带单元边界的多个新I/O请求;否则,直接将其映射成等长的新I/O请求;对新I/O请求进行预取合并;将新I/O请求分派到对应外存设备的相应的I/O任务队列。本发明通过基于多外设多队列的I/O管理,确保每个I/O请求只由一个外存设备服务,每个应用I/O线程专用于一个外存设备,通过对新I/O请求的预取合并,将多个小的请求合并成一个大的I/O请求,有效地减少了对外存设备的访问次数,使得多外存I/O性能充分发挥。

    基于点信息同步的动态流式图并行抽样方法

    公开(公告)号:CN106100921B

    公开(公告)日:2020-06-02

    申请号:CN201610406969.8

    申请日:2016-06-08

    Abstract: 本发明提供一种基于点信息同步的动态流式图并行抽样方法,具体为:S1.流式边到达滑动窗口,判断窗口是否满,如果不满则执行S1,否则执行S2;S2.将滑动窗口中的边按序随机分配给多个抽样器;S3.多个抽样器对被分配的边并行处理得到抽样子图;S4.读取抽样器的点集,去除重复的点,刷新全局点集合;S5.更新全局点推导的边集;S6.调整抽样目标点集数量;S7.如果未到设定的采集抽样子图时间点,更新滑动窗口,返回S1;否则执行S8;S8.根据每个抽样器的抽样结果合成抽样子图。本发明在快速获得抽样子图的同时,保证抽样子图与原图的特性相似度高,解决了动态流式图串行抽样算法处理时间长、不能满足实时性要求的问题。

    一种基于I/O去重的多任务图处理方法及系统

    公开(公告)号:CN106095552B

    公开(公告)日:2019-06-28

    申请号:CN201610399043.0

    申请日:2016-06-07

    Abstract: 本发明公开了一种基于I/O去重的多任务图处理方法及其系统,属于计算机存储领域。该方法采用专用I/O线程通过异步方式从外存中读取图数据,并加载到内存的共享缓冲区;并行执行图处理任务,在任务执行过程中从共享缓冲区访问图数据。本发明通过提供统一访问外存图数据的方法实现了I/O重用,通过共享缓存的设计协调了并行任务的执行速度,解决了当前外存模式图处理系统在处理并发多任务时,请求图数据出现I/O冲突和数据重复的问题,优化了并行任务的数据等待时间。

    匹配顺序大I/O负载特征的粗粒度条带化方法及系统

    公开(公告)号:CN109508234A

    公开(公告)日:2019-03-22

    申请号:CN201811053421.5

    申请日:2018-09-11

    Abstract: 本发明公开了一种匹配顺序大I/O负载特征的粗粒度条带化方法及系统,其中,该方法包括:图数据的分区;条带深度的确定;边块文件的条带化。本发明提出的匹配顺序大I/O负载特征的粗粒度条带化方法,将经过图分区处理后的所有边块文件,以匹配图数据访问特征的粗粒度条带深度,按照更新顺序条带化到一对一存储在多个外存设备的多个条带化文件中,在应用层实现图数据的多盘粗粒度条带化分布。本发明能保证每盘的顺序访问和减少设备I/O次数进而有效提高每个盘的I/O吞吐量,并为实现应用层高效I/O管理和发挥多盘并行I/O能力提供基础。

    一种基于I/O去重的多任务图处理方法及系统

    公开(公告)号:CN106095552A

    公开(公告)日:2016-11-09

    申请号:CN201610399043.0

    申请日:2016-06-07

    CPC classification number: G06F9/4806 G06F16/51

    Abstract: 本发明公开了一种基于I/O去重的多任务图处理方法及其系统,属于计算机存储领域。该方法采用专用I/O线程通过异步方式从外存中读取图数据,并加载到内存的共享缓冲区;并行执行图处理任务,在任务执行过程中从共享缓冲区访问图数据。本发明通过提供统一访问外存图数据的方法实现了I/O重用,通过共享缓存的设计协调了并行任务的执行速度,解决了当前外存模式图处理系统在处理并发多任务时,请求图数据出现I/O冲突和数据重复的问题,优化了并行任务的数据等待时间。

Patent Agency Ranking