基于MPP的并行数据挖掘架构及其方法

    公开(公告)号:CN104239555A

    公开(公告)日:2014-12-24

    申请号:CN201410497377.2

    申请日:2014-09-25

    Abstract: 本发明涉及一种基于MPP的并行数据挖掘架构及其方法,其主要技术特点是:该挖掘架构包括一个挖掘引擎节点和多个分布式的挖掘代理节点,该方法是:挖掘引擎节点将当前数据挖掘任务分配给数据挖掘任务负载较少的挖掘代理节点,将其作为该数据挖掘任务的Master挖掘代理节点;Master挖掘代理节点采用数据分布的负载均衡及就近挖掘策略并向挖掘代理节点分发挖掘任务;每个挖掘代理节点按照分配的子任务执行Slaver算子,每个Slaver算子只进行其分配到的数据块的处理。本发明采用MPP方法并结合数据挖掘的特点,实现对海量数据的高速有效地处理,解决了传统数据挖掘软件处理数据量小,运行速度慢的问题,大大提高了数据挖掘算法处理海量数据的效率和数据承载能力。

    基于MPP的并行数据挖掘系统及其实现方法

    公开(公告)号:CN104239555B

    公开(公告)日:2017-07-11

    申请号:CN201410497377.2

    申请日:2014-09-25

    Abstract: 本发明涉及一种基于MPP的并行数据挖掘系统及其实现方法,其主要技术特点是:该系统包括一个挖掘引擎节点和多个分布式的挖掘代理节点,该方法是:挖掘引擎节点将当前数据挖掘任务分配给数据挖掘任务负载较少的挖掘代理节点,将其作为该数据挖掘任务的Master挖掘代理节点;Master挖掘代理节点采用数据分布的负载均衡及就近挖掘策略并向挖掘代理节点分发挖掘任务;每个挖掘代理节点按照分配的子任务执行Slaver算子,每个Slaver算子只进行其分配到的数据块的处理。本发明采用MPP方法并结合数据挖掘的特点,实现对海量数据的高速有效地处理,解决了传统数据挖掘软件处理数据量小,运行速度慢的问题,大大提高了数据挖掘算法处理海量数据的效率和数据承载能力。

Patent Agency Ranking