基于Spark内存计算大数据平台的CLR多标签数据分类方法

    公开(公告)号:CN106528874B

    公开(公告)日:2019-07-19

    申请号:CN201611120338.6

    申请日:2016-12-08

    Abstract: 本发明提供一种基于Spark大数据平台的CLR多标签分类方法,涉及数据挖掘技术。本发明通过特征与标签的关系将每个数据集划分成一个区;将训练集中的数据集随机抽取一部分当作测试集,剩余的数据集当训练集建立基分类器,再将测试集用来测试分类器并修改其基分类器的参数,从而在训练的多个基分类器中选取最好的一个基分类器作为本数据集的基分类器。利用最终的多个基分类器对预测集进行预测。本发明结合了CLR多标签学习算法和Spark基于内存的高效计算理论,充分利用了CLR算法中标签转化后的无相关性,降低了不同的基分类器之间的干扰性,再充分利用Spark的计算框架的运行速度,能有效的对数据进行挖掘。

    基于Spark大数据平台的三支决策不平衡数据过采样方法

    公开(公告)号:CN106599935B

    公开(公告)日:2019-07-19

    申请号:CN201611244051.4

    申请日:2016-12-29

    Abstract: 本发明请求保护一种基于Spark大数据平台的三支决策不平衡数据过采样方法,涉及数据挖掘邻域,Spark大数据技术。首先使用Spark的RDD进行数据变换,得到归一化的LabeledPoint格式 的样本集,并分成训练集和测试集;其次采用Spark的RDD进行数据变化,求样本间的距离,确定领域半径,根据邻域三支决策模型将整个训练集中的样本划分成正域样本,边界域样本和负域样本;然后分别对边界域样本,负域样本进行过采样;最后调用Spark Mllib机器学习算法,验证采样效果。本发明有效解决大规模不平衡数据集在机器学习和模式识别领域中的分类问题。

    基于Spark内存计算大数据平台的CLR多标签数据分类方法

    公开(公告)号:CN106528874A

    公开(公告)日:2017-03-22

    申请号:CN201611120338.6

    申请日:2016-12-08

    CPC classification number: G06F16/2465 G06F16/16 G06F16/182 G06F2216/03

    Abstract: 本发明提供一种基于Spark大数据平台的CLR多标签分类方法,涉及数据挖掘技术。本发明通过特征与标签的关系将每个数据集划分成一个区;将训练集中的数据集随机抽取一部分当作测试集,剩余的数据集当训练集建立基分类器,再将测试集用来测试分类器并修改其基分类器的参数,从而在训练的多个基分类器中选取最好的一个基分类器作为本数据集的基分类器。利用最终的多个基分类器对预测集进行预测。本发明结合了CLR多标签学习算法和Spark基于内存的高效计算理论,充分利用了CLR算法中标签转化后的无相关性,降低了不同的基分类器之间的干扰性,再充分利用Spark的计算框架的运行速度,能有效的对数据进行挖掘。

    一种基于MPI并行将连续属性进行离散化的方法

    公开(公告)号:CN107958266A

    公开(公告)日:2018-04-24

    申请号:CN201711164678.3

    申请日:2017-11-21

    CPC classification number: G06K9/6223 G06F9/546

    Abstract: 本发明请求保护一种基于MPI并行将连续属性进行离散化的方法,涉及粗糙集,离散化,并行计算,聚类等概念。首先,读取信息系统的数据,将信息系统水平划分为m个样本数据子集,通过通信分配给n个节点;其次,每个节点并行对数据进行归一化处理,得到新的数据,再并行对属性进行聚类,通过通信合并聚类结果;最后根据聚类结果进行区间划分,并对不同的区间进行属性编码,从而得到连续属性离散化的结果,构造出属性离散化后的信息系统,从而能利用粗糙集知识进行属性约简等后续工作。本发明结合了粗糙集连续属性离散化方法和MPI并行计算,从而使得连续属性离散化过程可以并行求得,提高算法的效率。

    基于Spark大数据平台的三支决策不平衡数据过采样方法

    公开(公告)号:CN106599935A

    公开(公告)日:2017-04-26

    申请号:CN201611244051.4

    申请日:2016-12-29

    CPC classification number: G06K9/6256 G06K9/6262 G06K9/6271

    Abstract: 本发明请求保护一种基于Spark大数据平台的三支决策不平衡数据过采样方法,涉及数据挖掘邻域,Spark大数据技术。首先使用Spark的RDD进行数据变换,得到归一化的LabeledPoint格式 的样本集,并分成训练集和测试集;其次采用Spark的RDD进行数据变化,求样本间的距离,确定领域半径,根据邻域三支决策模型将整个训练集中的样本划分成正域样本,边界域样本和负域样本;然后分别对边界域样本,负域样本进行过采样;最后调用Spark Mllib机器学习算法,验证采样效果。本发明有效解决大规模不平衡数据集在机器学习和模式识别领域中的分类问题。

Patent Agency Ranking