一种基于MPI的ML-KNN多标签中文文本分类方法

    公开(公告)号:CN106886569B

    公开(公告)日:2020-05-12

    申请号:CN201710026254.4

    申请日:2017-01-13

    Abstract: 本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明在处理高维文本数据的时候,具有更大的优势。

    一种基于MPI的ML‑KNN多标签中文文本分类方法

    公开(公告)号:CN106886569A

    公开(公告)日:2017-06-23

    申请号:CN201710026254.4

    申请日:2017-01-13

    Abstract: 本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明在处理高维文本数据的时候,具有更大的优势。

Patent Agency Ranking