一种基于Hadoop的并行化SVM求解方法

    公开(公告)号:CN102750309B

    公开(公告)日:2015-06-17

    申请号:CN201210072523.8

    申请日:2012-03-19

    Abstract: 本发明公开了一种基于Hadoop的并行化SVM求解方法,包括如下步骤:将数据存储于分布式的集群文件系统中;根据数据的分布状况,在各个数据块上执行随机抽样过程,并将随机抽取的样本数据一一分配并形成若干的数据子集;在所述数据子集上进行局部第一方法;将各个数据子集上进行局部第一方法的结果进行取平均的融合,输出平均结果。本发明能够在不损失精度的情况下处理海量数据下的Pegasos求解,大大缩短运行时间,并且能够有好的拓展性。

    一种基于Hadoop的频繁闭项集挖掘方法

    公开(公告)号:CN102622447B

    公开(公告)日:2014-03-05

    申请号:CN201210072524.2

    申请日:2012-03-19

    Abstract: 本发明公开了一种基于Hadoop的频繁闭项集挖掘方法,包括如下步骤:并行计数:并行地扫描一次数据库,统计数据库中每个数据项的频繁次数;构造全局F-List和G-List:并行挖掘局部频繁闭项集:再次扫描数据库,在各个节点采用第一算法挖掘局部频繁闭项集,并只保存全局频繁闭项集。本发明方法基于Group分配计算任务,使得计算量的分配更加均衡;同时,该方法更加简洁,只要三个步骤(两次Map-Reduce过程)就可以完成挖掘任务。

    一种基于Hadoop的并行化PLSA方法

    公开(公告)号:CN102779025A

    公开(公告)日:2012-11-14

    申请号:CN201210071443.0

    申请日:2012-03-19

    Abstract: 本发明公开了一种基于Hadoop的并行化PLSA方法,包括如下步骤:将数据存储到分布式数据存储环境中;对需要更新计算的概率模型文件进行切分,作为每一个mapper的输入;通过mapreduce对整体的EM过程中的每一次迭代更新过程进行计算:通过mapper端的map函数和reducer端的reduce函数以及键值对的发送,计算EM过程中的每一次迭代更新过程;每次更新后的迭代结果作为下次迭代的输入;迭代直到所有的结果达到收敛。本发明通过mapreduce进行的并行化,能够将PLSA应用到较大规模的数据当中,并减少整体运行的时间,提高运算效率。

    一种基于Hadoop的并行k近邻分类方法

    公开(公告)号:CN102622446A

    公开(公告)日:2012-08-01

    申请号:CN201210071445.X

    申请日:2012-03-19

    Abstract: 本发明公开了一种基于Hadoop的并行k近邻分类方法,包括如下步骤:数据预处理;在Hadoop各个节点的Mapper端并行计算一个测试数据与位于该节点的训练数据的距离;在所述Mapper端用选择算法确定该测试数据的局部k近邻数据,将所有局部k近邻数据发送到Hadoop各个节点的Reducer端;在所述Reducer端接收该测试数据的所有局部k近邻数据,用选择算法确定全局k近邻数据;利用所述全局k近邻数据对该测试数据进行分类,得到该测试数据的分类结果;重复执行,得到所有测试数据的分类结果。本发明能够有效地解决海量数据的分类问题,大大提高分类的速度。

    一种基于Hadoop的文档分类方法

    公开(公告)号:CN102637205B

    公开(公告)日:2014-10-15

    申请号:CN201210072522.3

    申请日:2012-03-19

    Abstract: 本发明公开了一种基于Hadoop的文档分类方法,包括如下步骤:对训练用文档集进行预处理,将原始的文档转化成向量形式;将向量形式的数据上传至集群文件系统;所述集群文件系统对向量形式的数据进行分块处理;对分块处理后的数据进行map-reduce处理过程得到统计信息;根据统计信息训练分类器;利用得到的分类器对测试用的文档进行分类。本发明能够利用大量无标记的文本提高分类器的分类准确度;能够利用集群和并行计算模型提高训练分类器的速度。

    一种基于Hadoop的并行化SVM求解方法

    公开(公告)号:CN102750309A

    公开(公告)日:2012-10-24

    申请号:CN201210072523.8

    申请日:2012-03-19

    Abstract: 本发明公开了一种基于Hadoop的并行化SVM求解方法,包括如下步骤:将数据存储于分布式的集群文件系统中;根据数据的分布状况,在各个数据块上执行随机抽样过程,并将随机抽取的样本数据一一分配并形成若干的数据子集;在所述数据子集上进行局部第一方法;将各个数据子集上进行局部第一方法的结果进行取平均的融合,输出平均结果。本发明能够在不损失精度的情况下处理海量数据下的Pegasos求解,大大缩短运行时间,并且能够有好的拓展性。

    一种基于Hadoop的文档分类方法

    公开(公告)号:CN102637205A

    公开(公告)日:2012-08-15

    申请号:CN201210072522.3

    申请日:2012-03-19

    Abstract: 本发明公开了一种基于Hadoop的文档分类方法,包括如下步骤:对训练用文档集进行预处理,将原始的文档转化成向量形式;将向量形式的数据上传至集群文件系统;所述集群文件系统对向量形式的数据进行分块处理;对分块处理后的数据进行map-reduce处理过程得到统计信息;根据统计信息训练分类器;利用得到的分类器对测试用的文档进行分类。本发明能够利用大量无标记的文本提高分类器的分类准确度;能够利用集群和并行计算模型提高训练分类器的速度。

    一种基于Hadoop的频繁闭项集挖掘方法

    公开(公告)号:CN102622447A

    公开(公告)日:2012-08-01

    申请号:CN201210072524.2

    申请日:2012-03-19

    Abstract: 本发明公开了一种基于Hadoop的频繁闭项集挖掘方法,包括如下步骤:并行计数:并行地扫描一次数据库,统计数据库中每个数据项的频繁次数;构造全局F-List和G-List:并行挖掘局部频繁闭项集:再次扫描数据库,在各个节点采用第一算法挖掘局部频繁闭项集,并只保存全局频繁闭项集。本发明方法基于Group分配计算任务,使得计算量的分配更加均衡;同时,该方法更加简洁,只要三个步骤(两次Map-Reduce过程)就可以完成挖掘任务。

    一种基于元学习的图像稀疏对抗样本生成方法

    公开(公告)号:CN116188913A

    公开(公告)日:2023-05-30

    申请号:CN202310240782.5

    申请日:2023-03-14

    Applicant: 南京大学

    Inventor: 李伟涛 商琳

    Abstract: 本发明提供了一种基于元学习的图像稀疏对抗样本生成方法,包括以下步骤:步骤1,在图像分类模型组成的白盒模型集合中随机采样n个模型;步骤2,元训练阶段;步骤3,元测试阶段;步骤4,对于当前的对抗样本,采样投影策略将全局扰动稀疏化,得到具有稀疏性的对抗样本;步骤5,重复步骤1~步骤4T次,直到对抗样本的更新次数达到预定的迭代次数,使用得到的对抗样本攻击目标黑盒模型。本发明能够将元学习与基于梯度的稀疏攻击方法相结合,将多个模型的梯度信息融合,并且在元测试阶段进行模拟黑盒攻击约束梯度的更新方向与白盒攻击相似,使得更新的对抗样本不会过拟合于单个模型,有效的提高了对抗样本对黑盒模型攻击的成功率。

    一种融合情感特征和语义特征的文本情感分类方法

    公开(公告)号:CN108536870B

    公开(公告)日:2022-06-07

    申请号:CN201810385091.3

    申请日:2018-04-26

    Applicant: 南京大学

    Inventor: 吴钟强 商琳

    Abstract: 本发明公开了一种融合情感特征和语义特征的文本情感分类方法,包括:利用主题模型得到文本数据的主题概率分布,得到文本数据的语义特征,构建一种神经网络模型,训练神经网络,得到文本数据的情感特征,并利用文本的情感特征结合文本的语义特征进行文本情感倾向性的判别。对比现有的文本情感倾向性分析方法,本方法突出考虑了带有情感标签文本的情感特征和语义特征关系,并且能同时利用这两种信息进行情感倾向性的判别。在具体的数据集实验当中,可以得到更高的情感分类精度。

Patent Agency Ranking