-
公开(公告)号:CN107590218A
公开(公告)日:2018-01-16
申请号:CN201710777064.6
申请日:2017-09-01
Applicant: 南京理工大学
Abstract: 本发明公开了一种基于Spark的多特征结合中文文本高效聚类方法,该方法利用HDFS文件系统的高容错性、高数据访问吞吐量,将大量的数据集上传到HDFS文件系统中,然后进行数据预处理,通过客户端提交到Spark集群;完成文本集预处理后,将降维后的文本分别计算语义相似度和基于词频统计的余弦相似度,然后将两种相似度进行结合,得到最终的文本相似度,利用得到的文本相似度,并结合最大距离法,进行文本聚类。本发明将语义信息和词频统计信息结合在一起,使得文本相似度的计算更加准确,同时极大减少了迭代的次数。
-
公开(公告)号:CN107590218B
公开(公告)日:2020-11-06
申请号:CN201710777064.6
申请日:2017-09-01
Applicant: 南京理工大学
IPC: G06F16/182 , G06F16/35 , G06F40/289 , G06F40/30 , G06K9/62
Abstract: 本发明公开了一种基于Spark的多特征结合中文文本高效聚类方法,该方法利用HDFS文件系统的高容错性、高数据访问吞吐量,将大量的数据集上传到HDFS文件系统中,然后进行数据预处理,通过客户端提交到Spark集群;完成文本集预处理后,将降维后的文本分别计算语义相似度和基于词频统计的余弦相似度,然后将两种相似度进行结合,得到最终的文本相似度,利用得到的文本相似度,并结合最大距离法,进行文本聚类。本发明将语义信息和词频统计信息结合在一起,使得文本相似度的计算更加准确,同时极大减少了迭代的次数。
-
公开(公告)号:CN106951407A
公开(公告)日:2017-07-14
申请号:CN201710152586.7
申请日:2017-03-15
Applicant: 南京理工大学
Abstract: 本发明涉及一种基于Spark平台的快速高精度语义相关度计算方法,该方法包括:在服务器上构建HDFS文件系统和Spark平台,并将数据集上传到HDFS文件系统中;Spark平台从HDFS文件系统中读取数据,将数据转换为RDD并将其存储在内存中;将所有任务分为不同的Stage,然后同时运行各个任务;对RDD进行预处理,将RDD中的数据转换为纯文本的形式,过滤与语义相关度计算无关的概念和词语;构建“概念—词语”向量空间;计算词语语义相关度。相对于传统的单机计算,本发明提出的语义相关度计算方法在构建语义空间时,计算速度提高了数倍,同时具有较高的精度。
-
公开(公告)号:CN110276474A
公开(公告)日:2019-09-24
申请号:CN201910430943.0
申请日:2019-05-22
Applicant: 南京理工大学
Abstract: 本发明公开了一种城市轨道交通车站短时客流预测方法,运用Spark并行计算框架,统计站点预测日期前每日的进出站客流量;以周为单位,对各日客流量数据进行谱聚类分析,将七天划分成不同的日期类型,选择与预测日期对应的日期类型作为训练数据;选择预测因子,确定神经网络预测模型的输入向量;运用Spark并行计算框架,训练神经网络预测模型;预测站点在目标时间段的进出站客流数据。本发明通过使用聚类分析和相关性分析对数据进行处理分析,保证了训练数据的可靠性和合理性,提高了预测精度;通过采用Spark并行计算框架进行数据统计和模型训练,提高了预测效率。
-
-
-