-
-
公开(公告)号:CN106372208A
公开(公告)日:2017-02-01
申请号:CN201610801675.5
申请日:2016-09-05
Applicant: 东南大学
CPC classification number: G06F16/35 , G06K9/6215 , G06K9/6219
Abstract: 本发明公开了一种基于语句相似度的话题观点聚类方法。本发明可以对互联网中围绕某一话题的主要观点进行聚类,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。本发明的优势在于能够确保聚类结果更加多样化和精细化,让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。
-
公开(公告)号:CN104731887A
公开(公告)日:2015-06-24
申请号:CN201510110009.2
申请日:2015-03-13
Applicant: 东南大学
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明公开了一种协同过滤中的用户相似度度量方法。本发明建立用户数值属性与用户分类属性之间的联系,采用聚类算法挖掘用户分组,综合考虑用户分组信息与用户对物品的评分信息预测用户的潜在兴趣,从而完成面向用户的个性化推荐。本发明提供的方法优势在于能够提高用户之间相似度度量的准确度,提高用户兴趣挖掘的精度,增加网络用户体验度。
-
公开(公告)号:CN106372208B
公开(公告)日:2019-07-12
申请号:CN201610801675.5
申请日:2016-09-05
Applicant: 东南大学
Abstract: 本发明公开了一种基于语句相似度的话题观点聚类方法。本发明可以对互联网中围绕某一话题的主要观点进行聚类,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。本发明的优势在于能够确保聚类结果更加多样化和精细化,让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。
-
公开(公告)号:CN106250506A
公开(公告)日:2016-12-21
申请号:CN201610626850.1
申请日:2016-08-02
Applicant: 东南大学
CPC classification number: G06F9/3885 , G06F16/903
Abstract: 本发明公开了一种基于欧氏距离改进的kNN近邻查找方法。本发明利用欧式空间的特性,通过加减运算替换传统kNN方法中较为复杂的乘方运算,减少计算开销,在不降低查询准确率的条件下,实现对待分类样本的k近邻查找。本发明可有效减少部分样本点的计算量,降低kNN方法的时间复杂度;同时借助简化过程引入的临时变量,规避对全局集中式索引结构的依赖,将传统kNN方法由串行单线程处理模式,非常方便地扩展为多线程处理模式,提升处理器利用率并适应大数据处理的需求。
-
-
公开(公告)号:CN105183792B
公开(公告)日:2017-05-24
申请号:CN201510521022.7
申请日:2015-08-21
Applicant: 东南大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于局部敏感哈希的分布式快速文本分类方法。本发明针对现有文本分类方法耗时久,精度低,无法满足大数据环境要求等问题,首先采用局部敏感哈希方法压缩数量巨大的文本特征,以提炼有用特征,加快处理速度;其次匹配文本特征与已有类别特征,实现文本类别的快速计算;基于Spark框架对算法进行设计与实现,进一步加快了算法执行速度并提高了算法在大数据环境下的可扩展能力。
-
公开(公告)号:CN105354243A
公开(公告)日:2016-02-24
申请号:CN201510666545.0
申请日:2015-10-15
Applicant: 东南大学
IPC: G06F17/30
CPC classification number: G06F17/30598
Abstract: 本发明公开了一种基于归并聚类的并行化频繁概率子图搜索方法。本发明针对现有频繁子图搜索方法中时空消耗大、无法满足大数据环境要求等问题,首先采用节点电压法将概率子图映射为电路拓扑进行处理;然后利用归并聚类对概率子图进行聚类,有效降低时间开销;最后基于Spark框架对方法进行实现,进一步提升计算速度及可扩展性。
-
公开(公告)号:CN105183792A
公开(公告)日:2015-12-23
申请号:CN201510521022.7
申请日:2015-08-21
Applicant: 东南大学
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本发明公开了一种基于局部敏感哈希的分布式快速文本分类方法。本发明针对现有文本分类方法耗时久,精度低,无法满足大数据环境要求等问题,首先采用局部敏感哈希方法压缩数量巨大的文本特征,以提炼有用特征,加快处理速度;其次匹配文本特征与已有类别特征,实现文本类别的快速计算;基于Spark框架对算法进行设计与实现,进一步加快了算法执行速度并提高了算法在大数据环境下的可扩展能力。
-
-
-
-
-
-
-
-