-
公开(公告)号:CN115658809A
公开(公告)日:2023-01-31
申请号:CN202211265216.1
申请日:2022-10-17
Applicant: 武汉大学
IPC: G06F16/27 , G06F16/182 , G06F18/23213 , G06F16/13
Abstract: 本发明公开了一种基于局部方向中心性的数据分布式聚类方法及装置,其中的方法包括以下步骤:S1、在分布式集群环境中提交算法任务所需参数,读取待聚类数据;S2、基于完整数据构建优先搜索K‑means树全局索引,并共享索引变量至集群各工作节点;S3、结合数据采样和Hilbert曲线分区方法对完整数据进行划分;S4、在各工作节点上并行执行CDC局部聚类;S5、根据局部类簇的最大可达距离进行分区间类簇合并,生成完整的类簇;S6、将聚类结果输出到分布式文件系统中。本发明方法从算法流程优化与并行处理优化两个角度对CDC聚类算法进行分布式优化与加速,旨在提高CDC算法的计算效率,为该算法在海量数据挖掘、机器学习任务中的应用提供一种可行的优化方案。
-
公开(公告)号:CN110765130B
公开(公告)日:2021-01-01
申请号:CN201910912399.3
申请日:2019-09-25
Applicant: 武汉大学
IPC: G06F16/22 , G06F16/2458 , G06F16/28
Abstract: 本发明公开了一种分布式环境下基于Ripley’s K函数的时空POI数据点模式分析方法,首先配置面向时空对象与时空索引的定制序列化器,然后,建立时空KDB树,对观测点进行数据重分区,接着构建局部时空R树索引,构造一系列点对;接着对于每个点对,在双层缓存中查找与点对对应的时空权重;然后计算观测点对应的不同时空距离阈值下时空Ripley’s K函数计算结果;然后基于观测点生成模拟点,得到模拟点对应的不同时空距离阈值下的时空Ripley’s K函数计算结果;再获得时空Ripley’s K函数模拟的上下界;最后,根据时空Ripley’s K函数模拟的上下界,获得最终的数据分布输出结果。本发明的方法可以大大提高时空POI数据点模式分析的效率。
-
公开(公告)号:CN118551232A
公开(公告)日:2024-08-27
申请号:CN202410233953.6
申请日:2024-03-01
Applicant: 武汉大学
Abstract: 本发明提供一种融合时空与地理语义的轨迹相似度计算方法及系统,属于时空轨迹数据分析技术领域,包括:识别轨迹的关键点和普通点,根据普通点的空间邻近对象对其进行相似度修正,综合各点相似度求解轨迹对的空间相似度。将轨迹的时间信息转化为概率密度曲线,根据两条曲线的距离求解轨迹对的时间相似度。基于兴趣点数据和文本主题模型,将原始轨迹转化为语义轨迹,以求解轨迹对的语义相似度。为各维相似度赋予权重,加权求和得到综合相似度。本发明深入挖掘维度特性,分别构建各维相似度计算方案,解决了逆序轨迹、出行时段无重叠和出行频次差异较大等场景下相似度计算效果不佳和轨迹语义表达不准确等问题,并为轨迹聚类、检索等任务提供支持。
-
-