一种基于Spark的大规模高维数据近似近邻查询系统和方法

    公开(公告)号:CN114329094B

    公开(公告)日:2024-09-10

    申请号:CN202111672312.3

    申请日:2021-12-31

    Abstract: 本发明提供的一种基于Spark的大规模高维数据近似近邻查询系统和方法,主要在内存中执行近似近邻查询。首先根据向量的相似性进行聚类分区,每一个聚类分区对应Spark弹性分布式数据集的一个分区。对每一个分区的数据进行比例采样,并且打上分区的标签。使用该采样数据在主节点建立全局索引,在相应的分区上建立分区索引。查询时,通过该全局索引找到相应的需要查询的若干个该分区,再对各个分区的结果汇总排序,得到最终结果。本发明的技术方案基于Spark系统提供了一种高度可扩展的分布式近似近邻查询方案,同时实现了低延迟和高吞吐量的特性。

    一种基于Spark的大规模高维数据近似近邻查询系统和方法

    公开(公告)号:CN114329094A

    公开(公告)日:2022-04-12

    申请号:CN202111672312.3

    申请日:2021-12-31

    Abstract: 本发明提供的一种基于Spark的大规模高维数据近似近邻查询系统和方法,主要在内存中执行近似近邻查询。首先根据向量的相似性进行聚类分区,每一个聚类分区对应Spark弹性分布式数据集的一个分区。对每一个分区的数据进行比例采样,并且打上分区的标签。使用该采样数据在主节点建立全局索引,在相应的分区上建立分区索引。查询时,通过该全局索引找到相应的需要查询的若干个该分区,再对各个分区的结果汇总排序,得到最终结果。本发明的技术方案基于Spark系统提供了一种高度可扩展的分布式近似近邻查询方案,同时实现了低延迟和高吞吐量的特性。

Patent Agency Ranking