Patent search ap:("上海交通大学") AND inv:"徐姚亨" Page 1

1.

发明授权
一种基于Spark的大规模高维数据近似近邻查询系统和方法有权

公开(公告)号：CN114329094B

公开(公告)日：2024-09-10

申请号：CN202111672312.3

申请日：2021-12-31

Applicant: 上海交通大学

Inventor： 徐姚亨 , 姚斌 , 张鹏程 , 唐飞龙 , 沈耀 , 郑文立

IPC: G06F16/901 , G06F16/9032

Abstract: 本发明提供的一种基于Spark的大规模高维数据近似近邻查询系统和方法，主要在内存中执行近似近邻查询。首先根据向量的相似性进行聚类分区，每一个聚类分区对应Spark弹性分布式数据集的一个分区。对每一个分区的数据进行比例采样，并且打上分区的标签。使用该采样数据在主节点建立全局索引，在相应的分区上建立分区索引。查询时，通过该全局索引找到相应的需要查询的若干个该分区，再对各个分区的结果汇总排序，得到最终结果。本发明的技术方案基于Spark系统提供了一种高度可扩展的分布式近似近邻查询方案，同时实现了低延迟和高吞吐量的特性。

2.

发明公开
一种基于Spark的大规模高维数据近似近邻查询系统和方法有权

公开(公告)号：CN114329094A

公开(公告)日：2022-04-12

申请号：CN202111672312.3

申请日：2021-12-31

Applicant: 上海交通大学

Inventor： 徐姚亨 , 姚斌 , 张鹏程 , 唐飞龙 , 沈耀 , 郑文立

IPC: G06F16/901 , G06F16/9032

Abstract: 本发明提供的一种基于Spark的大规模高维数据近似近邻查询系统和方法，主要在内存中执行近似近邻查询。首先根据向量的相似性进行聚类分区，每一个聚类分区对应Spark弹性分布式数据集的一个分区。对每一个分区的数据进行比例采样，并且打上分区的标签。使用该采样数据在主节点建立全局索引，在相应的分区上建立分区索引。查询时，通过该全局索引找到相应的需要查询的若干个该分区，再对各个分区的结果汇总排序，得到最终结果。本发明的技术方案基于Spark系统提供了一种高度可扩展的分布式近似近邻查询方案，同时实现了低延迟和高吞吐量的特性。

Patent Agency Ranking