-
公开(公告)号:CN119719828A
公开(公告)日:2025-03-28
申请号:CN202411709931.9
申请日:2024-11-27
Applicant: 复旦大学 , 星环信息科技(上海)股份有限公司
IPC: G06F18/23213 , G06F18/2325
Abstract: 本发明公开了一种面向持久化存储的高维向量近似最近邻检索方法;其包括索引构建阶段和搜索阶段;索引构建阶段,采用聚类算法对数据集进行空间划分,引入中心替换策略选取代表性向量用于建立入口点图,同时在原始数据集上构建第二层近邻图;搜索阶段,利用入口点图结果快速定位查询向量至最接近的入口点,缩短了搜索路径。本发明采用最佳乘积量化编码策略,降低了SSD数据加载开销;采用多束搜索策略有效利用文件系统按页读取特性,减少了时间开销,增大了数据加载量;采用迭代搜索策略收集查询向量搜索特征,自适应搜索过程,提高了搜索效率。本发明针对大规模数据的混合架构挑战,提供了一种优化近似最近邻搜索、高效的搜索解决方案。