一种百亿级图像快速搜索的方法

    公开(公告)号:CN114595350B

    公开(公告)日:2024-04-26

    申请号:CN202111489763.3

    申请日:2021-12-08

    Inventor: 程涛 刘春平 肖锋

    Abstract: 本发明涉及计算机软件技术领域,涉及信息搜索技术领域,具体涉及一种百亿级图像快速搜索的方法。包括:图像样本数据的处理,利用深度神经网络对百亿级图像样本数据进行图像特征提取,经PCA降维后,形成了图像的特征向量库;利用Faiss框架下的IVPQ算法构建至少两级PQ组,每一级PQ组至少包含3个PQ,保证特征向量的切分数量两两互质,从而形成特征向量索引库;基于该特征像向量引库,可以在检索时获得最优候选集并对最优候选集进行相似度计算和排序,最后输出最终的排序TOPN。本发明比FAISS有更高的准确性,在单服务器运行中,Top10的召回率达61.8%,运行稳定性更好,支撑220真实并发,吞吐率高达10000次且平均响应时间在30ms,检索效率更高。

    一种百亿级图像快速搜索的方法

    公开(公告)号:CN114595350A

    公开(公告)日:2022-06-07

    申请号:CN202111489763.3

    申请日:2021-12-08

    Inventor: 程涛 刘春平 肖锋

    Abstract: 本发明涉及计算机软件技术领域,涉及信息搜索技术领域,具体涉及一种百亿级图像快速搜索的方法。包括:图像样本数据的处理,利用深度神经网络对百亿级图像样本数据进行图像特征提取,经PCA降维后,形成了图像的特征向量库;利用IVPQ算法构建至少两级PQ组,每一级PQ组至少包含3个PQ,保证特征向量的切分数量两两互质,从而形成特征向量索引库;基于该特征像索引库,可以在检索时获得最优候选集并对最优候选集进行相似度计算和排序,最后输出最终的排序TOPN。本发明比FAISS有更高的准确性,在单服务器运行中,Top10的召回率达61.8%,运行稳定性更好,支撑220真实并发,吞吐率高达10000次且平均响应时间在30ms,检索效率更高。

Patent Agency Ranking