一种融合结构化和非结构化数据的混合搜索方法

    公开(公告)号:CN112905644A

    公开(公告)日:2021-06-04

    申请号:CN202110285108.X

    申请日:2021-03-17

    Abstract: 本发明公开了一种融合结构化和非结构化数据的混合搜索方法。该方法首先将数据集中每一个实体所包含的结构化和非结构化数据分别向量化得到包含结构化向量和非结构化向量的实体向量;其次基于结构化向量和非结构化向量相似性组合构建融合结构化和非结构化数据近邻图;然后将查询实体所包含的结构化和非结构化数据通过向量化得到包含结构化向量和非结构化向量的混合查询向量;最后混合查询向量在融合结构化和非结构化数据近邻图上通过贪婪算法执行混合搜索得到查询实体的最近邻。本发明实现了同时对非结构化和结构化数据进行搜索的混合搜索,较之于当前的两种分离的索引系统效率得到较大提升。

    一种基于近邻图的多模态搜索方法

    公开(公告)号:CN113656678A

    公开(公告)日:2021-11-16

    申请号:CN202111212706.0

    申请日:2021-10-19

    Abstract: 本发明涉及一种基于近邻图的多模态搜索方法,先将参照数据集中每一个参照对象的各个模态数据生成特征向量,然后根据各特征向量先独立计算,再用聚集函数融合计算得到各查询对象间的融合距离,由此构建参照对象的近邻图。接着根据查询内容生成包含多个特征向量的查询向量,使用查询向量在近邻图上执行多模态搜索得到最相似的查询目标。本发明的方法通过查询融合距离而同时对对象的多个模态进行查询,并能通过调整聚集函数而改变不同模态对融合距离的影响权重,从而实现了在搜索过程中对模态重要性的灵活操控,并提高了搜索的效率和精度。

    一种基于编码可导航伸展图的近邻文档搜索方法

    公开(公告)号:CN110851563B

    公开(公告)日:2021-11-09

    申请号:CN201910949234.3

    申请日:2019-10-08

    Inventor: 徐小良 王梦召

    Abstract: 本发明公开了一种基于编码可导航伸展图的近邻文档搜索方法。该方法首先对海量文档语义向量化得到海量文档向量;然后计算所有文档向量每一维的大小范围得到区间范围向量并归一化编码后进行压缩存储;接着基于压缩存储的海量文档向量建立编码可导航伸展图;最后对查询文档语义向量化后,在编码可导航伸展图上进行贪婪搜索后返回最接近的TopK篇文档。本发明将优秀的图基近似最近邻搜索方法——可导航伸展图应用在海量文档搜索上,加快了文档搜索速度,使用归一化编码的方法对海量文档向量进行压缩存储,在保证相当搜索速度的同时又大幅度降低了内存消耗。

    一种融合结构化和非结构化数据的混合搜索方法

    公开(公告)号:CN112905644B

    公开(公告)日:2022-08-02

    申请号:CN202110285108.X

    申请日:2021-03-17

    Abstract: 本发明公开了一种融合结构化和非结构化数据的混合搜索方法。该方法首先将数据集中每一个实体所包含的结构化和非结构化数据分别向量化得到包含结构化向量和非结构化向量的实体向量;其次基于结构化向量和非结构化向量相似性组合构建融合结构化和非结构化数据近邻图;然后将查询实体所包含的结构化和非结构化数据通过向量化得到包含结构化向量和非结构化向量的混合查询向量;最后混合查询向量在融合结构化和非结构化数据近邻图上通过贪婪算法执行混合搜索得到查询实体的最近邻。本发明实现了同时对非结构化和结构化数据进行搜索的混合搜索,较之于当前的两种分离的索引系统效率得到较大提升。

    一种基于近邻图的多模态搜索方法

    公开(公告)号:CN113656678B

    公开(公告)日:2022-03-01

    申请号:CN202111212706.0

    申请日:2021-10-19

    Abstract: 本发明涉及一种基于近邻图的多模态搜索方法,先将参照数据集中每一个参照对象的各个模态数据生成特征向量,然后根据各特征向量先独立计算,再用聚集函数融合计算得到各查询对象间的融合距离,由此构建参照对象的近邻图。接着根据查询内容生成包含多个特征向量的查询向量,使用查询向量在近邻图上执行多模态搜索得到最相似的查询目标。本发明的方法通过查询融合距离而同时对对象的多个模态进行查询,并能通过调整聚集函数而改变不同模态对融合距离的影响权重,从而实现了在搜索过程中对模态重要性的灵活操控,并提高了搜索的效率和精度。

    一种应用于大规模高维数据的两阶段近邻图搜索方法

    公开(公告)号:CN111737386A

    公开(公告)日:2020-10-02

    申请号:CN202010493762.5

    申请日:2020-06-03

    Inventor: 徐小良 王梦召

    Abstract: 本发明公开了一种应用于大规模高维数据的两阶段近邻图搜索方法。该方法针对大规模高维数据构建K近邻图;对K近邻图中每一个顶点的邻居集划分得到可导向近邻图;查询时,在可导向近邻图上执行两阶段搜索,第一阶段使用优化导向搜索快速定位到查询点附近,第二阶段在查询点附近使用贪婪算法精确搜索;最后将返回的点作为搜索结果。本发明改进了在近邻图上只执行单一搜索策略的常规方式,使用联合优化导向搜索和贪婪算法的混合式搜索策略。解决了近邻图算法中普遍存在的低搜索效率和易陷入局部最优问题,从而提升了近邻图算法的搜索性能。

    一种基于编码可导航伸展图的近邻文档搜索方法

    公开(公告)号:CN110851563A

    公开(公告)日:2020-02-28

    申请号:CN201910949234.3

    申请日:2019-10-08

    Inventor: 徐小良 王梦召

    Abstract: 本发明公开了一种基于编码可导航伸展图的近邻文档搜索方法。该方法首先对海量文档语义向量化得到海量文档向量;然后计算所有文档向量每一维的大小范围得到区间范围向量并归一化编码后进行压缩存储;接着基于压缩存储的海量文档向量建立编码可导航伸展图;最后对查询文档语义向量化后,在编码可导航伸展图上进行贪婪搜索后返回最接近的TopK篇文档。本发明将优秀的图基近似最近邻搜索方法——可导航伸展图应用在海量文档搜索上,加快了文档搜索速度,使用归一化编码的方法对海量文档向量进行压缩存储,在保证相当搜索速度的同时又大幅度降低了内存消耗。

Patent Agency Ranking