一种基于Lucene索引段的合并优化方法

    公开(公告)号:CN108920687B

    公开(公告)日:2021-08-31

    申请号:CN201810764364.5

    申请日:2018-07-12

    Abstract: 本发明涉及一种基于Lucene索引段的合并优化方法,属于计算机索引技术领域。它包括以下步骤:结合当前节点负载信息和索引的段信息,构建合并分析模块以判断是否满足合并条件。根据各个索引段中包含的词典文件,得到索引内关于索引段的特征矩阵,再结合minHash算法和最小hash签名算法进行处理,以计算出索引段的签名矩阵。结合索引段的签名矩阵与Jaccard相似度原理,计算出各个索引段之间的相似系数,并根据相似系数将索引段划分为不同的相似集合。运用相似度评价模型对各个相似集合进行评分,并按照集合得分进行排序,选取得分最高的一个或者多个集合交由合并线程执行合并。本发明所述的优化方法能够减少合并操作对索引功能和检索功能性能的影响并能有效地提高检索的速度。

    一种基于Lucene索引段的合并优化方法

    公开(公告)号:CN108920687A

    公开(公告)日:2018-11-30

    申请号:CN201810764364.5

    申请日:2018-07-12

    Abstract: 本发明涉及一种基于Lucene索引段的合并优化方法,属于计算机索引技术领域。它包括以下步骤:结合当前节点负载信息和索引的段信息,构建合并分析模块以判断是否满足合并条件。根据各个索引段中包含的词典文件,得到索引内关于索引段的特征矩阵,再结合minHash算法和最小hash签名算法进行处理,以计算出索引段的签名矩阵。结合索引段的签名矩阵与Jaccard相似度原理,计算出各个索引段之间的相似系数,并根据相似系数将索引段划分为不同的相似集合。运用相似度评价模型对各个相似集合进行评分,并按照集合得分进行排序,选取得分最高的一个或者多个集合交由合并线程执行合并。本发明所述的优化方法能够减少合并操作对索引功能和检索功能性能的影响并能有效地提高检索的速度。

Patent Agency Ranking