一种基于字典的位片索引压缩方法

    公开(公告)号:CN108932738A

    公开(公告)日:2018-12-04

    申请号:CN201810716805.4

    申请日:2018-07-03

    Applicant: 南开大学

    Abstract: 一种基于字典的位片索引压缩方法和优化策略,适用于以BitFunnel为代表的0/1位片索引结构。本发明的方法包括:1、文档重排:以块大小为间隔根据索引列中比特1的密度重排文档以期增加块间重复度。2、部分压缩:选取部分查询低频访问行进行压缩。3、字典压缩:将索引划分成块,将一个全1比特块和索引中高频出现块存入字典。对出现在字典中的块用更少比特位的块编号替代;对未出现在字典中的块用字典中的最近似块的编号替代(会导致查询请求存在误称结果但保证不丢解)。本发明适用于信息检索领域位片索引压缩的场景中。本发明可显著提高索引压缩效果,且不会造成较大的解压延迟,对搜索引擎系统的优化有很重要的意义。

    一种基于字典的位片索引压缩方法

    公开(公告)号:CN108932738B

    公开(公告)日:2022-08-16

    申请号:CN201810716805.4

    申请日:2018-07-03

    Applicant: 南开大学

    Abstract: 一种基于字典的位片索引压缩方法和优化策略,适用于以BitFunnel为代表的0/1位片索引结构。本发明的方法包括:1、文档重排:以块大小为间隔根据索引列中比特1的密度重排文档以期增加块间重复度。2、部分压缩:选取部分查询低频访问行进行压缩。3、字典压缩:将索引划分成块,将一个全1比特块和索引中高频出现块存入字典。对出现在字典中的块用更少比特位的块编号替代;对未出现在字典中的块用字典中的最近似块的编号替代(会导致查询请求存在误称结果但保证不丢解)。本发明适用于信息检索领域位片索引压缩的场景中。本发明可显著提高索引压缩效果,且不会造成较大的解压延迟,对搜索引擎系统的优化有很重要的意义。

    一种时序数据存储引擎的索引构建方法

    公开(公告)号:CN117851537A

    公开(公告)日:2024-04-09

    申请号:CN202410070820.1

    申请日:2024-01-18

    Applicant: 南开大学

    Abstract: 本发明提供一种时序数据存储引擎的索引构建方法,属于数据库存储技术领域。具体包括:根据标签键的文档频率及标签值的出现频率对数据块进行预筛选;通过标签键的历史访问频率,对预筛选集合进行特征提取,获得数据特征并进行机器学习以进一步筛选,获得包括每条时间线的指标标签组的目标集合;根据指标标签组中多个不同的指标对目标集合进行目标标签提取,获得多个组标签集合;对指标标签相同的组标签集合置入对应的时间线,获得多个时间线集合;对每个时间线集合分配唯一的组ID,建立标签键值对与组ID映射的倒排索引,并建立目标标签与倒排索引映射的前置索引。本发明能够提升时序数据的写入效率与索引构建效率。

Patent Agency Ranking