-
公开(公告)号:CN117668000A
公开(公告)日:2024-03-08
申请号:CN202311812966.0
申请日:2023-12-26
Applicant: 华中科技大学
IPC: G06F16/2453 , G06F18/214 , G06N5/01 , G06N3/082 , G06F16/22
Abstract: 本发明公开了一种基于二叉决策树的数据库范围过滤器设计方法和装置,属于数据库查询技术领域,所述方法考虑到在多数应用场景下数据库中需要处理的数据集并不均匀,根据数据集自身分布特点离线构建初始二叉决策树,其每个结点是一个范围,其根结点代表整个数据集中键的范围区间;利用初始二叉决策树进行模拟在线查询并根据各个叶子结点的访问频次进行剪枝;最后进行压缩编码得到数据库范围过滤器;构建二叉决策树过程中根据数据密度以及偏斜程度生长二叉树,可以解决在数据分布不均匀的情况下假阳率较高的问题;根据访问频率对二叉树进行剪枝操作可以减少空间占用;最终得到数据库范围过滤器在数据不均匀情况下能够高效地进行数据处理。