一种面向云数据分析场景的水平数据分区方法和系统

    公开(公告)号:CN118585585A

    公开(公告)日:2024-09-03

    申请号:CN202410726943.6

    申请日:2024-06-06

    Abstract: 本发明公开了一种面向云数据分析场景的水平数据分区方法,其自适应识别历史查询负载在各属性的热点查询区间、具有局部性的查询模式和离群查询区间,由此对历史查询负载灵活泛化,兼顾未来查询负载与历史查询负载的相似性和差异性;设计了基于概率的成本模型,准确地评估泛化查询负载的开销,并考虑了数据属性间的相关性,以更精确地量化分区动作的收益,从而优化分区决策;设计了基于概率成本模型的两阶段水平分区方法,首先使用轴垂直超平面切割,使得分区方案尽可能细粒度地对齐泛化查询负载,保证数据跳过效率;针对轴垂直超平面切割面对倾斜数据失效的问题,设计了排序二分切割作为补充,增强分区方法鲁棒性的同时,进一步提升数据跳过效率。

    面向云数据分析服务场景的数据块索引结构及其构建方法

    公开(公告)号:CN118035501A

    公开(公告)日:2024-05-14

    申请号:CN202410137615.2

    申请日:2024-01-31

    Abstract: 本发明公开了一种面向云数据分析服务场景的数据块索引结构及其构建方法,首先将被索引数据的数据块中的分布情况建模成累积分布函数,进而使用分段线性函数拟合该累积分布函数,从而对数据块分布模式进行捕获,根据捕获到的模式将被索引的数据组织成分段,并对每个分段进行分区,最后,每个分段及其内的分区作为叶子节点构建B+树结构,以实现高效的查找和插入操作。本发明能够解决现有成员过滤器方法和精确索引方法过滤效果好但索引存储开销大的技术问题,以及现有小物化聚合方法索引存储开销小但过滤效果差的技术问题。

    一种基于二叉决策树的数据库范围过滤器设计方法和装置

    公开(公告)号:CN117668000A

    公开(公告)日:2024-03-08

    申请号:CN202311812966.0

    申请日:2023-12-26

    Abstract: 本发明公开了一种基于二叉决策树的数据库范围过滤器设计方法和装置,属于数据库查询技术领域,所述方法考虑到在多数应用场景下数据库中需要处理的数据集并不均匀,根据数据集自身分布特点离线构建初始二叉决策树,其每个结点是一个范围,其根结点代表整个数据集中键的范围区间;利用初始二叉决策树进行模拟在线查询并根据各个叶子结点的访问频次进行剪枝;最后进行压缩编码得到数据库范围过滤器;构建二叉决策树过程中根据数据密度以及偏斜程度生长二叉树,可以解决在数据分布不均匀的情况下假阳率较高的问题;根据访问频率对二叉树进行剪枝操作可以减少空间占用;最终得到数据库范围过滤器在数据不均匀情况下能够高效地进行数据处理。

Patent Agency Ranking