一种面向云数据分析场景的水平数据分区方法和系统

    公开(公告)号:CN118585585A

    公开(公告)日:2024-09-03

    申请号:CN202410726943.6

    申请日:2024-06-06

    Abstract: 本发明公开了一种面向云数据分析场景的水平数据分区方法,其自适应识别历史查询负载在各属性的热点查询区间、具有局部性的查询模式和离群查询区间,由此对历史查询负载灵活泛化,兼顾未来查询负载与历史查询负载的相似性和差异性;设计了基于概率的成本模型,准确地评估泛化查询负载的开销,并考虑了数据属性间的相关性,以更精确地量化分区动作的收益,从而优化分区决策;设计了基于概率成本模型的两阶段水平分区方法,首先使用轴垂直超平面切割,使得分区方案尽可能细粒度地对齐泛化查询负载,保证数据跳过效率;针对轴垂直超平面切割面对倾斜数据失效的问题,设计了排序二分切割作为补充,增强分区方法鲁棒性的同时,进一步提升数据跳过效率。

    一种多协议数据共享架构
    12.
    发明授权

    公开(公告)号:CN110781152B

    公开(公告)日:2022-04-22

    申请号:CN201910954198.X

    申请日:2019-10-09

    Abstract: 本申请公开了一种多协议数据共享架构,包括文件存储应用、对象存储应用、文件存储元数据池、对象存储元数据池及文件存储数据池;其中:文件存储数据池用于以文件协议的方式存储共享数据;文件存储元数据池用于以文件协议的方式存储共享数据对应的元数据;对象存储元数据池用于以对象协议的方式存储共享数据对应的元数据;文件存储应用用于采用文件协议访问文件存储元数据池及文件存储数据池;对象存储应用用于采用对象协议访问对象存储元数据池,以及用于利用自身接口转换得到的文件协议访问接口访问文件存储数据池。本申请仅需进行接口转换即可实现对象协议及文件协议的数据共享,有效避免了因数据格式转换存在的效率问题及存储空间占用问题。

Patent Agency Ranking