-
公开(公告)号:CN119474095A
公开(公告)日:2025-02-18
申请号:CN202411543268.X
申请日:2024-10-31
Applicant: 北京林业大学
Abstract: 本文公开了一种多维流式全量索引SFI‑HBase(Streaming Full Index HBase)方法,包括以下步骤:SFI‑HBase在插入数据时,先将数据写入存储层,同时向Kafka发送消息。Spark Streaming从Kafka拉取数据后,先在内存更新索引,再更新HBase全量索引层。读取时,SFI‑HBase的范围查询、KNN查询通过全量索引层获取索引后访问存储层,点查询直接访问存储层。本文提出的二分混合空间填充曲线结合Z曲线和Hilbert曲线,支持多维空间划分,提升局部性20%以上,聚集度50%以上。基于此降维数据,SFI‑HBase构建了高效的多维索引结构。在插入时,利用Spark Streaming聚合存储数据,支持并发插入;查询时,全量索引层存储不同粒度索引,可根据查询条件选择粒度。相较MD‑HBase,SFI‑HBase范围查询效率提升10%,KNN查询效率提升5倍,插入效率提升10倍。