-
公开(公告)号:CN116340317A
公开(公告)日:2023-06-27
申请号:CN202310272727.4
申请日:2023-03-21
Applicant: 南湖实验室
IPC: G06F16/22 , G06F16/242 , G06F18/25
Abstract: 本方案公开了一种基于Elasticsearch实现DeltaLake数据湖索引的方法,入湖时,Spark对源数据进行抽取,对抽取出的数据集进行Schema分析,同时增加数据存储地址信息组成索引结构,实现入湖过程中,针对不同数据源的数据,如果用户未选择创建索引的列,由系统自动推断索引结构,实现基于数据源种类的天然分类。搜索时,不同源数据具有不同的索引结构,源数据因此被分类,查询过程中,根据用户指定在某一类或几类数据范围内进行查询,指定某一类数据进行快速查询。本方案针对Delta Lake数据湖引入Elasticsearch,实现了Elasticsearch与Delta Lake有机结合。在数据入湖过程中,异步建立索引,在数据搜索过程中,只需要关键字,就能迅速定位到已经建立索引的数据的位置,进而快速抓取到需要的数据。