一种数据湖与关系型数据库互联的方法

    公开(公告)号:CN114048260A

    公开(公告)日:2022-02-15

    申请号:CN202210029283.7

    申请日:2022-01-12

    Abstract: 本发明提供了一种数据湖与关系型数据库互联的方法,包括以下步骤:S1.在数据湖中添加关系型数据库的数据源类;S2.数据湖匹配使用关系型数据库的数据源类;S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接。本发明通过传参的方式将数据源注册配置文件、关系型数据库配置文件和驱动包目录串联起来,在启动数据湖时,不需要指定具体要使用哪个数据库,直接使用相应的数据库即可,也不需要遍历配置文件,用户按需通过传递参数的形式获取所需的配置信息即可,实现数据湖与关系型数据库之间的高效连接和双向读写。

    一种数据湖与关系型数据库互联的方法

    公开(公告)号:CN114048260B

    公开(公告)日:2022-09-09

    申请号:CN202210029283.7

    申请日:2022-01-12

    Abstract: 本发明提供了一种数据湖与关系型数据库互联的方法,包括以下步骤:S1.在数据湖中添加关系型数据库的数据源类;S2.数据湖匹配使用关系型数据库的数据源类;S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接。本发明通过传参的方式将数据源注册配置文件、关系型数据库配置文件和驱动包目录串联起来,在启动数据湖时,不需要指定具体要使用哪个数据库,直接使用相应的数据库即可,也不需要遍历配置文件,用户按需通过传递参数的形式获取所需的配置信息即可,实现数据湖与关系型数据库之间的高效连接和双向读写。

    一种高性能的数据湖系统及数据存储方法

    公开(公告)号:CN113791742A

    公开(公告)日:2021-12-14

    申请号:CN202111368382.X

    申请日:2021-11-18

    Abstract: 本发明提供了一种高性能的数据湖系统及数据存储方法,数据存储方法包括以下步骤:S1.将文件转成文件流;S2.将文件流转成一个数组嵌套多个子数组的形式;S3.将所述的转成RDD后存储至数据湖的存储层中。本方案提出嵌套的字段结构,为出湖过程的并行处理提供字段结构基础,有效提高出湖性能,并且根据硬件内核灵活生成嵌套的子数组数量,使数据湖具有更强的扩展性能,针对不同的用户均能够保持最佳的入湖效率,满足用户需求。

    一种基于管道-过滤器架构的数据传输方法、系统及设备

    公开(公告)号:CN118018627A

    公开(公告)日:2024-05-10

    申请号:CN202410157575.8

    申请日:2024-02-04

    Abstract: 本发明公开一种基于管道‑过滤器架构的数据传输方法、系统及设备,涉及数据传输领域,该方法包括分别构建用于数据输入的抽象Source过滤器、用于数据转换的抽象Transform过滤器和用于数据输出的抽象Sink过滤器;抽象Source过滤器、抽象Transform过滤器和抽象Sink过滤器均为抽象过滤器;用户自定义过滤器继承自抽象过滤器;抽象Transform过滤器和抽象Sink过滤器均继承自AbstractActor;构建数据管道;基于Actor模型,将用户确定的过滤器分别添加至数据管道中,构建管道‑过滤器链路;利用构建的管道‑过滤器链路进行数据的传输。本发明能够提高数据传输的效率和通用性。

    一种基于Elasticsearch实现DeltaLake数据湖索引的方法

    公开(公告)号:CN116340317A

    公开(公告)日:2023-06-27

    申请号:CN202310272727.4

    申请日:2023-03-21

    Abstract: 本方案公开了一种基于Elasticsearch实现DeltaLake数据湖索引的方法,入湖时,Spark对源数据进行抽取,对抽取出的数据集进行Schema分析,同时增加数据存储地址信息组成索引结构,实现入湖过程中,针对不同数据源的数据,如果用户未选择创建索引的列,由系统自动推断索引结构,实现基于数据源种类的天然分类。搜索时,不同源数据具有不同的索引结构,源数据因此被分类,查询过程中,根据用户指定在某一类或几类数据范围内进行查询,指定某一类数据进行快速查询。本方案针对Delta Lake数据湖引入Elasticsearch,实现了Elasticsearch与Delta Lake有机结合。在数据入湖过程中,异步建立索引,在数据搜索过程中,只需要关键字,就能迅速定位到已经建立索引的数据的位置,进而快速抓取到需要的数据。

Patent Agency Ranking