-
公开(公告)号:CN116361400A
公开(公告)日:2023-06-30
申请号:CN202310270385.2
申请日:2023-03-20
Applicant: 南湖实验室
Abstract: 本发明涉及一种基于swift协议实现数据湖与Ceph RGW互联的方法。它解决了现有技术中Delta Lake对Ceph RGW中存储的数据进行系统化操作时耗时长且硬件成本高的问题。它包括S1、创建Hadoop‑Ceph RGW文件系统模块;S2、构建传输接口并进行适配;S3、创建类继承并实现FileSystem抽象类;S4、利用适配的接口连接Ceph RGW和Delta Lake;S5、通过FileSystem抽象类对存储在Ceph RGW存储仓库中的数据进行访问和系统化操作。本发明的优点在于:有效提高了工作效率,降低了硬件成本。
-
公开(公告)号:CN113961755B
公开(公告)日:2023-02-10
申请号:CN202111049936.X
申请日:2021-09-08
Applicant: 南湖实验室
IPC: G06F16/901
Abstract: 本发明提供了一种基于持久内存的图数据存储架构,包括支持图数据查询与存储并行的混合内存架构,且所述的混合内存架构包括动态随机存储和持久内存,由所述的动态随机存储提供查询内存,由所述的持久内存提供存储内存,且所述的动态随机存储和持久内存分别连接于图数据库系统的内存总线以构建混合内存架构。该架构实现了图数据库直接部署与运行在持久内存之上,该架构有别于传统的图数据库系统,使得基于该架构下实现的持久内存图数据库不再依赖底层文件系统运行,减少了软件栈的层级。
-
公开(公告)号:CN113961755A
公开(公告)日:2022-01-21
申请号:CN202111049936.X
申请日:2021-09-08
Applicant: 南湖实验室
IPC: G06F16/901
Abstract: 本发明提供了一种基于持久内存的图数据存储架构,包括支持图数据查询与存储并行的混合内存架构,且所述的混合内存架构包括动态随机存储和持久内存,由所述的动态随机存储提供查询内存,由所述的持久内存提供存储内存,且所述的动态随机存储和持久内存分别连接于图数据库系统的内存总线以构建混合内存架构。该架构实现了图数据库直接部署与运行在持久内存之上,该架构有别于传统的图数据库系统,使得基于该架构下实现的持久内存图数据库不再依赖底层文件系统运行,减少了软件栈的层级。
-
公开(公告)号:CN113961754A
公开(公告)日:2022-01-21
申请号:CN202111049920.9
申请日:2021-09-08
Applicant: 南湖实验室
IPC: G06F16/901
Abstract: 本发明提供了一种基于持久内存的图数据库系统,包括计算层和存储层,所述的存储层包括具有图数据存储模型的图数据库和存储架构,在图数据存储模型中,图被划分为独立的节点集和独立的边集,且节点集和边集之间没有交集,节点集中的每个节点均具有一个唯一的节点地址,边集中的每个边均有唯一的边地址;所述的存储架构包括持久内存。本方案优化图数据存储模型,提出了一种新的基于集合的图数据存储模型,与传统的基于邻接矩阵和邻接链表的图数据存储模型有着本质的不同和全新的视角,通过该模型能够严格反映图数据的数学定义,有效地保存数据之间的关系,与现有的图数据存储模型相比,具有更好的时空效率。
-
公开(公告)号:CN113961753A
公开(公告)日:2022-01-21
申请号:CN202111049100.X
申请日:2021-09-08
Applicant: 南湖实验室
IPC: G06F16/901
Abstract: 本发明提供了一种基于集合的图数据存储模型及其图数据库,在本图数据存储模型中,图被划分为独立的节点集和独立的边集,且节点集和边集之间没有交集,节点集中的每个节点均具有唯一的节点地址和唯一的节点ID,边集中的每个边均具有唯一的边地址和唯一的边ID。该模型能够严格反映图数据的数学定义,有效地保存数据之间的关系,与现有的最新图数据存储模型相比具有更好的时空效率。
-
公开(公告)号:CN118170818A
公开(公告)日:2024-06-11
申请号:CN202410160803.7
申请日:2024-02-05
Applicant: 南湖实验室
IPC: G06F16/2458 , G06F16/21 , G06F16/22
Abstract: 本发明公开一种数据湖对时序数据的管理方法、系统及电子设备,涉及数据湖技术领域,所述方法包括:实时采集时序数据库中的源数据;将源数据通过数据通道传输到数据湖中;数据通道是通过继承数据湖中的SchemaRelationProvider类、CreatableRelationProvider类、DataSourceRegister类和RelationProvider类创建的。本发明充分发挥了数据湖的能力,大大的提高了采集数据的效率。
-
公开(公告)号:CN118132602A
公开(公告)日:2024-06-04
申请号:CN202410157429.5
申请日:2024-02-04
Applicant: 南湖实验室
IPC: G06F16/2455 , G06F16/2457 , G06F16/35
Abstract: 本发明公开一种多源异构数据管理系统及方法,涉及数据处理领域;该系统包括:相互连接的数据源管理模块和数据采集模块;数据源管理模块基于简化描述抽象算法对多源异构数据进行分类,得到分类数据源;分类数据源包括:结构化数据源、半结构化数据源、非结构化数据源和二进制数据源;对分类数据源进行设定配置规则的信息配置,得到数据源信息;设定配置规则包括:URL、用户名、密码和驱动;数据采集模块采用设定数据处理方式,对数据源信息进行查询检索并读取,得到读取数据;设定数据处理方式包括:批数据模式和流数据模式;本发明能够高效简便的实现数据的处理。
-
公开(公告)号:CN117992433A
公开(公告)日:2024-05-07
申请号:CN202410153131.7
申请日:2024-02-04
Applicant: 南湖实验室
Abstract: 本发明公开一种因果关系数据湖构建方法、系统、电子设备及介质,涉及数据湖、因果推断和数据管理的技术领域。所述方法包括:获取数据湖中各因果分析来源表;将各因果分析来源表按照共同项进行合并得到合成来源表并存储在数据湖中;在所述合成来源表中挑选所有要进行因果分析的属性并调用因果算法包对所有要进行因果分析的属性的值进行因果分析得到多条因果边;根据各所述因果边的ID和预设全局唯一因果关系ID构建因果关系表和来源信息表并将所述因果关系表和所述来源信息表存储在数据湖中,实现因果关系数据湖构建。本发明可解决现有因果分析方法数据来源分散、分析效率低下,以及数据湖本身不具备数据间因果关系的问题。
-
公开(公告)号:CN114510522A
公开(公告)日:2022-05-17
申请号:CN202210030132.3
申请日:2022-01-12
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明提供了一种基于数据分类的数据总线,数据总线按照数据结构种类被划分为多个数据空间,每一类数据结构对应一个数据空间,每个数据空间对应一个接口基类和多个接口子类,各接口子类通过继承相应数据空间中的接口基类进行本数据总线与相应数据结构种类的子类数据结构之间的对接。在数据总线中按照数据结构种类划分数据空间,每个数据空间对应于多种子类型数据结构,用户在操作数据时,只需要区分数据属于哪一大类,无需细分到具体的数据类别,方便用户的使用,同时方便用户扩展新的数据类型,无需进行重写。
-
公开(公告)号:CN113791742B
公开(公告)日:2022-03-25
申请号:CN202111368382.X
申请日:2021-11-18
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明提供了一种高性能的数据湖系统及数据存储方法,数据存储方法包括以下步骤:S1.将文件转成文件流;S2.将文件流转成一个数组嵌套多个子数组的形式;S3.将所述的转成RDD后存储至数据湖的存储层中。本方案提出嵌套的字段结构,为出湖过程的并行处理提供字段结构基础,有效提高出湖性能,并且根据硬件内核灵活生成嵌套的子数组数量,使数据湖具有更强的扩展性能,针对不同的用户均能够保持最佳的入湖效率,满足用户需求。
-
-
-
-
-
-
-
-
-