-
公开(公告)号:CN114048260A
公开(公告)日:2022-02-15
申请号:CN202210029283.7
申请日:2022-01-12
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明提供了一种数据湖与关系型数据库互联的方法,包括以下步骤:S1.在数据湖中添加关系型数据库的数据源类;S2.数据湖匹配使用关系型数据库的数据源类;S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接。本发明通过传参的方式将数据源注册配置文件、关系型数据库配置文件和驱动包目录串联起来,在启动数据湖时,不需要指定具体要使用哪个数据库,直接使用相应的数据库即可,也不需要遍历配置文件,用户按需通过传递参数的形式获取所需的配置信息即可,实现数据湖与关系型数据库之间的高效连接和双向读写。
-
公开(公告)号:CN114510522A
公开(公告)日:2022-05-17
申请号:CN202210030132.3
申请日:2022-01-12
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明提供了一种基于数据分类的数据总线,数据总线按照数据结构种类被划分为多个数据空间,每一类数据结构对应一个数据空间,每个数据空间对应一个接口基类和多个接口子类,各接口子类通过继承相应数据空间中的接口基类进行本数据总线与相应数据结构种类的子类数据结构之间的对接。在数据总线中按照数据结构种类划分数据空间,每个数据空间对应于多种子类型数据结构,用户在操作数据时,只需要区分数据属于哪一大类,无需细分到具体的数据类别,方便用户的使用,同时方便用户扩展新的数据类型,无需进行重写。
-
公开(公告)号:CN113791742B
公开(公告)日:2022-03-25
申请号:CN202111368382.X
申请日:2021-11-18
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明提供了一种高性能的数据湖系统及数据存储方法,数据存储方法包括以下步骤:S1.将文件转成文件流;S2.将文件流转成一个数组嵌套多个子数组的形式;S3.将所述的转成RDD后存储至数据湖的存储层中。本方案提出嵌套的字段结构,为出湖过程的并行处理提供字段结构基础,有效提高出湖性能,并且根据硬件内核灵活生成嵌套的子数组数量,使数据湖具有更强的扩展性能,针对不同的用户均能够保持最佳的入湖效率,满足用户需求。
-
公开(公告)号:CN114048260B
公开(公告)日:2022-09-09
申请号:CN202210029283.7
申请日:2022-01-12
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明提供了一种数据湖与关系型数据库互联的方法,包括以下步骤:S1.在数据湖中添加关系型数据库的数据源类;S2.数据湖匹配使用关系型数据库的数据源类;S3.根据数据源类确定并加载相应驱动以与相应关系型数据库进行连接。本发明通过传参的方式将数据源注册配置文件、关系型数据库配置文件和驱动包目录串联起来,在启动数据湖时,不需要指定具体要使用哪个数据库,直接使用相应的数据库即可,也不需要遍历配置文件,用户按需通过传递参数的形式获取所需的配置信息即可,实现数据湖与关系型数据库之间的高效连接和双向读写。
-
公开(公告)号:CN114528337A
公开(公告)日:2022-05-24
申请号:CN202210029808.7
申请日:2022-01-12
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明公开了一种面向多源异构数据源的接口系统、通用接口及其实现方法,以面向多源异构数据源的通用接口实现方法为基础,包括:新建一个工程,并在工程内建立一个通用接口;在通用接口中建立相互独立的数据集合和操作集合;其中,数据集合被定义为能够被具体数据类型继承,且包括数据基类和继承数据基类的二级数据类;操作集合包括操作基类和继承操作基类的二级操作类;且所述的二级操作类被定义有其适用的具体数据类型以实现数据集合与操作集合的解耦与正交。通用接口中数据和操作形成两个独立的集合,并将操作抽象为接口,实现数据与操作的解耦和正交,使数据和操作能够自由地组合,实现操作的复用。
-
公开(公告)号:CN114510522B
公开(公告)日:2025-03-11
申请号:CN202210030132.3
申请日:2022-01-12
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明提供了一种基于数据分类的数据总线,数据总线按照数据结构种类被划分为多个数据空间,每一类数据结构对应一个数据空间,每个数据空间对应一个接口基类和多个接口子类,各接口子类通过继承相应数据空间中的接口基类进行本数据总线与相应数据结构种类的子类数据结构之间的对接。在数据总线中按照数据结构种类划分数据空间,每个数据空间对应于多种子类型数据结构,用户在操作数据时,只需要区分数据属于哪一大类,无需细分到具体的数据类别,方便用户的使用,同时方便用户扩展新的数据类型,无需进行重写。
-
公开(公告)号:CN114528337B
公开(公告)日:2024-03-15
申请号:CN202210029808.7
申请日:2022-01-12
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明公开了一种面向多源异构数据源的接口系统、通用接口及其实现方法,以面向多源异构数据源的通用接口实现方法为基础,包括:新建一个工程,并在工程内建立一个通用接口;在通用接口中建立相互独立的数据集合和操作集合;其中,数据集合被定义为能够被具体数据类型继承,且包括数据基类和继承数据基类的二级数据类;操作集合包括操作基类和继承操作基类的二级操作类;且所述的二级操作类被定义有其适用的具体数据类型以实现数据集合与操作集合的解耦与正交。通用接口中数据和操作形成两个独立的集合,并将操作抽象为接口,实现数据与操作的解耦和正交,使数据和操作能够自由地组合,实现操作的复用。
-
公开(公告)号:CN116150410A
公开(公告)日:2023-05-23
申请号:CN202310045347.7
申请日:2023-01-30
Applicant: 北京大数据先进技术研究院
Abstract: 本发明提供了一种基于数据湖的数字对象存储方法,它解决了现有DOA架构对于大数据处理效果较差等问题,其包括如下步骤:S1:组织DOA架构;S2:引入数据湖,将数据湖作为DOA架构的数字对象仓库;S3:输出基于数据湖的DOA架构;S4:数字对象在数据湖内进行抽象封装、CRUD以及元数据管理。本发明具有大数据处理效果好、兼容多种数据系统等优点。
-
公开(公告)号:CN113961753B
公开(公告)日:2023-04-21
申请号:CN202111049100.X
申请日:2021-09-08
Applicant: 南湖实验室
IPC: G06F16/901
Abstract: 本发明提供了一种基于集合的图数据存储模型及其图数据库,在本图数据存储模型中,图被划分为独立的节点集和独立的边集,且节点集和边集之间没有交集,节点集中的每个节点均具有唯一的节点地址和唯一的节点ID,边集中的每个边均具有唯一的边地址和唯一的边ID。该模型能够严格反映图数据的数学定义,有效地保存数据之间的关系,与现有的最新图数据存储模型相比具有更好的时空效率。
-
公开(公告)号:CN113961754B
公开(公告)日:2023-02-10
申请号:CN202111049920.9
申请日:2021-09-08
Applicant: 南湖实验室
IPC: G06F16/901
Abstract: 本发明提供了一种基于持久内存的图数据库系统,包括计算层和存储层,所述的存储层包括具有图数据存储模型的图数据库和存储架构,在图数据存储模型中,图被划分为独立的节点集和独立的边集,且节点集和边集之间没有交集,节点集中的每个节点均具有一个唯一的节点地址,边集中的每个边均有唯一的边地址;所述的存储架构包括持久内存。本方案优化图数据存储模型,提出了一种新的基于集合的图数据存储模型,与传统的基于邻接矩阵和邻接链表的图数据存储模型有着本质的不同和全新的视角,通过该模型能够严格反映图数据的数学定义,有效地保存数据之间的关系,与现有的图数据存储模型相比,具有更好的时空效率。
-
-
-
-
-
-
-
-
-