-
公开(公告)号:CN114528337B
公开(公告)日:2024-03-15
申请号:CN202210029808.7
申请日:2022-01-12
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明公开了一种面向多源异构数据源的接口系统、通用接口及其实现方法,以面向多源异构数据源的通用接口实现方法为基础,包括:新建一个工程,并在工程内建立一个通用接口;在通用接口中建立相互独立的数据集合和操作集合;其中,数据集合被定义为能够被具体数据类型继承,且包括数据基类和继承数据基类的二级数据类;操作集合包括操作基类和继承操作基类的二级操作类;且所述的二级操作类被定义有其适用的具体数据类型以实现数据集合与操作集合的解耦与正交。通用接口中数据和操作形成两个独立的集合,并将操作抽象为接口,实现数据与操作的解耦和正交,使数据和操作能够自由地组合,实现操作的复用。
-
公开(公告)号:CN117333780A
公开(公告)日:2024-01-02
申请号:CN202311470666.9
申请日:2023-11-07
Applicant: 南湖实验室
IPC: G06V20/13 , G06V20/10 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种基于水污染监测分析驱动因素的方法、系统及设备,涉及环境污染分析领域;所述方法包括:获取目标地区的高分卫星遥感图像;将高分卫星遥感图像输入至地表类型预测模型,确定地表类型;根据地表类型确定遥感数据;对遥感数据进行特征提取以及标准化处理,得到地表遥感处理数据;将地表遥感处理数据输入至水质反演模型,输出水质参数;对水质参数进行标准化处理,得到水质处理参数;将水质处理参数输入至驱动因素分析模型,输出水环境驱动因素数据。本发明能够快速高效的实现对水环境影响因素的分析。
-
公开(公告)号:CN116758426A
公开(公告)日:2023-09-15
申请号:CN202310776569.6
申请日:2023-06-28
Applicant: 南湖实验室
IPC: G06V20/10 , G06V20/17 , G06V10/82 , G06V10/24 , G06V10/44 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开一种浮游藻类检测方法、系统及电子设备,涉及计算机视觉技术领域。本发明通过采用河道浮游藻类检测模型能够基于待检测河道不同区域、不同河段的影像数据,精确、快速的得到逐像素的浮游藻类检测结果。并且,本发明在河道浮游藻类检测模型中设置多个域自适应特征提取模块,能够提高对影像数据中目标与背景差异的区分能力,设置多个边界对齐模块能够增强目标特征提取能力,能够显著提高浮游藻类检测的精确度,进而有效降低浮游藻类治理的经济、生态成本。
-
公开(公告)号:CN116340317A
公开(公告)日:2023-06-27
申请号:CN202310272727.4
申请日:2023-03-21
Applicant: 南湖实验室
IPC: G06F16/22 , G06F16/242 , G06F18/25
Abstract: 本方案公开了一种基于Elasticsearch实现DeltaLake数据湖索引的方法,入湖时,Spark对源数据进行抽取,对抽取出的数据集进行Schema分析,同时增加数据存储地址信息组成索引结构,实现入湖过程中,针对不同数据源的数据,如果用户未选择创建索引的列,由系统自动推断索引结构,实现基于数据源种类的天然分类。搜索时,不同源数据具有不同的索引结构,源数据因此被分类,查询过程中,根据用户指定在某一类或几类数据范围内进行查询,指定某一类数据进行快速查询。本方案针对Delta Lake数据湖引入Elasticsearch,实现了Elasticsearch与Delta Lake有机结合。在数据入湖过程中,异步建立索引,在数据搜索过程中,只需要关键字,就能迅速定位到已经建立索引的数据的位置,进而快速抓取到需要的数据。
-
公开(公告)号:CN115908369A
公开(公告)日:2023-04-04
申请号:CN202211604247.5
申请日:2022-12-13
Applicant: 南湖实验室
Abstract: 本发明提供了一种基于语义对齐和特征增强的变化检测方法,它解决了边缘检测准确度较差等问题,其包括如下步骤:S1:在编码阶段以ResNet34网络结构构建三分支特征提取器,其中两个时相特征提取分支参数F1、F2共享,融合特征分支参数F3/F独立;S2:通过语义流对齐模块FAM对三分支特征进行融合调度,来自于同分支低维度池化特征标记为F3,与其他两个分支融合结果标记为F;S3:融合特征F作为远程信息通过注意力特征增强模块FEM进行信息增强并与解码阶段同维度信息进行叠加;S4:解码阶段通过结合倒置残差的转置卷积组TCG逐层恢复分辨率至与原图一致,最终输出逐像素变化辨识结果。本发明具有边缘检测准确度高等优点。
-
公开(公告)号:CN118170818A
公开(公告)日:2024-06-11
申请号:CN202410160803.7
申请日:2024-02-05
Applicant: 南湖实验室
IPC: G06F16/2458 , G06F16/21 , G06F16/22
Abstract: 本发明公开一种数据湖对时序数据的管理方法、系统及电子设备,涉及数据湖技术领域,所述方法包括:实时采集时序数据库中的源数据;将源数据通过数据通道传输到数据湖中;数据通道是通过继承数据湖中的SchemaRelationProvider类、CreatableRelationProvider类、DataSourceRegister类和RelationProvider类创建的。本发明充分发挥了数据湖的能力,大大的提高了采集数据的效率。
-
公开(公告)号:CN118132602A
公开(公告)日:2024-06-04
申请号:CN202410157429.5
申请日:2024-02-04
Applicant: 南湖实验室
IPC: G06F16/2455 , G06F16/2457 , G06F16/35
Abstract: 本发明公开一种多源异构数据管理系统及方法,涉及数据处理领域;该系统包括:相互连接的数据源管理模块和数据采集模块;数据源管理模块基于简化描述抽象算法对多源异构数据进行分类,得到分类数据源;分类数据源包括:结构化数据源、半结构化数据源、非结构化数据源和二进制数据源;对分类数据源进行设定配置规则的信息配置,得到数据源信息;设定配置规则包括:URL、用户名、密码和驱动;数据采集模块采用设定数据处理方式,对数据源信息进行查询检索并读取,得到读取数据;设定数据处理方式包括:批数据模式和流数据模式;本发明能够高效简便的实现数据的处理。
-
公开(公告)号:CN117992433A
公开(公告)日:2024-05-07
申请号:CN202410153131.7
申请日:2024-02-04
Applicant: 南湖实验室
Abstract: 本发明公开一种因果关系数据湖构建方法、系统、电子设备及介质,涉及数据湖、因果推断和数据管理的技术领域。所述方法包括:获取数据湖中各因果分析来源表;将各因果分析来源表按照共同项进行合并得到合成来源表并存储在数据湖中;在所述合成来源表中挑选所有要进行因果分析的属性并调用因果算法包对所有要进行因果分析的属性的值进行因果分析得到多条因果边;根据各所述因果边的ID和预设全局唯一因果关系ID构建因果关系表和来源信息表并将所述因果关系表和所述来源信息表存储在数据湖中,实现因果关系数据湖构建。本发明可解决现有因果分析方法数据来源分散、分析效率低下,以及数据湖本身不具备数据间因果关系的问题。
-
公开(公告)号:CN114510522A
公开(公告)日:2022-05-17
申请号:CN202210030132.3
申请日:2022-01-12
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明提供了一种基于数据分类的数据总线,数据总线按照数据结构种类被划分为多个数据空间,每一类数据结构对应一个数据空间,每个数据空间对应一个接口基类和多个接口子类,各接口子类通过继承相应数据空间中的接口基类进行本数据总线与相应数据结构种类的子类数据结构之间的对接。在数据总线中按照数据结构种类划分数据空间,每个数据空间对应于多种子类型数据结构,用户在操作数据时,只需要区分数据属于哪一大类,无需细分到具体的数据类别,方便用户的使用,同时方便用户扩展新的数据类型,无需进行重写。
-
公开(公告)号:CN113791742B
公开(公告)日:2022-03-25
申请号:CN202111368382.X
申请日:2021-11-18
Applicant: 南湖实验室 , 北京大数据先进技术研究院
Abstract: 本发明提供了一种高性能的数据湖系统及数据存储方法,数据存储方法包括以下步骤:S1.将文件转成文件流;S2.将文件流转成一个数组嵌套多个子数组的形式;S3.将所述的转成RDD后存储至数据湖的存储层中。本方案提出嵌套的字段结构,为出湖过程的并行处理提供字段结构基础,有效提高出湖性能,并且根据硬件内核灵活生成嵌套的子数组数量,使数据湖具有更强的扩展性能,针对不同的用户均能够保持最佳的入湖效率,满足用户需求。
-
-
-
-
-
-
-
-
-