-
公开(公告)号:CN118939736A
公开(公告)日:2024-11-12
申请号:CN202410944068.9
申请日:2024-07-15
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F16/28 , G06F16/215 , G06F16/2453 , G06F16/22 , G06F16/2455
Abstract: 本发明涉及基于查询和元数据异常检测的数据湖仓聚簇方法与系统,属于大数据计算技术领域。包括:数据采集与预处理;EC‑GKDE算法异常判定:对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,进行初次判定;元数据信息异常判定:获取异常查询任务的关联表,获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;聚簇优化:提交聚簇任务,将小文件合并为大文件。本发明减少存储资源的开销,大大降低了查询任务需要消耗的时间;本发明可以控制聚簇操作执行的次数,减轻聚簇机制带来的并发更新不支持、增量查询不友好和集群资源浪费的问题。
-
公开(公告)号:CN118779197A
公开(公告)日:2024-10-15
申请号:CN202411237023.4
申请日:2024-09-05
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F11/34 , G06F11/30 , G06F9/50 , G06N3/006 , G06F18/23213 , G06F18/2415
Abstract: 本发明涉及一种基于BWO和聚类算法的作业资源消耗模式分析方法,属于大数据计算技术领域;包括:(1)作业运行与任务调度;(2)工作节点资源指标监控;(3)数据预处理和生成数据集;(4)运行基于白鲸优化算法和K‑prototypes算法的BWO/K‑prototypes算法;(5)BWO/K‑prototypes算法最优解应用;(6)聚类结果分析;(7)Flink作业的资源消耗模式分析结果获取与保存。本发明不仅可以提升Flink集群的执行效率,避免异常抛出;还可以减少资源占用,避免不必要的资源浪费。
-
公开(公告)号:CN118470679B
公开(公告)日:2024-09-24
申请号:CN202410916914.6
申请日:2024-07-10
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06V20/56 , G06V20/70 , G06V10/26 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明涉及一种基于轻量级车道线分割识别方法及系统,属于人工智能无人驾驶技术领域。包括:数据预处理:对车道线数据集TuSimple图像进行预处理和图像增强操作,得到训练集、验证集和测试集;构建ULNet轻量级的车道线分割模型,对图像进行训练,获得训练好的参数;将预处理后的图片输入训练好的车道线检测模型中进行车道检测,得到车道线检测结果;训练车道线分割模型对图像车道线进行检测,输出车道线分割结果。本发明能够有效地识别出车道线信息,并且保证能够轻量化地部署在车道线检测移动设备上,模型的计算量较低,达到低参数化的效果,并且模型在训练好后所占用的存储空间很少,能够有效地部署在移动汽车上。
-
公开(公告)号:CN119903216A
公开(公告)日:2025-04-29
申请号:CN202510398399.1
申请日:2025-04-01
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F16/901 , G06F16/9038 , G06F16/904 , G06F16/906 , G06F16/903
Abstract: 本发明涉及基于数据湖通用元数据模型的元数据管理系统及方法,属于元数据模型技术领域,包括:元数据摄取模块,在多源异构数据入湖过程中摄取元数据;建模模块,通过元数据模型对摄取的元数据进行建模,并支持动态扩展;元数据库,用于接收和存储摄取的元数据;元数据管理模块,管理数据湖中多源异构数据的元数据和数据血缘,以图的形式进行可视化展示;其中,通过元数据模型对摄取的元数据进行建模,并支持动态扩展;包括:元数据以图的形式建模,用节点表示数据实体和元数据实体,自定义数据结构,包括结构化数据、半结构化数据和非结构化数据;用边表示节点之间的关联关系。本发明支持数据湖中的多源异构数据用例。
-
公开(公告)号:CN119597458A
公开(公告)日:2025-03-11
申请号:CN202411623640.8
申请日:2024-11-14
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F9/50 , G06F16/242 , G06F16/27 , G06F16/28
Abstract: 本发明涉及一种基于查询成本预测的资源组管理方法与系统,包括:数据采集与预处理;查询成本预测:输入XGBoost‑TF‑IDF算法,训练查询成本预测模型,再输入训练好的查询成本预测模型,预测用户提交的查询任务需要消耗的集群资源;集群配置:优化内存池的分配方式,再配置集群资源组为即时任务资源组和批处理任务资源组,分别优化即时任务资源组和批处理任务资源组的资源配置;资源组分类优化:根据查询任务的预测成本,将查询任务标记为即时任务或批处理任务并分发到相应资源组,并利用查询任务的预测成本对资源组进行动态的资源扩容和限制。通过本发明,合理分配集群的内存资源,提高查询集群的查询效率和稳定性。
-
公开(公告)号:CN118503229B
公开(公告)日:2024-09-27
申请号:CN202410961286.3
申请日:2024-07-18
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F16/21 , G06F16/22 , G06F16/2455 , G06F16/27
Abstract: 本发明涉及一种面向多源异构数据的Hudi数据摄取方法及系统,属于数据处理技术领域,包括:发布数据入湖任务:上传入湖任务的相关信息,发布入湖任务;执行数据入湖任务:采用Apache Hudi作为数据湖架构,通过数据入湖处理引擎将原始数据从数据源传输到数据湖中进行存储,同时采集原始数据的元数据信息,并将原始数据的元数据信息持久化存储到元数据库中;构建数据资源目录:根据采集的元数据以及元数据在数据湖中的相关信息构建数据湖的数据资源目录。本发明通过网关架构对所有数据流进行集中管理,简化来自不同源的数据集成过程,降低系统的复杂性和总体拥有成本。
-
公开(公告)号:CN117112667A
公开(公告)日:2023-11-24
申请号:CN202311071030.7
申请日:2023-08-24
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F16/25 , G06F16/21 , G06F16/215
Abstract: 本发明涉及一种基于湖仓一体的高校关系数据处理方法和系统,包括:将高校各业务系统原始数据抽取入湖仓及分割初始元数据入仓,并将有标签的元数据存入湖仓;构建初版高校数据标准映射字典,并将其数据标准中的中文简称同化成模型语义类别标签;对抽取入湖仓的未含有标注的元数据进行语义识别,基于模型语义类别标签对元数据标注进行纠错,并更新回填至湖仓的元数据标注中;基于数据仓库中的高校元数据标准映射字典,映射整合并构建分级分类的高校数据资产目录;实现数据资产目录发布及查询搜索。本发明构建了统一的高校元数据标准映射数据字典,实现业务系统与实现不同业务系统与高校统一元数据标准之间的关联映射,构建统一的数据资产目录。
-
公开(公告)号:CN118470679A
公开(公告)日:2024-08-09
申请号:CN202410916914.6
申请日:2024-07-10
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06V20/56 , G06V20/70 , G06V10/26 , G06V10/44 , G06V10/52 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明涉及一种基于轻量级车道线分割识别方法及系统,属于人工智能无人驾驶技术领域。包括:数据预处理:对车道线数据集TuSimple图像进行预处理和图像增强操作,得到训练集、验证集和测试集;构建ULNet轻量级的车道线分割模型,对图像进行训练,获得训练好的参数;将预处理后的图片输入训练好的车道线检测模型中进行车道检测,得到车道线检测结果;训练车道线分割模型对图像车道线进行检测,输出车道线分割结果。本发明能够有效地识别出车道线信息,并且保证能够轻量化地部署在车道线检测移动设备上,模型的计算量较低,达到低参数化的效果,并且模型在训练好后所占用的存储空间很少,能够有效地部署在移动汽车上。
-
公开(公告)号:CN118503229A
公开(公告)日:2024-08-16
申请号:CN202410961286.3
申请日:2024-07-18
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F16/21 , G06F16/22 , G06F16/2455 , G06F16/27
Abstract: 本发明涉及一种面向多源异构数据的Hudi数据摄取方法及系统,属于数据处理技术领域,包括:发布数据入湖任务:上传入湖任务的相关信息,发布入湖任务;执行数据入湖任务:采用Apache Hudi作为数据湖架构,通过数据入湖处理引擎将原始数据从数据源传输到数据湖中进行存储,同时采集原始数据的元数据信息,并将原始数据的元数据信息持久化存储到元数据库中;构建数据资源目录:根据采集的元数据以及元数据在数据湖中的相关信息构建数据湖的数据资源目录。本发明通过网关架构对所有数据流进行集中管理,简化来自不同源的数据集成过程,降低系统的复杂性和总体拥有成本。
-
公开(公告)号:CN118779197B
公开(公告)日:2025-02-14
申请号:CN202411237023.4
申请日:2024-09-05
Applicant: 山东省计算中心(国家超级计算济南中心) , 齐鲁工业大学(山东省科学院)
IPC: G06F11/34 , G06F11/30 , G06F9/50 , G06N3/006 , G06F18/23213 , G06F18/2415
Abstract: 本发明涉及一种基于BWO和聚类算法的作业资源消耗模式分析方法,属于大数据计算技术领域;包括:(1)作业运行与任务调度;(2)工作节点资源指标监控;(3)数据预处理和生成数据集;(4)运行基于白鲸优化算法和K‑prototypes算法的BWO/K‑prototypes算法;(5)BWO/K‑prototypes算法最优解应用;(6)聚类结果分析;(7)Flink作业的资源消耗模式分析结果获取与保存。本发明不仅可以提升Flink集群的执行效率,避免异常抛出;还可以减少资源占用,避免不必要的资源浪费。
-
-
-
-
-
-
-
-
-