-
公开(公告)号:CN115599524A
公开(公告)日:2023-01-13
申请号:CN202211329376.8
申请日:2022-10-27
Applicant: 中国兵器工业计算机应用技术研究所(CN)
IPC: G06F9/48
Abstract: 本发明涉及一种基于流数据和批数据协同调度处理的数据湖系统,属于数据处理技术领域;解决现有技术在构建数据湖或对数据湖中的数据进行处理时无法实现流数据与批数据处理任务的混合编排,效率低的问题;本发明的数据湖系统包括:集中式存储模块、计算引擎模块和数据管理模块;其中,集中式存储模块用于分类存储各个业务数据源的数据;数据管理模块用于进行数据处理任务编排,并基于预设的数据处理任务协同调度方法,对每个节点的数据处理任务进行调度处理;计算引擎模块用于基于数据处理任务需求,通过不同的计算引擎对集中式存储模块中的数据进行处理,并将处理后的数据基于数据处理任务的需求进行推送或存入集中式存储模块中。
-
公开(公告)号:CN115509721B
公开(公告)日:2023-05-16
申请号:CN202211330158.6
申请日:2022-10-27
Applicant: 中国兵器工业计算机应用技术研究所
IPC: G06F9/48
Abstract: 本发明涉及一种数据处理任务协同控制调度方法及系统,属于数据处理技术领域;解决现有技术中的数据处理任务调度方法无法实现流数据处理任务与批数据处理任务的混合编排,无法满足用户选择流数据或批数据处理任务类型时无感操作的要求;本发明的方法包括以下步骤:获取当前节点的数据处理任务;根据数据处理任务的任务类型及数据处理进度设置相应的数据状态;并根据数据处理任务的执行状态设置相应的任务状态;获取当前节点的一个或多个下游任务,基于下游任务的任务类型,适配下游任务所需的数据结构;基于当前节点的任务状态、数据状态以及当前节点下游任务的任务类型,判断是否开始运行下游任务,以进行数据处理任务的协同控制调度。
-
公开(公告)号:CN115509721A
公开(公告)日:2022-12-23
申请号:CN202211330158.6
申请日:2022-10-27
Applicant: 中国兵器工业计算机应用技术研究所
IPC: G06F9/48
Abstract: 本发明涉及一种数据处理任务协同控制调度方法及系统,属于数据处理技术领域;解决现有技术中的数据处理任务调度方法无法实现流数据处理任务与批数据处理任务的混合编排,无法满足用户选择流数据或批数据处理任务类型时无感操作的要求;本发明的方法包括以下步骤:获取当前节点的数据处理任务;根据数据处理任务的任务类型及数据处理进度设置相应的数据状态;并根据数据处理任务的执行状态设置相应的任务状态;获取当前节点的一个或多个下游任务,基于下游任务的任务类型,适配下游任务所需的数据结构;基于当前节点的任务状态、数据状态以及当前节点下游任务的任务类型,判断是否开始运行下游任务,以进行数据处理任务的协同控制调度。
-
公开(公告)号:CN115906844B
公开(公告)日:2023-08-29
申请号:CN202211361916.0
申请日:2022-11-02
Applicant: 中国兵器工业计算机应用技术研究所
IPC: G06F40/295 , G06F40/242 , G06F18/214
Abstract: 本发明涉及一种基于规则模板的信息抽取方法和系统,利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取,具体包括:基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别模型;基于所述抽取需求建立信息抽取规则模板;解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。本发明通过配置规则模板,有效融合行业术语与命名实体识别模型,解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题;以及行业信息抽取常见的长文本抽取中,抽取的信息之间的顺序性、规则性、关联性关系,避免了单一信息抽取模型的信息割裂。
-
公开(公告)号:CN115757655B
公开(公告)日:2023-07-07
申请号:CN202211424823.8
申请日:2022-11-14
Applicant: 中国兵器工业计算机应用技术研究所
IPC: G06F16/28 , G06N7/01 , G06F16/215
Abstract: 本发明涉及一种基于元数据管理的数据血缘分析系统和方法,属于大数据技术领域。本发明通过获取多个数据源的原始数据,基于清洗规则进行清洗处理,得到清洗后数据;基于数据规范规则对清洗后数据进行规范化处理,得到规范数据;所述数据规范规则包括标准代码映射库和规范化规则;使用数据集成算法集成所述规范数据得到集成后数据;构建元数据管理体系;基于元数据管理体系进行数据的血缘分析并存储到图数据库。本发明提供的血缘分析系统和方法,对异地、异构数据做到表字段级别的血缘分析,支持快速准确的对数据质量回溯和定位问题,实现了对数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系展示。
-
公开(公告)号:CN115438101B
公开(公告)日:2023-06-06
申请号:CN202211250887.0
申请日:2022-10-13
Applicant: 中国兵器工业计算机应用技术研究所
IPC: G06F16/2458 , G06F16/215 , G06F16/22 , G06N20/00
Abstract: 本发明属于计算机科学的机器学习领域,尤其涉及一种基于特征形态和数据关系的数据特征构建系统和方法。本发明充分考虑了数据之间的关联性,根据数据之间的关联性构建DAG执行聚合图,并根据数据特征的统计值构建衍生的数据特征,然后根据DAG执行聚合图对数据特征进行聚合操作,对聚合后特征集进行过滤处理和降维处理。本发明通过DAG执行聚合图充分考虑了数据特征之间的关联性,通过构建衍生的数据特征满足了对业务多样性的适应,本发明的数据特征构建方法提高了特征的信息浓度,提升了数据特征构建的效率。
-
公开(公告)号:CN115599524B
公开(公告)日:2023-06-09
申请号:CN202211329376.8
申请日:2022-10-27
Applicant: 中国兵器工业计算机应用技术研究所
IPC: G06F9/48
Abstract: 本发明涉及一种基于流数据和批数据协同调度处理的数据湖系统,属于数据处理技术领域;解决现有技术在构建数据湖或对数据湖中的数据进行处理时无法实现流数据与批数据处理任务的混合编排,效率低的问题;本发明的数据湖系统包括:集中式存储模块、计算引擎模块和数据管理模块;其中,集中式存储模块用于分类存储各个业务数据源的数据;数据管理模块用于进行数据处理任务编排,并基于预设的数据处理任务协同调度方法,对每个节点的数据处理任务进行调度处理;计算引擎模块用于基于数据处理任务需求,通过不同的计算引擎对集中式存储模块中的数据进行处理,并将处理后的数据基于数据处理任务的需求进行推送或存入集中式存储模块中。
-
公开(公告)号:CN115906844A
公开(公告)日:2023-04-04
申请号:CN202211361916.0
申请日:2022-11-02
Applicant: 中国兵器工业计算机应用技术研究所
IPC: G06F40/295 , G06F40/242 , G06F18/214
Abstract: 本发明涉及一种基于规则模板的信息抽取方法和系统,利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取,具体包括:基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别模型;基于所述抽取需求建立信息抽取规则模板;解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。本发明通过配置规则模板,有效融合行业术语与命名实体识别模型,解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题;以及行业信息抽取常见的长文本抽取中,抽取的信息之间的顺序性、规则性、关联性关系,避免了单一信息抽取模型的信息割裂。
-
公开(公告)号:CN115757655A
公开(公告)日:2023-03-07
申请号:CN202211424823.8
申请日:2022-11-14
Applicant: 中国兵器工业计算机应用技术研究所
IPC: G06F16/28 , G06N7/01 , G06F16/215
Abstract: 本发明涉及一种基于元数据管理的数据血缘分析系统和方法,属于大数据技术领域。本发明通过获取多个数据源的原始数据,基于清洗规则进行清洗处理,得到清洗后数据;基于数据规范规则对清洗后数据进行规范化处理,得到规范数据;所述数据规范规则包括标准代码映射库和规范化规则;使用数据集成算法集成所述规范数据得到集成后数据;构建元数据管理体系;基于元数据管理体系进行数据的血缘分析并存储到图数据库。本发明提供的血缘分析系统和方法,对异地、异构数据做到表字段级别的血缘分析,支持快速准确的对数据质量回溯和定位问题,实现了对数据、数据源、API、清洗规则、数据标准、应用和管理全要素血缘关系展示。
-
公开(公告)号:CN115438101A
公开(公告)日:2022-12-06
申请号:CN202211250887.0
申请日:2022-10-13
Applicant: 中国兵器工业计算机应用技术研究所
IPC: G06F16/2458 , G06F16/215 , G06F16/22 , G06N20/00
Abstract: 本发明属于计算机科学的机器学习领域,尤其涉及一种基于特征形态和数据关系的数据特征构建系统和方法。本发明充分考虑了数据之间的关联性,根据数据之间的关联性构建DAG执行聚合图,并根据数据特征的统计值构建衍生的数据特征,然后根据DAG执行聚合图对数据特征进行聚合操作,对聚合后特征集进行过滤处理和降维处理。本发明通过DAG执行聚合图充分考虑了数据特征之间的关联性,通过构建衍生的数据特征满足了对业务多样性的适应,本发明的数据特征构建方法提高了特征的信息浓度,提升了数据特征构建的效率。
-
-
-
-
-
-
-
-
-