一种基于流数据和批数据协同调度处理的数据湖系统

    公开(公告)号:CN115599524A

    公开(公告)日:2023-01-13

    申请号:CN202211329376.8

    申请日:2022-10-27

    Abstract: 本发明涉及一种基于流数据和批数据协同调度处理的数据湖系统,属于数据处理技术领域;解决现有技术在构建数据湖或对数据湖中的数据进行处理时无法实现流数据与批数据处理任务的混合编排,效率低的问题;本发明的数据湖系统包括:集中式存储模块、计算引擎模块和数据管理模块;其中,集中式存储模块用于分类存储各个业务数据源的数据;数据管理模块用于进行数据处理任务编排,并基于预设的数据处理任务协同调度方法,对每个节点的数据处理任务进行调度处理;计算引擎模块用于基于数据处理任务需求,通过不同的计算引擎对集中式存储模块中的数据进行处理,并将处理后的数据基于数据处理任务的需求进行推送或存入集中式存储模块中。

    一种分布式流处理任务调度方法及设备

    公开(公告)号:CN117806781A

    公开(公告)日:2024-04-02

    申请号:CN202311842540.X

    申请日:2023-12-28

    Abstract: 本发明涉及种一种分布式流处理任务调度方法及设备,该方法包括:基于流处理任务中的多个待执行的任务信息,通过控制模块生成有向无环图;并将待执行的任务按照有向无环图中的对应关系下发到对应的物理计算节点;获取各个物理计算节点的资源使用率,并基于资源使用率判断是否需要对对应的物理计算节点的任务进行任务调度;若判定需要进行任务调度,则基于每个物理计算节点的资源信息,计算得到各个物理计算节点对应的任务调度优先级,并基于任务调度优先级最高的物理计算节点对待调度的任务进行任务调度。本发明解决了现有技术中的流处理任务调度时没有考虑硬件资源的限制,导致数据处理瓶颈,进而引起数据处理延迟的问题。

    一种数据处理任务协同控制调度方法及系统

    公开(公告)号:CN115509721A

    公开(公告)日:2022-12-23

    申请号:CN202211330158.6

    申请日:2022-10-27

    Abstract: 本发明涉及一种数据处理任务协同控制调度方法及系统,属于数据处理技术领域;解决现有技术中的数据处理任务调度方法无法实现流数据处理任务与批数据处理任务的混合编排,无法满足用户选择流数据或批数据处理任务类型时无感操作的要求;本发明的方法包括以下步骤:获取当前节点的数据处理任务;根据数据处理任务的任务类型及数据处理进度设置相应的数据状态;并根据数据处理任务的执行状态设置相应的任务状态;获取当前节点的一个或多个下游任务,基于下游任务的任务类型,适配下游任务所需的数据结构;基于当前节点的任务状态、数据状态以及当前节点下游任务的任务类型,判断是否开始运行下游任务,以进行数据处理任务的协同控制调度。

    一种基于业务和结果导向的弹性扩缩容方法

    公开(公告)号:CN118069291B

    公开(公告)日:2025-01-14

    申请号:CN202410176473.0

    申请日:2024-02-08

    Abstract: 本发明涉及一种基于业务和结果导向的弹性扩缩容方法,属于云计算技术领域。本发明方法包括:基于历史扩容数据预测当天负载高峰时段,基于各负载高峰时段对应的历史扩容数据和当天的任务信息确定各负载高峰时段的计划扩容执行时间和计划扩容策略;在各计划扩容策略执行的过程中,基于实时监控的业务指标值和系统性能指标值调整各计划扩容策略,并将调整后扩容策略记录至所述负载高峰时段对应的扩容数据中;其他时段,基于实时监控的业务指标值和系统性能指标值执行实时扩容和缩容并记录至相应时段对应的扩容数据中。本发明方法可以解决现有技术中扩缩容不能满足业务预期效果、扩缩容滞后以及当负载波动大时造成的性能损耗和不稳定问题。

    一种基于规则模板的信息抽取方法和系统

    公开(公告)号:CN115906844B

    公开(公告)日:2023-08-29

    申请号:CN202211361916.0

    申请日:2022-11-02

    Abstract: 本发明涉及一种基于规则模板的信息抽取方法和系统,利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取,具体包括:基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别模型;基于所述抽取需求建立信息抽取规则模板;解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。本发明通过配置规则模板,有效融合行业术语与命名实体识别模型,解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题;以及行业信息抽取常见的长文本抽取中,抽取的信息之间的顺序性、规则性、关联性关系,避免了单一信息抽取模型的信息割裂。

Patent Agency Ranking