一种基于异构技术的数据存储及处理方法

    公开(公告)号:CN117251414A

    公开(公告)日:2023-12-19

    申请号:CN202311534482.4

    申请日:2023-11-17

    Abstract: 本发明提供了一种基于异构技术的数据存储及处理方法,涉及数据存储技术领域,包括:将以同步工具、分布采集工具以及Kafka消息队列构成数据采集模块采集到的目标数据写入数据湖Hudi后再利用Flink、Spark组件进行离线计算处理;将离线处理结果传输至数据仓库生成离线数据报表;利用计算引擎Flink读取并对Kafka消息队列中的数据以及Mysql同步数据实时计算;使用Apache Druid作为数据查询引擎,以供用户查询离线数据、实时数据处理结果。通过采用多数据模式的存储、Flink流批一体数仓计算架构以及Hudi异构技术栈完成所有离线和实时业务统计,有效解决开发成本够高的问题以及提高了数据处理效率;通过使用Apache Druid作为数据查询引擎实现更高效的数据查询以及分析,而改善数据查询效率。

    一种基于组件化的流式数据处理方法

    公开(公告)号:CN119473441A

    公开(公告)日:2025-02-18

    申请号:CN202411329064.6

    申请日:2024-09-23

    Abstract: 本发明提供一种基于组件化的流式数据处理方法,属于数据处理技术领域,包括:通过数据源组件读取接收到的实时流式数据;通过算子组件对接收到的实时流式数据进行第一数据处理,确定第一流式数据;通过窗口操作组件对第一流式数据进行第二数据处理,确定第三流式数据;通过连接器组件将第三流式数据发送至目标系统或外部存储,实现数据的输出或存储。可以提高流式数据质量、一致性和完整性,根据需求轻松调整、替换或扩展各个组件,提高流式数据处理的灵活性、及时性和准确性,确保数据输出或存储的高效性与可靠性,实现流式数据处理的实时分析、扩展性和可维护性。

    一种积木式大数据平台的数据处理及分析方法

    公开(公告)号:CN118035537B

    公开(公告)日:2024-12-13

    申请号:CN202311870817.X

    申请日:2023-12-29

    Abstract: 本发明提供了一种积木式大数据平台的数据处理及分析方法,属于大数据处理技术领域,包括:在客户端埋点实时采集多个预设时间段内的用户需求以及用户信息数据;对每个预设时间段内的用户需求进行分析得到对应预设时间段内的多个用户的第一指令以及指令截止时间,并对第一指令以及指令截止时间进行分析,生成至少一个第二指令及每个第二指令的子级别系数;基于预设指令‑模块‑类型库确定每个第二指令所在的业务模块以及指令类型,并根据所述指令类型确定所述第二指令在业务模块中的调用顺序,进而生成调用流程;基于对应第二指令所在预设时间段的下一时间段的指令数据对生成的调用流程进行动态更新。实现了大数据平台的个性化分析。

    基于领域知识的主题化标引方法、装置和设备

    公开(公告)号:CN119106666A

    公开(公告)日:2024-12-10

    申请号:CN202410940501.1

    申请日:2024-07-12

    Abstract: 本发明提供一种基于领域知识的主题化标引方法、装置和设备,方法包括在数据源中收集领域知识;通过自然语言处理对所述领域知识进行降噪处理,得到降噪后领域知识;基于深度学习和自然语言处理提取所述降噪后领域知识的主题特征,基于所述主题特征构建词向量主题模型;基于无监督学习,利用领域知识样本对所述词向量主题模型进行训练,得到领域知识识别模型;输入待确定领域知识至所述领域知识识别模型,确定所述待确定领域知识与目标领域知识的相似度;基于所述相似度确定所述待确定领域知识的主题标引结果,可以比较准确的标引领域知识的主题。

    基于用户分级分类的数据安全管理方法

    公开(公告)号:CN118171139A

    公开(公告)日:2024-06-11

    申请号:CN202311864772.5

    申请日:2023-12-29

    Abstract: 本发明提供了基于用户分级分类的数据安全管理方法,属于数据安全技术领域,其方法包括获取当下社交媒体平台主营类型与副营类型,基于所述主营类型与副营类型对当下社交媒体用户进行基础数据采集;对所述基础数据进行聚类分析,根据聚类分析结果得出第一数据,对所述第一数据进行数据安全识别,得出第二数据;将第二数据输入机器学习模型,对机器学习模型设定分级规则,对用户进行分级,根据分级结果制定数据保护策略;设定数据更新时间对基础数据进行监视、评估与优化,实现对社交媒体用户数据的有效管理和利用,有助于提高用户满意度,保护用户数据安全,并有效提升平台的服务质量和运营效率。

    一种基于异构技术的数据存储及处理方法

    公开(公告)号:CN117251414B

    公开(公告)日:2024-03-26

    申请号:CN202311534482.4

    申请日:2023-11-17

    Abstract: 本发明提供了一种基于异构技术的数据存储及处理方法,涉及数据存储技术领域,包括:将以同步工具、分布采集工具以及Kafka消息队列构成数据采集模块采集到的目标数据写入数据湖Hudi后再利用Flink、Spark组件进行离线计算处理;将离线处理结果传输至数据仓库生成离线数据报表;利用计算引擎Flink读取并对Kafka消息队列中的数据以及Mysql同步数据实时计算;使用Apache Druid作为数据查询引擎,以供用户查询离线数据、实时数据处理结果。通过采用多数据模式的存储、Flink流批一体数仓计算架构以及Hudi异构技术栈完成所有离线和实时业务统计,有效解决开发成本够高的问题以及提高了数据处理效率;通过使用Apache Druid作为数据查询引擎实现更高效的数据查询以及分析,而改善数据查询效率。

    一种基于大数据平台的数据质量灵活验证方法

    公开(公告)号:CN117056576A

    公开(公告)日:2023-11-14

    申请号:CN202311324713.9

    申请日:2023-10-13

    Abstract: 本发明提供了一种基于大数据平台的数据质量灵活验证方法,属于数据处理技术领域,其方法包括:根据输入的初始数据在函数数据库中匹配相应的数据解析函数进行初步解析,提取数据特征,在策略数据库中筛选匹配度大于第一匹配度的第一质量评估策略,根据同一初始数据下的数据特征,在策略数据库中筛选匹配度大于第二匹配度,且小于第一匹配度的第二质量评估策略,对同一解析内容下的第一解析评价结果与第二解析评价结果进行对比分析,得到初始数据的数据质量验证结果,保证数据验证的可靠性。

    基于用户分级分类的数据安全管理方法

    公开(公告)号:CN118171139B

    公开(公告)日:2025-02-14

    申请号:CN202311864772.5

    申请日:2023-12-29

    Abstract: 本发明提供了基于用户分级分类的数据安全管理方法,属于数据安全技术领域,其方法包括获取当下社交媒体平台主营类型与副营类型,基于所述主营类型与副营类型对当下社交媒体用户进行基础数据采集;对所述基础数据进行聚类分析,根据聚类分析结果得出第一数据,对所述第一数据进行数据安全识别,得出第二数据;将第二数据输入机器学习模型,对机器学习模型设定分级规则,对用户进行分级,根据分级结果制定数据保护策略;设定数据更新时间对基础数据进行监视、评估与优化,实现对社交媒体用户数据的有效管理和利用,有助于提高用户满意度,保护用户数据安全,并有效提升平台的服务质量和运营效率。

    一种积木式大数据平台的数据处理及分析方法

    公开(公告)号:CN118035537A

    公开(公告)日:2024-05-14

    申请号:CN202311870817.X

    申请日:2023-12-29

    Abstract: 本发明提供了一种积木式大数据平台的数据处理及分析方法,属于大数据处理技术领域,包括:在客户端埋点实时采集多个预设时间段内的用户需求以及用户信息数据;对每个预设时间段内的用户需求进行分析得到对应预设时间段内的多个用户的第一指令以及指令截止时间,并对第一指令以及指令截止时间进行分析,生成至少一个第二指令及每个第二指令的子级别系数;基于预设指令‑模块‑类型库确定每个第二指令所在的业务模块以及指令类型,并根据所述指令类型确定所述第二指令在业务模块中的调用顺序,进而生成调用流程;基于对应第二指令所在预设时间段的下一时间段的指令数据对生成的调用流程进行动态更新。实现了大数据平台的个性化分析。

    一种数据质量监控修复系统
    10.
    发明公开

    公开(公告)号:CN119474065A

    公开(公告)日:2025-02-18

    申请号:CN202411328784.0

    申请日:2024-09-23

    Abstract: 本发明提供一种数据质量监控修复系统,属于数据修复技术领域,包括:识别模块:获取多个数据源的数据,并自动识别数据中存在的多个数据质量问题;第一确定模块:基于因果关系推理技术确定数据质量问题的根本原因和影响路径;评估模块:评估每个数据质量问题的严重程度和影响范围;选择模块:根据严重程度和影响范围基于预定义规则为每个数据质量问题分配优先级,并确定处理顺序,选择最佳修复策略进行自动修复;自动修复模块:对修复好的数据进行实时持续监控,利用流处理技术和实时分析算法,检测新出现的数据质量问题,并进行自动修复。解决了识别效率低下导致的数据不准确,同时,无法保证数据质量问题的自动化和实时化处理的问题。

Patent Agency Ranking