-
公开(公告)号:CN119719251A
公开(公告)日:2025-03-28
申请号:CN202411791632.4
申请日:2024-12-06
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明公开了一种非结构化数据采集与管理方法、系统、设备及存储介质,属于数据处理技术领域,解决现有技术难以高效地处理非结构化数据的技术问题。方法为:通过Dolphinscheduler组件从OSS文件服务器拉取文件并存储到本地服务器,随后上传到HDFS系统中;通过ranger权限管理系统对HDFS的文件路径进行用户和用户组读写的权限管理,将文件元数据信息写入到hudi表中;将采集到的非结构化数据发布到资产门户,供用户申请下载使用。本发明通过Dolphinscheduler进行非结构化数据采集与管理的定制化适配,包括非结构化数据自动化采集、权限管理、数据整合、发布使用,从而满足大数据环境下对于不同的数据类型的灵活处理和管理,以高效地处理非结构化数据。
-
公开(公告)号:CN117951156A
公开(公告)日:2024-04-30
申请号:CN202410071020.1
申请日:2024-01-17
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F16/242
Abstract: 本发明涉及自然语言处理的技术领域,尤其是一种基于LlamaIndex和DB‑GPT的大模型自然语言转换为SQL方法,包括下述步骤:配置自然语言到SQL转换的数据源;创建会话,且选择Chat Data作为会话的类型,且在所述会话中选择大模型的底座及选择所述数据源;将LlamaIndex替换大模型的text2vec,以构建查询引擎,且通过LlamaIndex获取自然语言问题相关数据表的元数据结构;通过所述元数据结构及自然语言问题请求所述大模型,以将自然语言问题转化为SQL语句;对所述SQL语句进行优化;对步骤S5中优化后的所述SQL语句进行SQL运行,以获得结果。本发明结合LlamaIndex本地知识库与大模型,根据私域数据库信息,能够得到准确率更高的可执行SQL。
-
公开(公告)号:CN117909046A
公开(公告)日:2024-04-19
申请号:CN202410044787.5
申请日:2024-01-11
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明公开了一种基于DolphinScheduler的任务调度系统,属于信息系统技术领域,其包括用户中心、租户数据库、api服务模块以及master服务模块。其中,api服务模块包括api租户初始化单元和登录拦截单元,master服务模块包括master租户初始化单元和调度任务执行单元。本发明实现了在同一平台上支持多个租户同时进行任务调度,并使得不同租户之间的数据和任务能够得到有效隔离和管理,从而提高了系统的安全性、稳定性以及资源利用率,以解决现有任务调度系统在多租户同时使用时存在资源隔离不足的问题。
-
公开(公告)号:CN117435658A
公开(公告)日:2024-01-23
申请号:CN202311508106.8
申请日:2023-11-13
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F16/25 , G06F16/22 , G06F16/242 , G06F9/48
Abstract: 本发明公开了一种基于DolphinScheduler的数据集成方法,涉及大数据集成技术。获取输入参数;根据所述输入参数获取动态输入表名和动态输出表名;根据所述动态输入表名、动态输出表名以及所述输入参数中的字段映射部分生成Seatunnel配置文件;根据所述动态输入表名、动态输出表名和Seatunnel配置文件创建dolphinScheduler工作流;将所述输入参数转换为定时调度参数,并根据所述定时调度参数创建quartz定时调度任务;将所述dolphinScheduler工作流关联到quartz定时调度任务并启动。本发明提高数据开发的效率,节省了人力成本,同时避免人工配置经常出错的问题,提高了数据集成的扩展度。
-
公开(公告)号:CN119127893A
公开(公告)日:2024-12-13
申请号:CN202411156563.X
申请日:2024-08-22
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明公开了一种基于DolphinScheduler的实时数据集成方法,涉及数据处理领域,解决了Flink CDC上手难度高和Apache DolphinScheduler数据处理方式处理延迟高和实时性不足的技术问题。该方法为,步骤一:设置实时集成任务界面,对所述实时集成任务界面中的参数进行校验并根据所述实时集成任务界面的参数创建实时数据集成任务;步骤二:启动所述实时数据集成任务;步骤三:通过所述实时集成任务界面对实时数据集成任务进行停止,当再次启动所述实时数据集成任务时,将所述实时数据集成任务中的数据更新进数据库中。本发明实现将数据变化即时更新到数据库,减少数据延迟,提高数据处理的效率。
-
公开(公告)号:CN119669353A
公开(公告)日:2025-03-21
申请号:CN202411683736.3
申请日:2024-11-22
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明公开了一种基于Flink同步数据到南大通用数据库的方法、系统、设备及存储介质,属于同步数据到数据库技术领域,解决目前Flink不支持将数据写入南大通用国产数据库的技术问题。方法为:新建项目并添加南大通用数据库JDBC驱动依赖包、Flink所需要jar、flink‑connector‑mysql‑cdc包;获取所需要修改的flink‑connector‑jdbc项目的源码;并对flink‑connector‑jdbc.jar作适配南大通用数据库改造;在项目额外添加经适配南大通用数据库修改后的flink‑connector‑jdbc‑gbase.jar依赖包;在项目使用flinksql的语法编写将读取Mysql中user表实时同步到南大通用数据库的user表定义信息;将项目打包成jar并运行到flink的环境中;从而能够通过FlinkStream和SQL方式高效地批量写入数据到南大通用数据库。
-
-
-
-
-