-
公开(公告)号:CN119669926A
公开(公告)日:2025-03-21
申请号:CN202411639959.X
申请日:2024-11-18
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F18/2431 , G06F18/22 , G06Q10/10
Abstract: 本发明公开了一种结合大语言模型进行个人信息数据分类分级的方法,涉及数据处理技术,获取个人信息表中的表的元数据信息及字段的元数据信息;从个人信息分类分级标签管理库中提取所有分类分级标签形成分类分级标签列表;通过大语言模型结合分类分级标签列表对所述字段的元数据信息进行分类判断,以将所述字段归类于分类分级标签列表中与其相对应的分类分级标签中;若所述字段分类失败,则通过正则表达式全遍历匹配对字段进行分类分级。本发明还公开了一种结合大语言模型进行个人信息数据分类分级的系统。本发明相比于传统的仅通过正则表达式匹配规则,省去了设计和维护正则表达式的人力,可扩展性和效率都更高。
-
公开(公告)号:CN119669353A
公开(公告)日:2025-03-21
申请号:CN202411683736.3
申请日:2024-11-22
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明公开了一种基于Flink同步数据到南大通用数据库的方法、系统、设备及存储介质,属于同步数据到数据库技术领域,解决目前Flink不支持将数据写入南大通用国产数据库的技术问题。方法为:新建项目并添加南大通用数据库JDBC驱动依赖包、Flink所需要jar、flink‑connector‑mysql‑cdc包;获取所需要修改的flink‑connector‑jdbc项目的源码;并对flink‑connector‑jdbc.jar作适配南大通用数据库改造;在项目额外添加经适配南大通用数据库修改后的flink‑connector‑jdbc‑gbase.jar依赖包;在项目使用flinksql的语法编写将读取Mysql中user表实时同步到南大通用数据库的user表定义信息;将项目打包成jar并运行到flink的环境中;从而能够通过FlinkStream和SQL方式高效地批量写入数据到南大通用数据库。
-
公开(公告)号:CN119127893A
公开(公告)日:2024-12-13
申请号:CN202411156563.X
申请日:2024-08-22
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明公开了一种基于DolphinScheduler的实时数据集成方法,涉及数据处理领域,解决了Flink CDC上手难度高和Apache DolphinScheduler数据处理方式处理延迟高和实时性不足的技术问题。该方法为,步骤一:设置实时集成任务界面,对所述实时集成任务界面中的参数进行校验并根据所述实时集成任务界面的参数创建实时数据集成任务;步骤二:启动所述实时数据集成任务;步骤三:通过所述实时集成任务界面对实时数据集成任务进行停止,当再次启动所述实时数据集成任务时,将所述实时数据集成任务中的数据更新进数据库中。本发明实现将数据变化即时更新到数据库,减少数据延迟,提高数据处理的效率。
-
公开(公告)号:CN119691036A
公开(公告)日:2025-03-25
申请号:CN202411761987.9
申请日:2024-12-03
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F16/25 , G06F16/22 , G06F16/2457 , G06Q10/10
Abstract: 本发明公开了一种电子公文智能搜索方法、系统、设备及存储介质,属于电子公文管理技术领域,解决搜索效率低下、权限控制不精细的技术问题。方法包括数据汇聚流程、数据消费流程、搜索流程;数据汇聚流程是将多个业务系统的数据拉取到数据中台的数据库,经过数据处理与转换后分别加载到统一搜索库中的标准文档表、标准文件表和标准权限表;数据消费流程是通过父索引存储高层次的数据信息,通过子索引存储详细的、细粒度的数据信息,并将标准文档表、标准文件表和标准权限表的数据组装并插入到ES中;搜索流程是根据用户的搜索信息生成搜索结果,将用户信息与标准权限表中预设的权限进行对比,满足要求则允许用户搜索到搜索结果的文档。
-
公开(公告)号:CN119719251A
公开(公告)日:2025-03-28
申请号:CN202411791632.4
申请日:2024-12-06
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明公开了一种非结构化数据采集与管理方法、系统、设备及存储介质,属于数据处理技术领域,解决现有技术难以高效地处理非结构化数据的技术问题。方法为:通过Dolphinscheduler组件从OSS文件服务器拉取文件并存储到本地服务器,随后上传到HDFS系统中;通过ranger权限管理系统对HDFS的文件路径进行用户和用户组读写的权限管理,将文件元数据信息写入到hudi表中;将采集到的非结构化数据发布到资产门户,供用户申请下载使用。本发明通过Dolphinscheduler进行非结构化数据采集与管理的定制化适配,包括非结构化数据自动化采集、权限管理、数据整合、发布使用,从而满足大数据环境下对于不同的数据类型的灵活处理和管理,以高效地处理非结构化数据。
-
公开(公告)号:CN118822519A
公开(公告)日:2024-10-22
申请号:CN202410847703.1
申请日:2024-06-27
Applicant: 中国—东盟信息港股份有限公司
IPC: G06Q20/10 , H04L67/133 , H04L9/40 , G06Q20/32
Abstract: 本发明公开了一种用于数据API跨服务请求场景下的账单处理方法,涉及信息技术,建立数据API的使用方与各个数据服务方之间的合法性业务关联,并生成唯一业务编号;当启动账单生成任务时,根据所述业务编号筛选出每一个使用方‑数据服务方的基础请求数据明细,以生成多份业务账单;将所有的所述业务账单回溯整合为一份汇总账单,并将所述汇总账单发送至使用方。本发明提升了账单数据的可靠性,提高了账单处理效率。
-
公开(公告)号:CN117951156A
公开(公告)日:2024-04-30
申请号:CN202410071020.1
申请日:2024-01-17
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F16/242
Abstract: 本发明涉及自然语言处理的技术领域,尤其是一种基于LlamaIndex和DB‑GPT的大模型自然语言转换为SQL方法,包括下述步骤:配置自然语言到SQL转换的数据源;创建会话,且选择Chat Data作为会话的类型,且在所述会话中选择大模型的底座及选择所述数据源;将LlamaIndex替换大模型的text2vec,以构建查询引擎,且通过LlamaIndex获取自然语言问题相关数据表的元数据结构;通过所述元数据结构及自然语言问题请求所述大模型,以将自然语言问题转化为SQL语句;对所述SQL语句进行优化;对步骤S5中优化后的所述SQL语句进行SQL运行,以获得结果。本发明结合LlamaIndex本地知识库与大模型,根据私域数据库信息,能够得到准确率更高的可执行SQL。
-
公开(公告)号:CN117909046A
公开(公告)日:2024-04-19
申请号:CN202410044787.5
申请日:2024-01-11
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明公开了一种基于DolphinScheduler的任务调度系统,属于信息系统技术领域,其包括用户中心、租户数据库、api服务模块以及master服务模块。其中,api服务模块包括api租户初始化单元和登录拦截单元,master服务模块包括master租户初始化单元和调度任务执行单元。本发明实现了在同一平台上支持多个租户同时进行任务调度,并使得不同租户之间的数据和任务能够得到有效隔离和管理,从而提高了系统的安全性、稳定性以及资源利用率,以解决现有任务调度系统在多租户同时使用时存在资源隔离不足的问题。
-
公开(公告)号:CN117435658A
公开(公告)日:2024-01-23
申请号:CN202311508106.8
申请日:2023-11-13
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F16/25 , G06F16/22 , G06F16/242 , G06F9/48
Abstract: 本发明公开了一种基于DolphinScheduler的数据集成方法,涉及大数据集成技术。获取输入参数;根据所述输入参数获取动态输入表名和动态输出表名;根据所述动态输入表名、动态输出表名以及所述输入参数中的字段映射部分生成Seatunnel配置文件;根据所述动态输入表名、动态输出表名和Seatunnel配置文件创建dolphinScheduler工作流;将所述输入参数转换为定时调度参数,并根据所述定时调度参数创建quartz定时调度任务;将所述dolphinScheduler工作流关联到quartz定时调度任务并启动。本发明提高数据开发的效率,节省了人力成本,同时避免人工配置经常出错的问题,提高了数据集成的扩展度。
-
-
-
-
-
-
-
-