-
公开(公告)号:CN118673200A
公开(公告)日:2024-09-20
申请号:CN202410780041.0
申请日:2024-06-17
Applicant: 河钢数字技术股份有限公司
IPC: G06F16/953 , G06F16/9538 , G06F40/205 , G06F40/279 , G06F18/214
Abstract: 本发明公开了一种自动持续采集网络数据微调大语言模型的方法,涉及软件开发技术领域,该自动持续采集网络数据微调大语言模型的方法,包括以下流程:所述度任务的创建与配置、基于搜索引擎的主题内容抓取、页面主体内容解析、固定地址的页面内容抓取、清洗内容数据、内容分句、分段组合、关键词的提取、构建训练服务、生成训练数据并推送、执行大语言模型训练,该自动持续采集网络数据微调大语言模型的方法,通过可视化操作使用户自由上传含有自定义内容的文件,再以自动化的处理、清洗、解析流程将自定义内容投喂给大语言模型中,使大语言模型的训练过程更加方便、简洁、易懂,减轻了专业技术人员操作大语言模型的训练流程。
-
公开(公告)号:CN118585497A
公开(公告)日:2024-09-03
申请号:CN202410740264.4
申请日:2024-06-07
Applicant: 河钢数字技术股份有限公司
Abstract: 本发明公开了一种从文件中提取数据微调大语言模型的方法,涉及软件开发技术领域,一种从文件中提取数据微调大语言模型的方法,此方法使得用户在前台可视化界面上传文件,后台服务端自动将文件的内容提取并生成训练数据推送至大语言模型中,通过编写前台可视化界面实现用户任意文件的上传下载功能,使用Java搭建后台服务端将文件包含内容提取并存储,支持文件格式有Word、Excel、Pdf等十余种;之后将文件内容清洗并按分隔符分割成一条条的语句,再根据实际的大语言模型训练场景需要将语句拼接为大小合适的段落;将段落的关键词提取出来并保存,使用Python搭建执行微调大语言模型的训练服务,接成完整报文推送给训练服务,执行具体的大语言模型训练工作。
-
公开(公告)号:CN115016906A
公开(公告)日:2022-09-06
申请号:CN202210422612.4
申请日:2022-04-21
Applicant: 河钢数字技术股份有限公司
IPC: G06F9/48
Abstract: 本发明涉及工作流技术领域,具体为一种基于工作流任务的数据治理方法及系统,包括zookeeper框架、netty框架、quartz框架和多线程模块,所述执行流程包括以下步骤:创建保存工作流并将任务保存至关系型数据库中;多个主节点抢夺分布式锁,其中一个主节点的扫描线程获取所需执行的工作流;主节点拆分工作流为不同小任务,通过所述netty框架提交给从节点;从节点执行任务,完成后通过所述netty框架将执行结果返回主节点,由主节点将结果保存;对定时运行的任务,主节点扫描后将任务提交给所述quartz框架,自动运行相应工作流。本发明采用zookeeper,netty,quartz框架,可通过拖拽可视形式化配置任务,实时监控数据治理任务的运行状态,配置数据治理任务定时调度运行。
-
公开(公告)号:CN119938014A
公开(公告)日:2025-05-06
申请号:CN202411792190.5
申请日:2024-12-06
Applicant: 河钢数字技术股份有限公司 , 石家庄钢铁有限责任公司
IPC: G06F8/34 , G06F8/38 , G06F3/0483 , G06F3/0486 , G06F40/18
Abstract: 本申请涉及一种基于动态建表的表单设计器,包括组件功能模块、拖拽组件进行画布绘制模块、组件属性配置模块、表单属性配置模块、表单主题样式模块、表单功能模块、组件数据权限校验模块、表单保存后根据表单配置模块和数据库动态生成表结构及其字段模块。本申请实施例提供的整体结构,通过在线可视化拖拽操作生成表单和动态生成数据库表结构,解决了现有技术中高人力成本、时间消耗大、高专业技术要求和系统问题频发的缺陷。通过提供丰富的组件功能,包括密码框、金额框、富文本编辑器和日期选择器等,增强了系统的灵活性和功能性。右侧属性面板允许用户配置组件属性,并支持数据唯一性校验和正则校验,提高了表单数据的准确性和安全性。
-
公开(公告)号:CN117540064A
公开(公告)日:2024-02-09
申请号:CN202311306126.7
申请日:2023-10-10
Applicant: 河钢数字技术股份有限公司 , 雄安威赛博智能科技有限公司
IPC: G06F16/9035 , G06F16/9038 , G06F16/903
Abstract: 本申请适用于电数字数据处理技术领域,提供了报表生成方法、装置、设备及存储介质,该方法包括:获取数据库数据集、待生成报表中的字段、待生成报表中字段的排布位置和预设的各个字段中数据的排列顺序;通过数据集查询过滤器对所述数据库数据集进行筛选处理,得到优化数据集;其中,所述优化数据集为所述数据库数据集中与所述待生成报表生成相关的全部数据的集合;基于所述待生成报表中的字段、所述待生成报表中字段的排布位置、所述预设的各个字段中数据的排列顺序和所述优化数据集,生成目标报表。本申请可以提高报表的生成速度和灵活度。
-
公开(公告)号:CN114625357A
公开(公告)日:2022-06-14
申请号:CN202210375277.7
申请日:2022-04-11
Applicant: 河钢数字技术股份有限公司
IPC: G06F8/34
Abstract: 本发明公开了一种基于二维组件多交互技术的可视化编排平台,涉及数据处理技术领域。通过图形、表格、地图、按钮、文本、翻牌器、媒体、3D模型等组件与交互事件结合,在可视化平台中构建与用户心理映射模型一致的大屏,直观的展示企业数据、工业设备、工作流程的真实情况。对多种数据源的实时采集,支持多种数据源采集与绑定,通过数字化的手段对实体对象作业过程、产生数据进行动态分析、展示;以数据形式为企业生产现状进行分析,为企业后续发展提供支撑。
-
-
-
-
-