-
公开(公告)号:CN116311310A
公开(公告)日:2023-06-23
申请号:CN202310566244.5
申请日:2023-05-19
Applicant: 之江实验室
IPC: G06V30/412 , G06V30/19 , G06V30/148 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种结合语义分割和序列预测的通用表格识别方法和装置,该方法综合使用YOLO、VGG、UNet、SLANet、DBNet、SVTR深度学习模型,结合以语义分割为基础的两阶段方案与以序列预测为基础的端到端方案,可用于图片格式的各类表格识别,包括有线表、少线表和无线表。该方法可识别表格中的结构信息以及文本信息。可识别包含表格的图片类型包括扫描图片和从任意角度拍摄的图片。本发明训练一个目标检测模型同时用于表格检测和表格分类,并针对现有表格识别方法对有线表识别不准的问题,提出了一种简单有效的合并单元格的方法,在TableBank数据集上比端到端的方案在TEDS指标上提高了9.34个百分点(79.24%)。
-
公开(公告)号:CN117252153B
公开(公告)日:2024-02-02
申请号:CN202311532530.6
申请日:2023-11-17
Applicant: 之江实验室
IPC: G06F40/109 , G06F40/166 , G06F40/205
Abstract: 本发明涉及一种用于大语言模型的富文本数据处理方法、设备、存储介质,方法包括如下步骤:获取富文本数据,通过解析和/或识别得到文本数据及其对应的坐标;基于字体大小对所述文本数据对应的坐标进行单位化处理;以空格为元素构建字符矩阵,基于单位化处理后的坐标,将所述文本数据填充至所述字符矩阵的对应位置;将所述字符矩阵转换为包含空间信息的最终文本,作为大语言模型的输入。与现有技术相比,本发明整个处理过程类似于将整个富文本进行栅格化处理,可以对多种文档类型进行处理的同时,保留了原始富文本中的空间信息。
-
公开(公告)号:CN116302898A
公开(公告)日:2023-06-23
申请号:CN202310557260.8
申请日:2023-05-17
Applicant: 之江实验室
IPC: G06F11/34
Abstract: 本说明书公开了一种任务治理方法、装置、存储介质及电子设备,本说明书实施例根据数据中台已执行的任务的执行信息所确定出的任务指标参数,对任务评估模型进行有监督训练,得到训练后模型。之后,将数据中台中当前执行的目标任务的任务指标参数输入到训练后模型中,以通过训练后模型输出目标任务是否健康的评估结果,基于评估结果,确定针对目标任务的治理策略,按照治理策略,对目标任务进行治理。在此方法中,根据执行任务时的运行时长和资源消耗相关的指标参数,通过模型对这个任务的健康状态进行量化。当这个任务的量化结果表示不健康时,可以采用一些治理策略,对这个任务进行治理,从而在一定程度上提高任务执行效率和减少资源浪费。
-
公开(公告)号:CN114202065A
公开(公告)日:2022-03-18
申请号:CN202210145595.4
申请日:2022-02-17
Applicant: 之江实验室
Abstract: 本发明公开了一种基于增量式演化LSTM的流数据预测方法及装置,基于历史数据的初始LSTM预测模型构建;面向流式数据的增量式LSTM预测模型持续更新,进行增量式LSTM预测模型结构及参数演化;基于适应性粒子滤波的收敛加速;基于当前LSTM预测模型,进行流式数据的预测。本发明适应性好,基于新增数据持续对预测模型进行调整;调整速度快,基于适应性粒子滤波技术加速演化算法的收敛速度。基于上述优点更好地解决流数据预测中数据分布变化带来的预测准确度下降的问题。
-
公开(公告)号:CN118709692A
公开(公告)日:2024-09-27
申请号:CN202410862829.6
申请日:2024-06-28
Applicant: 之江实验室
IPC: G06F40/295 , G06F16/332 , G06F16/33 , G06N3/0455
Abstract: 本说明书公开了一种业务执行的方法、装置、存储介质及电子设备。其中,首先获取待命名实体对应的原始名称信息,将预设的目标实体库中包含的至少部分实体对应的名称信息以及待命名实体的原始名称信息输入到预设的大语言模型中,以使大语言模型根据目标实体库中包含的至少部分实体对应的名称信息,确定目标实体库对应的实体命名规则,并根据实体命名规则,确定出待命名实体在目标实体库的实体命名规则下的名称信息,作为待命名实体对应的目标名称信息,根据待命名实体对应的目标名称信息,执行业务。
-
公开(公告)号:CN117608545B
公开(公告)日:2024-05-10
申请号:CN202410065354.8
申请日:2024-01-17
Applicant: 之江实验室
IPC: G06F8/30 , G06F16/36 , G06V30/41 , G06V30/418 , G06V30/413 , G06V30/162 , G06V30/19 , G06V30/146
Abstract: 本发明涉及一种基于知识图谱的标准作业程序生成方法,包括以下步骤:对标准作业程序进行知识图谱的本体设计;对不同类型的标准作业程序文档进行知识抽取的模板标注;基于OCR技术,对标准作业程序文档中的信息进行自动知识抽取;将抽取出的知识与本体概念对齐;构建出每个概念下的实体表;构建用于描述实体间关系的关系表;基于实体表和关系表,进行实体对齐处理;通过Neo4j构建出用于用户查询的图数据库服务。与现有技术相比,本发明将纸质或电子文档形式的标准作业程序数字化,能够有效实现标准作业程序的内容知识化、应用智能化。
-
公开(公告)号:CN117035695A
公开(公告)日:2023-11-10
申请号:CN202311293167.7
申请日:2023-10-08
Applicant: 之江实验室
IPC: G06Q10/10 , G06V30/10 , G06V30/148
Abstract: 本说明书公开了一种信息预警的方法、装置、可读存储介质以及电子设备,可以通过预设的文本处理模型,来将每个贸易措施文件信息对应的贸易措施关联信息与各行业的行业信息进行匹配,并建立以及保存企业、行业与各贸易措施关联信息之间的对应关系,从而使得当出台新的贸易措施文件信息时,可以通过预先建立并保存的该对应关系,快速的确定出与新出台的贸易措施文件信息相匹配的行业,并向归属于匹配出的行业的企业发送预警信息,从而有效地保证了企业免受不必要的损失。
-
公开(公告)号:CN115120248B
公开(公告)日:2022-12-20
申请号:CN202211068196.9
申请日:2022-09-02
Applicant: 之江实验室
IPC: A61B5/352 , A61B5/00 , A61B5/024 , A61B5/0245
Abstract: 本发明公开了基于直方图的自适应阈值R峰检测、心律分类方法及装置,通过计算心电信号的最大、最小值,若最小值的绝对值大于最大值,则将预处理后的心电信号进行水平翻转;提取心电信号的极大值作为候选R峰;统计R峰的直方图分布;根据人体极限心率范围及心电信号时长,确定R峰的数量范围,并截取相应的直方图范围;根据最大类间方差法确定直方图分割阈值,从而得到R峰阈值;取高于阈值的R峰;根据人体极限心率范围,确定R峰间隔阈值,过滤小于间隔阈值的R峰,得到最终的R峰。根据R峰值,计算时域特征,再将时域特征转换为频域特征,将时域特征和频域特征作为心电信号特征指标;将心电信号特征指标输入心电识别模型获得心律分类结果。
-
公开(公告)号:CN115120248A
公开(公告)日:2022-09-30
申请号:CN202211068196.9
申请日:2022-09-02
Applicant: 之江实验室
IPC: A61B5/352 , A61B5/00 , A61B5/024 , A61B5/0245
Abstract: 本发明公开了基于直方图的自适应阈值R峰检测、心律分类方法及装置,通过计算心电信号的最大、最小值,若最小值的绝对值大于最大值,则将预处理后的心电信号进行水平翻转;提取心电信号的极大值作为候选R峰;统计R峰的直方图分布;根据人体极限心率范围及心电信号时长,确定R峰的数量范围,并截取相应的直方图范围;根据最大类间方差法确定直方图分割阈值,从而得到R峰阈值;取高于阈值的R峰;根据人体极限心率范围,确定R峰间隔阈值,过滤小于间隔阈值的R峰,得到最终的R峰。根据R峰值,计算时域特征,再将时域特征转换为频域特征,将时域特征和频域特征作为心电信号特征指标;将心电信号特征指标输入心电识别模型获得心律分类结果。
-
公开(公告)号:CN113673252A
公开(公告)日:2021-11-19
申请号:CN202110924937.8
申请日:2021-08-12
Applicant: 之江实验室
IPC: G06F40/30 , G06F40/289 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明涉及多维数据分析领域,具体为一种基于字段语义的数据表自动join推荐方法,包括:步骤1,将待join的两数据表中的字段两两组合,作为计算相似度值的集合;步骤2,推断出字段的语义类型;步骤3,判断两字段的数据类型和语义类型是否一致,再判断两字段名是否一致,接着判断两字段值是否存在枚举类;步骤4,分别计算字段名相似度和字段值的相似度,后通过加权求和,得到匹配系数,即两字段的相似度;步骤5,将所有字段的相似度的分值从高到低进行排序并输出提取前20条,作为推荐。本发明通过对数据表字段名和字段值的分析来推荐join的联接子句,更准确更全面地帮助用户发现多维数据隐藏的关联信息,有效地提升大数据分析系统的智能化水平。
-
-
-
-
-
-
-
-
-