一种结合语义分割和序列预测的通用表格识别方法和装置

    公开(公告)号:CN116311310A

    公开(公告)日:2023-06-23

    申请号:CN202310566244.5

    申请日:2023-05-19

    Abstract: 本发明公开了一种结合语义分割和序列预测的通用表格识别方法和装置,该方法综合使用YOLO、VGG、UNet、SLANet、DBNet、SVTR深度学习模型,结合以语义分割为基础的两阶段方案与以序列预测为基础的端到端方案,可用于图片格式的各类表格识别,包括有线表、少线表和无线表。该方法可识别表格中的结构信息以及文本信息。可识别包含表格的图片类型包括扫描图片和从任意角度拍摄的图片。本发明训练一个目标检测模型同时用于表格检测和表格分类,并针对现有表格识别方法对有线表识别不准的问题,提出了一种简单有效的合并单元格的方法,在TableBank数据集上比端到端的方案在TEDS指标上提高了9.34个百分点(79.24%)。

    用于大语言模型的富文本数据处理方法、设备、存储介质

    公开(公告)号:CN117252153B

    公开(公告)日:2024-02-02

    申请号:CN202311532530.6

    申请日:2023-11-17

    Abstract: 本发明涉及一种用于大语言模型的富文本数据处理方法、设备、存储介质,方法包括如下步骤:获取富文本数据,通过解析和/或识别得到文本数据及其对应的坐标;基于字体大小对所述文本数据对应的坐标进行单位化处理;以空格为元素构建字符矩阵,基于单位化处理后的坐标,将所述文本数据填充至所述字符矩阵的对应位置;将所述字符矩阵转换为包含空间信息的最终文本,作为大语言模型的输入。与现有技术相比,本发明整个处理过程类似于将整个富文本进行栅格化处理,可以对多种文档类型进行处理的同时,保留了原始富文本中的空间信息。

    一种任务治理方法、装置、存储介质及电子设备

    公开(公告)号:CN116302898A

    公开(公告)日:2023-06-23

    申请号:CN202310557260.8

    申请日:2023-05-17

    Abstract: 本说明书公开了一种任务治理方法、装置、存储介质及电子设备,本说明书实施例根据数据中台已执行的任务的执行信息所确定出的任务指标参数,对任务评估模型进行有监督训练,得到训练后模型。之后,将数据中台中当前执行的目标任务的任务指标参数输入到训练后模型中,以通过训练后模型输出目标任务是否健康的评估结果,基于评估结果,确定针对目标任务的治理策略,按照治理策略,对目标任务进行治理。在此方法中,根据执行任务时的运行时长和资源消耗相关的指标参数,通过模型对这个任务的健康状态进行量化。当这个任务的量化结果表示不健康时,可以采用一些治理策略,对这个任务进行治理,从而在一定程度上提高任务执行效率和减少资源浪费。

    一种基于增量式演化LSTM的流数据预测方法及装置

    公开(公告)号:CN114202065A

    公开(公告)日:2022-03-18

    申请号:CN202210145595.4

    申请日:2022-02-17

    Abstract: 本发明公开了一种基于增量式演化LSTM的流数据预测方法及装置,基于历史数据的初始LSTM预测模型构建;面向流式数据的增量式LSTM预测模型持续更新,进行增量式LSTM预测模型结构及参数演化;基于适应性粒子滤波的收敛加速;基于当前LSTM预测模型,进行流式数据的预测。本发明适应性好,基于新增数据持续对预测模型进行调整;调整速度快,基于适应性粒子滤波技术加速演化算法的收敛速度。基于上述优点更好地解决流数据预测中数据分布变化带来的预测准确度下降的问题。

    一种业务执行的方法、装置、存储介质及电子设备

    公开(公告)号:CN118709692A

    公开(公告)日:2024-09-27

    申请号:CN202410862829.6

    申请日:2024-06-28

    Abstract: 本说明书公开了一种业务执行的方法、装置、存储介质及电子设备。其中,首先获取待命名实体对应的原始名称信息,将预设的目标实体库中包含的至少部分实体对应的名称信息以及待命名实体的原始名称信息输入到预设的大语言模型中,以使大语言模型根据目标实体库中包含的至少部分实体对应的名称信息,确定目标实体库对应的实体命名规则,并根据实体命名规则,确定出待命名实体在目标实体库的实体命名规则下的名称信息,作为待命名实体对应的目标名称信息,根据待命名实体对应的目标名称信息,执行业务。

    基于直方图的自适应阈值R峰检测、心律分类方法及装置

    公开(公告)号:CN115120248B

    公开(公告)日:2022-12-20

    申请号:CN202211068196.9

    申请日:2022-09-02

    Abstract: 本发明公开了基于直方图的自适应阈值R峰检测、心律分类方法及装置,通过计算心电信号的最大、最小值,若最小值的绝对值大于最大值,则将预处理后的心电信号进行水平翻转;提取心电信号的极大值作为候选R峰;统计R峰的直方图分布;根据人体极限心率范围及心电信号时长,确定R峰的数量范围,并截取相应的直方图范围;根据最大类间方差法确定直方图分割阈值,从而得到R峰阈值;取高于阈值的R峰;根据人体极限心率范围,确定R峰间隔阈值,过滤小于间隔阈值的R峰,得到最终的R峰。根据R峰值,计算时域特征,再将时域特征转换为频域特征,将时域特征和频域特征作为心电信号特征指标;将心电信号特征指标输入心电识别模型获得心律分类结果。

    基于直方图的自适应阈值R峰检测、心律分类方法及装置

    公开(公告)号:CN115120248A

    公开(公告)日:2022-09-30

    申请号:CN202211068196.9

    申请日:2022-09-02

    Abstract: 本发明公开了基于直方图的自适应阈值R峰检测、心律分类方法及装置,通过计算心电信号的最大、最小值,若最小值的绝对值大于最大值,则将预处理后的心电信号进行水平翻转;提取心电信号的极大值作为候选R峰;统计R峰的直方图分布;根据人体极限心率范围及心电信号时长,确定R峰的数量范围,并截取相应的直方图范围;根据最大类间方差法确定直方图分割阈值,从而得到R峰阈值;取高于阈值的R峰;根据人体极限心率范围,确定R峰间隔阈值,过滤小于间隔阈值的R峰,得到最终的R峰。根据R峰值,计算时域特征,再将时域特征转换为频域特征,将时域特征和频域特征作为心电信号特征指标;将心电信号特征指标输入心电识别模型获得心律分类结果。

    一种基于字段语义的数据表自动join推荐方法

    公开(公告)号:CN113673252A

    公开(公告)日:2021-11-19

    申请号:CN202110924937.8

    申请日:2021-08-12

    Abstract: 本发明涉及多维数据分析领域,具体为一种基于字段语义的数据表自动join推荐方法,包括:步骤1,将待join的两数据表中的字段两两组合,作为计算相似度值的集合;步骤2,推断出字段的语义类型;步骤3,判断两字段的数据类型和语义类型是否一致,再判断两字段名是否一致,接着判断两字段值是否存在枚举类;步骤4,分别计算字段名相似度和字段值的相似度,后通过加权求和,得到匹配系数,即两字段的相似度;步骤5,将所有字段的相似度的分值从高到低进行排序并输出提取前20条,作为推荐。本发明通过对数据表字段名和字段值的分析来推荐join的联接子句,更准确更全面地帮助用户发现多维数据隐藏的关联信息,有效地提升大数据分析系统的智能化水平。

Patent Agency Ranking