文本朝向的确定方法、装置、终端及存储介质

    公开(公告)号:CN114782673A

    公开(公告)日:2022-07-22

    申请号:CN202210431188.X

    申请日:2022-04-22

    Inventor: 孙刈凡 杨青

    Abstract: 本申请公开了一种文本朝向的确定方法、装置、终端及存储介质,方法包括:获取原始图像集;依次对原始图像集中的原始图像进行缩放、数据增强,得到目标图像集;利用目标图像集对初始互学习模型进行训练,得到目标互学习模型;将待测图像输入目标互学习模型,得到待测图像中文本的朝向。本发明通过对原始图像进行缩放和数据增强,不仅保证了原始图像中的文本不变形,还可实现动态均衡采样,避免不均衡造成的模型过拟合,最大化模型辨识能力,此外,通过引入互学习的训练策略,在保证模型推理速度的同时,显著提升待检测图像中文本朝检测的准确度。

    非完整框线表格的提取方法、装置、设备及存储介质

    公开(公告)号:CN116740742A

    公开(公告)日:2023-09-12

    申请号:CN202310612931.6

    申请日:2023-05-26

    Inventor: 孙刈凡 杨青

    Abstract: 本发明公开了一种非完整框线表格的提取方法、装置、设备及存储介质,该方法包括:基于PDF文件中表格区域的可见行列线数量确定各个表格的表格类型;将非完整框线表格栅格化获得栅格单元,并对栅格单元进行击中测试,基于击中测试结果确定栅格单元的候选行列线;基于栅格单元中文本框的对齐方式,从候选行列线中确定栅格单元的不可见行列线,以根据不可见行列线提取非完整框线表格。将非完整框线表格栅格化,对栅格化后的栅格单元进行击中测试以确定候选行列线,并结合对齐方式确定非完整框线表格的不可见行列线,如此可以提取出非完整框线表格,解决了当前非完整框线表格提取准确率不高的问题。

    针对不规则表格的信息提取方法、装置、设备及存储介质

    公开(公告)号:CN117891861A

    公开(公告)日:2024-04-16

    申请号:CN202311675674.7

    申请日:2023-12-07

    Inventor: 孙刈凡 杨青

    Abstract: 本申请实施例涉及计算机技术领域,尤其涉及一种针对不规则表格的信息提取方法、装置、设备及存储介质。该方法包括:获取具有文件格式的目标文件;从所述目标文件中解析出不闭合线段;将所述不闭合线段组合单元格的情况下,对所述目标文件中的表格进行提取。采用本申请的技术方案,可以从复杂的PDF文件格式中,提取文本、图形和表格信息,即解决不规则表格的信息提取问题,同时提高表格提取正确率。

    一种信息抽取方法、装置、电子设备以及可读存储介质

    公开(公告)号:CN116434260A

    公开(公告)日:2023-07-14

    申请号:CN202310317733.7

    申请日:2023-03-27

    Inventor: 孙刈凡 杨青

    Abstract: 本申请的实施例提出了一种信息抽取方法、装置、电子设备以及可读存储介质。信息抽取方法包括:获取原始图像;对原始图像进行解析,得到原始图像的文本框;对文本框建立图,其中,以每一个文本框作为节点,基于文本框的空间位置,并以空间位置的四邻域作为每一个节点的边;为每一个节点分配属性信息;依据节点的属性信息以及边的信息对文本框进行配对,并得到配对结果。本实施例可以应用在对银行流水等信息抽取较为困难的应用场景,与相关技术中采用PDF进行信息抽取相比,本申请实施例可以实现全字段抽取,与相关技术中采用深度学习的方式进行信息抽取相比,本申请实施例可以较为快捷的对信息进行抽取,其所花费的时间也较短。

Patent Agency Ranking