一种基于查询解耦和原型分类的通用文档图像分割方法

    公开(公告)号:CN119919946A

    公开(公告)日:2025-05-02

    申请号:CN202510390289.0

    申请日:2025-03-31

    Abstract: 本发明涉及图像分割领域,提供一种基于查询解耦和原型分类的通用文档图像分割方法,包括:利用视觉骨架网络对输入文档图像提取多尺度视觉特征,并进行优化得到优化后的多尺度视觉特征;利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量;将优化后的多尺度视觉特征、语义查询向量以及实例查询向量输入混合查询解码器中得到更新后的语义查询向量和实例查询向量;利用更新后的语义查询向量和实例查询向量分别进行语义分割和实例分割,得到语义分割结果和实例分割结果。本发明不仅能处理多种类型文档图像上的多种分割任务,还能够以任意文档图像和分割任务提示为输入,输出相应的分割结果。

    试卷内容自动分类的版面分析方法、系统

    公开(公告)号:CN109685065A

    公开(公告)日:2019-04-26

    申请号:CN201811512183.X

    申请日:2018-12-11

    CPC classification number: G06K9/342 G06K9/3233 G06K9/6835 G06N3/0454

    Abstract: 本发明提出一种试卷内容自动分类的版面分析方法及系统,所述方法包括:获取录入的文档图像;提取所述文档图像的连通部件构成原始联通部件集;根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文本连通部件集;对非文本连通部件集中各连通部件,进行文字部件的检测和切分,获得粘连在非文本分类的连通部件中的文字部件,并将该部件增入第一文本连通部件集,得到第二文本连通部件集;对所述第二文本连通部件集中各连通部件,进行印刷体文字和手写体文字的分类;输出文档图像内容的分类结果。采用本发明的方法将元素的分类问题转化成了一个求解所有元素的联合概率最大的全局优化问题,从而可以提升整体的分类正确率。

    PDF文档图文对的提取方法、装置、设备及存储介质

    公开(公告)号:CN118885443A

    公开(公告)日:2024-11-01

    申请号:CN202411357179.6

    申请日:2024-09-27

    Inventor: 李晓辉 刘成林

    Abstract: 本发明提供一种PDF文档图文对的提取方法、装置、设备及存储介质,属于数据处理技术领域,其方法包括:对目标PDF文档进行解析,得到文本块数据和文本块数据对应的文本坐标,将目标PDF文档逐页转换成文档图像;对文本块数据进行筛选去重处理,获取候选图例文本,并确定候选图例文本对应的候选图例文本坐标,基于图像处理技术对文档图像进行处理,提取候选插图区域;基于候选图例文本坐标,对候选图例文本和候选插图区域进行匹配,过滤匹配失败的候选图例文本和匹配失败的候选插图区域,合并属于同一图例的候选插图区域,得到目标PDF文档的图文对匹配结果。从而精准识别并提取PDF文档中的图文对,操作流程简单、硬件资源开销低。

    试卷内容自动分类的版面分析方法、系统

    公开(公告)号:CN109685065B

    公开(公告)日:2021-06-25

    申请号:CN201811512183.X

    申请日:2018-12-11

    Abstract: 本发明提出一种试卷内容自动分类的版面分析方法及系统,所述方法包括:获取录入的文档图像;提取所述文档图像的连通部件构成原始联通部件集;根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文本连通部件集;对非文本连通部件集中各连通部件,进行文字部件的检测和切分,获得粘连在非文本分类的连通部件中的文字部件,并将该部件增入第一文本连通部件集,得到第二文本连通部件集;对所述第二文本连通部件集中各连通部件,进行印刷体文字和手写体文字的分类;输出文档图像内容的分类结果。采用本发明的方法将元素的分类问题转化成了一个求解所有元素的联合概率最大的全局优化问题,从而可以提升整体的分类正确率。

    可携带文档格式文档图文对的提取方法及装置

    公开(公告)号:CN118885443B

    公开(公告)日:2024-12-27

    申请号:CN202411357179.6

    申请日:2024-09-27

    Inventor: 李晓辉 刘成林

    Abstract: 本发明提供一种PDF文档图文对的提取方法、装置、设备及存储介质,属于数据处理技术领域,其方法包括:对目标PDF文档进行解析,得到文本块数据和文本块数据对应的文本坐标,将目标PDF文档逐页转换成文档图像;对文本块数据进行筛选去重处理,获取候选图例文本,并确定候选图例文本对应的候选图例文本坐标,基于图像处理技术对文档图像进行处理,提取候选插图区域;基于候选图例文本坐标,对候选图例文本和候选插图区域进行匹配,过滤匹配失败的候选图例文本和匹配失败的候选插图区域,合并属于同一图例的候选插图区域,得到目标PDF文档的图文对匹配结果。从而精准识别并提取PDF文档中的图文对,操作流程简单、硬件资源开销低。

Patent Agency Ranking