基于生成对抗网络的文档图像二值化方法、系统、装置

    公开(公告)号:CN110097059B

    公开(公告)日:2021-04-02

    申请号:CN201910222323.8

    申请日:2019-03-22

    Abstract: 本发明属于图像处理领域,具体涉及一种基于生成对抗网络的文档图像二值化方法、系统、装置,旨在为了解决解决现有二值化方法在文档图片的图像质量参差不齐的情况下其二值化准确度不稳定,鲁棒性较差的问题。本发明方法包括:对原始文档图像进行切分;分基于第一卷积神经网络分别对切分图像、归一化后的原始文档图像进行二值化处理;将得到的二值化图像分别通过拼接、缩放生成原始文档图像尺寸,并与原始文档图像的灰度图进行合并,进行图片切分后通过第二卷积神经网络进二值化,并合并得到的二值化图像块得到最终的二值化图。本发明对于多种类型文档的拍照文档图像可以获取准确度较高的二值化图像,且具有较高的稳定性,鲁棒性强。

    基于二值图分段投影的文档表格线检测方法、系统

    公开(公告)号:CN110084117A

    公开(公告)日:2019-08-02

    申请号:CN201910223004.9

    申请日:2019-03-22

    Abstract: 本发明属于文本图像识别技术领域,具体涉及一种基于二值图分段投影的文档表格线检测方法、系统,旨在为了解决解决文档图像图像质量不稳定带来的表格线识别的准确度和鲁棒性不足的问题。本发明方法包括:输入图像的二值化处理;沿水平方向切分等宽等长的矩形子图,并计算各像素行投影值;获取各子图中表示表格线段的矩形框;基于所有子图,获取表格线候选路径;依据长度信息选择表格线候选路径对应的矩形框得到第一表格线集合,对第一图像旋转后经上述方法得到表格线,你旋转后得到第二表格线集合。本发明且不会受到具体表格类型的影响,具有较好的通用性,且对文档图像图像质量不稳定情况下进行表格线识别,提高了识别准确度和鲁棒性。

    基于二值图分段投影的文档表格线检测方法、系统

    公开(公告)号:CN110084117B

    公开(公告)日:2021-07-20

    申请号:CN201910223004.9

    申请日:2019-03-22

    Abstract: 本发明属于文本图像识别技术领域,具体涉及一种基于二值图分段投影的文档表格线检测方法、系统,旨在为了解决解决文档图像图像质量不稳定带来的表格线识别的准确度和鲁棒性不足的问题。本发明方法包括:输入图像的二值化处理;沿水平方向切分等宽等长的矩形子图,并计算各像素行投影值;获取各子图中表示表格线段的矩形框;基于所有子图,获取表格线候选路径;依据长度信息选择表格线候选路径对应的矩形框得到第一表格线集合,对第一图像旋转后经上述方法得到表格线,你旋转后得到第二表格线集合。本发明且不会受到具体表格类型的影响,具有较好的通用性,且对文档图像图像质量不稳定情况下进行表格线识别,提高了识别准确度和鲁棒性。

    基于单字匹配的文档图像中文关键词检测方法、系统

    公开(公告)号:CN110059572A

    公开(公告)日:2019-07-26

    申请号:CN201910222318.7

    申请日:2019-03-22

    Abstract: 本发明属于文本图像识别技术领域,具体涉及一种基于单字匹配的文档图像中文关键词检测方法、系统,旨在解决解决文档图像图像质量不稳定及汉字排列多样性带来的中文关键词识别的准确度和鲁棒性不足的问题,本发明方法包括:对文档图像进行二值化处理得到第一图像;进行字符检测得到第一候选字符集合;对第一候选字符集合进行过滤得到第二候选字符集合、第一噪声候选字符集合;从第一噪声候选字符集合筛选字符并添加至第二候选字符集合,得到第三候选字符集合;进行候选字符组合得到第一候选词集合;进行丢失字符的二次检测得到第二候选词集合;基于代价函数,选择最终的关键词检测结果。本发明提高了文档关键词识别的准确度,具有高鲁棒性。

    基于单字匹配的文档图像中文关键词检测方法、系统

    公开(公告)号:CN110059572B

    公开(公告)日:2021-08-10

    申请号:CN201910222318.7

    申请日:2019-03-22

    Abstract: 本发明属于文本图像识别技术领域,具体涉及一种基于单字匹配的文档图像中文关键词检测方法、系统,旨在解决解决文档图像图像质量不稳定及汉字排列多样性带来的中文关键词识别的准确度和鲁棒性不足的问题,本发明方法包括:对文档图像进行二值化处理得到第一图像;进行字符检测得到第一候选字符集合;对第一候选字符集合进行过滤得到第二候选字符集合、第一噪声候选字符集合;从第一噪声候选字符集合筛选字符并添加至第二候选字符集合,得到第三候选字符集合;进行候选字符组合得到第一候选词集合;进行丢失字符的二次检测得到第二候选词集合;基于代价函数,选择最终的关键词检测结果。本发明提高了文档关键词识别的准确度,具有高鲁棒性。

    基于生成对抗网络的文档图像二值化方法、系统、装置

    公开(公告)号:CN110097059A

    公开(公告)日:2019-08-06

    申请号:CN201910222323.8

    申请日:2019-03-22

    Abstract: 本发明属于图像处理领域,具体涉及一种基于生成对抗网络的文档图像二值化方法、系统、装置,旨在为了解决解决现有二值化方法在文档图片的图像质量参差不齐的情况下其二值化准确度不稳定,鲁棒性较差的问题。本发明方法包括:对原始文档图像进行切分;分基于第一卷积神经网络分别对切分图像、归一化后的原始文档图像进行二值化处理;将得到的二值化图像分别通过拼接、缩放生成原始文档图像尺寸,并与原始文档图像的灰度图进行合并,进行图片切分后通过第二卷积神经网络进二值化,并合并得到的二值化图像块得到最终的二值化图。本发明对于多种类型文档的拍照文档图像可以获取准确度较高的二值化图像,且具有较高的稳定性,鲁棒性强。

Patent Agency Ranking