一种基于字符距离感知的场景文本识别方法

    公开(公告)号:CN115116066A

    公开(公告)日:2022-09-27

    申请号:CN202210689812.6

    申请日:2022-06-17

    Applicant: 复旦大学

    Abstract: 本发明属于图像文本识别技术领域,具体为一种基于字符距离感知的场景文本识别方法。本发明结合视觉、语义和字符位置三个域信息进行场景文本的识别;其首先同时编码待识别文本的语义、视觉和字符位置特征,然后通过迭代的使用自注意力和交叉注意力解码及融合,强化字符位置特征,并将字符语义信息和视觉信息并行的融入到字符位置特征,让其拥有更精准的内容感知嵌入,从而具备在语义和视觉空间描绘字符距离的能力。相比于当前业内主流的识别方法,本发明对字符距离拥有更精准的建模能力,能在字符间距差异大、识别挑战大的数据集上获得识别精度优势。

    基于注意力增强薄板样条变换的图像文本矫正方法

    公开(公告)号:CN116543390A

    公开(公告)日:2023-08-04

    申请号:CN202310536598.5

    申请日:2023-05-12

    Applicant: 复旦大学

    Abstract: 本发明提供了一种基于注意力增强薄板样条变换的图像文本矫正方法,具有这样的特征,包括以下步骤:步骤S1,对不规则文本图像进行处理得到预处理文本图像;步骤S2,根据预处理文本图像得到尺度特征图;步骤S3,根据尺度特征图进得到编码特征图和解码特征图;步骤S4,根据编码特征图得到前景控制点;步骤S5,根据编码特征图得到各个前景控制点的预测偏移量;步骤S6,根据预测偏移量得到回归前景控制点;步骤S7~S9,根据解码特征图和解码特征图得到公式;步骤S10,根据公式得到矫正特征图;步骤S11,根据矫正特征图生成矫正结果。总之,本方法能够提高图像文本的矫正质量进而提高识别准确性。

Patent Agency Ranking