一种基于多尺度编码器网络的手写数学公式识别方法

    公开(公告)号:CN117496535A

    公开(公告)日:2024-02-02

    申请号:CN202311231806.7

    申请日:2023-09-22

    Inventor: 袁学刚 杨朝朝

    Abstract: 一种基于多尺度编码器网络的手写数学公式识别方法,属于图像识别技术领域,通过DenseNet编码器提取公式图像中的特征信息,通过MSR模块的分层残差结构缓解DenseNet编码器中多次下采样造成的细节特征丢失,通过Transformer解码器对特征序列进行解码,并输出为LaTeX序列,通过位置编码的位置信息来辅助解码器进行解码,本发明提升了多尺度特征的提取能力和模型训练效率,提出了MSR方法,通过分层残差结构提升了多尺度特征的提取能力,并在一定程度上提高了模型训练效率,引入数据增强方法,通过相似变形来丰富手写数学公式图片中字符的多样性,MsMER模型在不使用额外数据的情况下,取得了良好的性能,在测试集上的识别准确率较高。

Patent Agency Ranking