-
公开(公告)号:CN111144469A
公开(公告)日:2020-05-12
申请号:CN201911321107.5
申请日:2019-12-20
Applicant: 复旦大学
Abstract: 本发明属于人工智能技术领域,具体为一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。本发明设计了编码器、多维关联时序分类神经网络和解码器;对含有多个文本序列的图片进行编码解码,编码器将原始的图片映射到特征空间,多维关联时序分类神经网在特征空间上捕获图片的空间时序信息,并利用该信息对各个位置进行文本识别,解码器则根据分类得到的最大概率类别图进行解码生成多序列文本。本发明方法框架简单、使用方便、可扩展性强、可解释性强。本发明设计了多个数据集和实用场景并在其上进行了实验,能够有效的识别图片中的多文本序列。本发明能够为多序列文本识别等底层的计算机视觉任务,提供基础框架和算法的支持。
-
公开(公告)号:CN111144469B
公开(公告)日:2023-05-02
申请号:CN201911321107.5
申请日:2019-12-20
Applicant: 复旦大学
IPC: G06V10/774 , G06V10/764 , G06F18/214 , G06F18/241 , G06V30/40 , G06V10/82 , G06N3/0464
Abstract: 本发明属于人工智能技术领域,具体为一种基于多维关联时序分类神经网络的端到端多序列文本识别方法。本发明设计了编码器、多维关联时序分类神经网络和解码器;对含有多个文本序列的图片进行编码解码,编码器将原始的图片映射到特征空间,多维关联时序分类神经网在特征空间上捕获图片的空间时序信息,并利用该信息对各个位置进行文本识别,解码器则根据分类得到的最大概率类别图进行解码生成多序列文本。本发明方法框架简单、使用方便、可扩展性强、可解释性强。本发明设计了多个数据集和实用场景并在其上进行了实验,能够有效的识别图片中的多文本序列。本发明能够为多序列文本识别等底层的计算机视觉任务,提供基础框架和算法的支持。
-