-
公开(公告)号:CN117152784A
公开(公告)日:2023-12-01
申请号:CN202311000952.9
申请日:2023-08-09
Applicant: 同济大学
IPC: G06V30/422 , G06V30/148 , G06V30/19 , G06V30/146 , G06V30/18 , G06V10/82 , G06V30/26
Abstract: 本发明公开了一种基于改进PP‑OCRv3的厂站接线图文本自动检测和识别方法。本发明针对现有基于深度学习的电网图纸文本检测识别方法在处理多尺度、多方向、形状不规则的紧凑文本方面的局限性问题,提出了基于改进PP‑OCRv3的厂站接线图文本自动检测和识别方法。利用基于像素行聚类的区域重分割模块,纠正了包含垂直和水平字符的不规则形状文本的检测错误。通过BiFPN模块中引入通道注意力机制和深度可分卷积,提高了识别模型对不同尺度输入图像的鲁棒性。利用基于区域扩展和切割的字符重识别模块,减少了简单字符和密集文本对模型的不利影响。实验结果表明,本发明通过对PP‑OCRv3的一系列改进,可以显著提高厂站接线图中文本的检测和识别精度。
-
公开(公告)号:CN119992563A
公开(公告)日:2025-05-13
申请号:CN202510068464.4
申请日:2025-01-16
Applicant: 同济大学
IPC: G06V30/19 , G06V30/18 , G06V30/146 , G06V10/82 , G06N3/0464 , G06N3/096 , G06N3/09
Abstract: 本发明属于智能电网和计算机视觉领域,特别涉及一种基于改进SwinTextSpotter v2的厂站接线图文本鲁棒泛化检测识别方法。包括如下步骤:步骤1:将输入图像送入基于多模态学习的文本检测识别网络进行训练和预测,通过共享特征提取主干网络,得到共享特征图,进一步送入文本检测模块得到文本检测结果和文本特征图;步骤2:将文本特征图送入视觉特征提取与预测模块得到特征序列,随后将预测的特征序列与字符结构特征提取与预测模块所得到的规范表示进行匹配,得到识别结果;等等。本发明鲁棒地提升了模型对于不规则文本和汉字文本的检测识别精度,提升了对多种类接线图文本检测与识别的泛化性能。
-