-
公开(公告)号:CN117558010A
公开(公告)日:2024-02-13
申请号:CN202311621519.7
申请日:2023-11-29
Applicant: 华南理工大学
IPC: G06V30/19 , G06V30/148 , G06V30/18 , G06V20/00 , G06V20/62 , G06V10/82 , G06N3/0455
Abstract: 本发明公开了一种像素级别的OCR统一多任务系统及方法,系统包括:图像获取模块、多任务编码器模块、任务提示模块和多任务解码器模块;所述图像获取模块用于获取待处理文本图像;所述多任务编码器模块用于对所述待处理文本图像进行处理,得到高维特征;所述任务提示模块用于获取与所述高维特征相对应的任务相关特征;所述多任务解码器模块用于对所述任务相关特征进行处理,得到处理结果。本发明能够将多种像素级别的OCR任务,包括文本分割,文本擦除和篡改文本检测,统一到一个模型中,在一个模型上处理多种像素级别的OCR任务,并在各个公开的数据集上达到了较高的准确率,性能高、鲁棒性强,具有极高的实用性和应用价值。
-
公开(公告)号:CN113723421A
公开(公告)日:2021-11-30
申请号:CN202111038228.6
申请日:2021-09-06
Applicant: 华南理工大学
Abstract: 本发明涉及基于匹配类别嵌入的零样本的汉字识别方法,包括:提取汉字文本图像的视觉特征;对汉字类别进行类别嵌入,采用基于层级分解嵌入算法,对汉字的部件进行层级分解,并计算得到相应的嵌入向量;将汉字类别的类别嵌入映射到视觉空间中,基于双向嵌入转移模块,使得汉字类别嵌入的维度等于视觉空间的维度,并保留所述汉字类别的原始信息;通过基于距离的CTC解码器,匹配汉字文本图像的视觉特征和汉字类别嵌入信息,输出汉字文本图像识别的最终结果。本发明通过匹配类别嵌入的方法,实现了零样本的汉字文本识别,该方法适用于汉字长文本识别和零样本汉字识别,此外本发明实现过程简单且灵活,可以应用于主流的文本识别框架。
-
公开(公告)号:CN110223245A
公开(公告)日:2019-09-10
申请号:CN201910405703.5
申请日:2019-05-16
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于深度神经网络的模糊图片清晰化处理方法及系统,所述方法包括以下步骤:通过模糊算法将原图像P进行模糊化处理得到图像 将原图像P与模糊化处理后的图像作为训练数据训练BiCycleGAN网络;实际应用时,将需要处理的模糊图像传输到服务器,服务器接收到该模糊图像数据后,调用训练好的BiCycleGAN网络进行清晰化处理并将处理结果返回。所述方法解决了由于硬件或者图像内容本身造成的模糊问题,并且利用了深度神经网络来解决这一问题,拓展了解决图像模糊的处理方式。
-
公开(公告)号:CN109190458A
公开(公告)日:2019-01-11
申请号:CN201810800214.5
申请日:2018-07-20
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于深度学习的小人头检测方法,包括下述步骤:(1)采集大量图像形成训练集和测试集;(2)对训练集和测试集进行精准贴边的人头标注;(3)利用R-FCN框架,构造深度卷积神经网络,然后利用训练集图像并采用批量训练的随机梯度下降法对所构造的深度神经网络进行训练;(4)基于视觉透视变换对测试图像进行切割再部分放大;(5)将切割并放大后的测试图像,输入步骤(3)所构造的深度卷积神经网络,神经网络输出结果通过Softmax激活函数得到每个预测框的概率分布,计算最小损失函数,根据最小损失函数输出检测结果。本发明通过深度学习算法从图片样本中自动学习出人头与其它背景的不同特征,能够智能的对密集的小人头进行检测。
-
公开(公告)号:CN113723421B
公开(公告)日:2023-10-17
申请号:CN202111038228.6
申请日:2021-09-06
Applicant: 华南理工大学
IPC: G06V30/19 , G06V30/148 , G06N3/04
Abstract: 本发明涉及基于匹配类别嵌入的零样本的汉字识别方法,包括:提取汉字文本图像的视觉特征;对汉字类别进行类别嵌入,采用基于层级分解嵌入算法,对汉字的部件进行层级分解,并计算得到相应的嵌入向量;将汉字类别的类别嵌入映射到视觉空间中,基于双向嵌入转移模块,使得汉字类别嵌入的维度等于视觉空间的维度,并保留所述汉字类别的原始信息;通过基于距离的CTC解码器,匹配汉字文本图像的视觉特征和汉字类别嵌入信息,输出汉字文本图像识别的最终结果。本发明通过匹配类别嵌入的方法,实现了零样本的汉字文本识别,该方法适用于汉字长文本识别和零样本汉字识别,此外本发明实现过程简单且灵活,可以应用于主流的文本识别框架。
-
公开(公告)号:CN114596569A
公开(公告)日:2022-06-07
申请号:CN202210128901.3
申请日:2022-02-11
Applicant: 华南理工大学
Abstract: 本发明公开了一种轻量化文字识别模型设计方法、系统、装置及介质,其中方法包括:选取基准模型:采用基于卷积递归神经网络的文本行识别模型作为基准模型;网络结构搜索:采用ProxylessNAS网络结构搜索算法搜索适用于文字识别任务的主干网络,使用LayeNorm层作为特征序列的归一化层;知识蒸馏:采用基于特征的知识蒸馏方法提升轻量化模型性能,基于SVD分解对蒸馏方法中回归器权重进行赋值,对教师模型提取的特征进行降维;蒸馏辅助网络结构搜索:通过在网络搜索过程中加入蒸馏学习辅助搜索过程。本发明通过将知识蒸馏与网络结构搜索模型进行有机结合,解决现有方法计算量与存储量过大问题,使得文字识别模型能够部署到移动端设备上,可广泛应用于人工智能技术领域。
-
公开(公告)号:CN110533074B
公开(公告)日:2022-03-29
申请号:CN201910694450.8
申请日:2019-07-30
Applicant: 华南理工大学
IPC: G06V10/764 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于双深度神经网络的图片类别自动标注方法及系统,所述方法包括:S1、准备已经标注完成的图片及需要进行自动标注的未标注图片,将已经标注完成的图片分为分别用于训练分类网络和判别网络的两部分图片;S2、搭建包含分类网络和判别网络的双深度神经网络模型;S3、使用已经标注完成的图片训练双深度神经网络模型;S4、使用已训练的双深度神经网络模型对未标注图片的类别进行预测;S5、对未标注图片的预测结果进行处理并选择开启下一次迭代或者结束自动标注。本发明基于双深度神经网络模型,通过判别模型对分类模型的输出进一步优化,实现了低成本、高质量的数据标注,具有广阔的应用前景。
-
公开(公告)号:CN113723423A
公开(公告)日:2021-11-30
申请号:CN202111039925.3
申请日:2021-09-06
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于渐进矫正机制的场景文本识别方法,包括:采集场景文本图像,将所述场景文本图像进行渐进式矫正,获得目标文本图像,基于所述目标文本图像进行文本识别,获得识别结果。本发明通过采用一种渐进的矫正机制将不规则文本矫正为规则文本,并将其准确识别,能够消除拍摄角度带来的透视变形和字符的不规则排列带来的弯曲性等形变,同时剔除或抑制复杂背景带来的干扰,解决了包含不规则文本的场景识别问题,大大提高了识别系统对场景文本的鲁棒性,从而进一步提升了识别效果。
-
公开(公告)号:CN110223245B
公开(公告)日:2021-07-16
申请号:CN201910405703.5
申请日:2019-05-16
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于深度神经网络的模糊图片清晰化处理方法及系统,所述方法包括以下步骤:通过模糊算法将原图像P进行模糊化处理得到图像将原图像P与模糊化处理后的图像作为训练数据训练BiCycleGAN网络;实际应用时,将需要处理的模糊图像传输到服务器,服务器接收到该模糊图像数据后,调用训练好的BiCycleGAN网络进行清晰化处理并将处理结果返回。所述方法解决了由于硬件或者图像内容本身造成的模糊问题,并且利用了深度神经网络来解决这一问题,拓展了解决图像模糊的处理方式。
-
-
-
-
-
-
-
-