一种基于多任务学习的场景文本检测方法及系统

    公开(公告)号:CN115546778A

    公开(公告)日:2022-12-30

    申请号:CN202211298048.6

    申请日:2022-10-22

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于多任务学习的场景文本检测方法及系统,该方法包括:将场景图像输入至文本检测模型,文本检测模型,包括主干网络、特征金字塔网络、区域候选网络和检测网络,其中,利用主干网络和特征金字塔网络对场景图像进行特征提取,得到多尺度特征图,将多尺度特征图输入区域候选网络得到候选区域特征图,并利用检测网络对候选区域特征图进行文本检测得到文本检测结果;其中,检测网络的结构,包括外接框回归分支、掩膜预测分支与文本识别分支的多任务学习级联细化网络结构。本发明对于场景图像复杂的前景和背景变化有较强的适应能力,可以提高文本检测性能。

    基于Gabor滤波器组的字符识别技术

    公开(公告)号:CN1459761B

    公开(公告)日:2010-04-21

    申请号:CN02117865.8

    申请日:2002-05-24

    Applicant: 清华大学

    CPC classification number: G06K9/4609 G06K2209/01

    Abstract: 基于Gabor滤波器组的字符识别方法属于字符图像识别技术领域,其特征在于:在训练系统中依次含有以下步骤:用Gabor滤波器组抽取字符图像中各个方向的笔画,用平均熵相关系数求最优的滤波器参数;对Gabor滤波器组的输出结果作非线性后处理,以进一步增加识别系统对图像亮度、对比度变化以及图像干扰的抵抗能力;对Gabor滤波器组的输出中的正值和负值分别用高斯滤波器阵列计算识别特征,并合成为一个高维的特征矢量;用线性鉴别分析法降低特征矢量的维数,以增强识别性能,降低分类器的复杂度和计算量。该方法与具体的语种无关,成功的解决了低质量图像中的字符识别问题,对于印刷体和脱机手写汉字获得了目前最高的识别率。对身份证的总体识别率到达了90%以上,已经符合实用的要求。

    图像匹配方法
    14.
    发明授权

    公开(公告)号:CN100530222C

    公开(公告)日:2009-08-19

    申请号:CN200710176039.9

    申请日:2007-10-18

    Applicant: 清华大学

    Abstract: 本发明公开了一种图像匹配方法,属于图像匹配技术领域。所述方法包括:利用MSER方法检测出待匹配的图像中的同质区域;采用椭圆区域方程对检测到的每个同质区域进行拟合;采用椭圆形梯度直方图和多尺度图像分解抽取经过椭圆区域方程拟合后的同质区域所在测量区域的特征向量;采用分层k均值聚类算法构造同质区域集合的二叉树,进行图像匹配;采用结合二叉树的渐进式方法构建感兴趣区域的分类器,进行图像匹配。本发明结合图像尺度空间和统计学习方法大大地降低了提取图像特征向量的复杂度和局部区域匹配复杂度,同时增强了图像匹配算法的稳定性。

    一种基于人脸生理性运动的活体检测方法及系统

    公开(公告)号:CN100514353C

    公开(公告)日:2009-07-15

    申请号:CN200710178088.6

    申请日:2007-11-26

    Applicant: 清华大学

    CPC classification number: G06K9/00899 G06K9/00221

    Abstract: 本发明公开了一种基于人脸生理性运动的活体检测方法及系统,属于人脸识别技术领域。所述方法包括:步骤A:检测系统摄像视角内物体的运动区域和运动方向,锁定人脸检测结果框;步骤B:判断所述人脸检测结果框内是否存在有效的人脸面部运动,如果不存在,则认为是照片人脸,如果存在,则转入步骤C;步骤C:判断所述人脸检测结果框内的所述人脸面部运动是否为生理性运动,如果不是,则认为是照片人脸,如果是,则认为是真实人脸。所述系统包括:检测运动模块、有效人脸面部运动判断模块和生理性运动判断模块。通过本发明所述技术方案,可以区别真实人脸与照片人脸,提高人脸识别系统的可靠性。

    印刷蒙古文文本切分方法
    16.
    发明授权

    公开(公告)号:CN100470582C

    公开(公告)日:2009-03-18

    申请号:CN200710065195.8

    申请日:2007-04-06

    Applicant: 清华大学

    Abstract: 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词;接着估计文字列各处的基线位置;最后根据基线位置和词轮廓寻找字素切点,把词切分成字素。本发明在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5%以上。

    一种基于人脸生理性运动的活体检测方法及系统

    公开(公告)号:CN101159016A

    公开(公告)日:2008-04-09

    申请号:CN200710178088.6

    申请日:2007-11-26

    Applicant: 清华大学

    CPC classification number: G06K9/00899 G06K9/00221

    Abstract: 本发明公开了一种基于人脸生理性运动的活体检测方法及系统,属于人脸识别技术领域。所述方法包括:步骤A:检测系统摄像视角内物体的运动区域和运动方向,锁定人脸检测结果框;步骤B:判断所述人脸检测结果框内是否存在有效的人脸面部运动,如果不存在,则认为是照片人脸,如果存在,则转入步骤C;步骤C:判断所述人脸检测结果框内的所述人脸面部运动是否为生理性运动,如果不是,则认为是照片人脸,如果是,则认为是真实人脸。所述系统包括:检测运动模块、有效人脸面部运动判断模块和生理性运动判断模块。通过本发明所述技术方案,可以区别真实人脸与照片人脸,提高人脸识别系统的可靠性。

    复杂背景图像中鲁棒的眼睛精确定位方法

    公开(公告)号:CN100336071C

    公开(公告)日:2007-09-05

    申请号:CN200510086249.X

    申请日:2005-08-19

    Applicant: 清华大学

    Abstract: 复杂背景下的眼睛精确定位技术属于人脸识别领域。其特征在于,提出了一种性能鲁棒的复杂背景下图像中的眼睛精确定位方法。它采用高效率和高冗余度的微结构特征来表达眼睛模式局部和全局区域的灰度分布特点;并采用AdaBoost算法从中选择出最具有区分的微结构特征构成强分类器,综合考虑了局部特征以及能够表达这种约束关系的全局特征得到更鲁棒的定位效果。从而以更简单的结构实现复杂背景图像下更高性能的的双眼定位;在多个公开数据库上以及竞赛评测的结果证明了本发明的优异性能。

    印刷体阿拉伯字符集文本切分方法

    公开(公告)号:CN1741035A

    公开(公告)日:2006-03-01

    申请号:CN200510086478.1

    申请日:2005-09-23

    Applicant: 清华大学

    Abstract: 印刷体阿拉伯字符集文本切分方法属于光学字符识别中的字符切分领域。本发明特征在于:在字符块分类的基础上,选择部分字符块水平投影分割文本图像成子区域,然后检测多行子区域归并字符块实现多行子区域的文字行切分;随后估计文字行的基线和顶线位置,并把文字行切分成联体字符段;最后根据字符切点的特点寻找在基线上、基线上方及基线下方的切点,并且利用结构规则删除过切分点。本发明在多字体多字号印刷体阿拉伯文本测试集上的字符切分正确率达到99%以上。

Patent Agency Ranking