多字体多字号印刷体藏文字符识别方法

    公开(公告)号:CN1251130C

    公开(公告)日:2006-04-12

    申请号:CN200410034107.4

    申请日:2004-04-23

    Applicant: 清华大学

    Abstract: 多字体多字号印刷体藏文字符识别方法属于字符识别领域,其特征在于,提出了针对属于非方块字的印刷体藏文字符特点的归一化方案:将字符图像以基线,即上平线,为分界点分解成互不交叠的两个子图像,对每个子图像分别采用以重心和边框相结合的位置归一化和基于三次B样条函数插值的大小归一化方法;提取能充分反映藏文字符组成信息的四方向线素特征,利用线性鉴别分析LDA压缩降维后得到紧凑的字符特征向量。采用基于置信度分析的粗、细两级分类策略进行字符类别的判决,粗、细分类器分别采用带偏差的欧氏距离EDD和修正的二次鉴别函数MQDF。本发明在多字体多字号印刷体藏文单字测试集上的识别正确率达到99.83%,对实际文本的识别率也可达99%以上。

Patent Agency Ranking