印刷蒙古文文本切分方法

    公开(公告)号:CN101025791A

    公开(公告)日:2007-08-29

    申请号:CN200710065195.8

    申请日:2007-04-06

    Applicant: 清华大学

    Abstract: 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词;接着估计文字列各处的基线位置;最后根据基线位置和词轮廓寻找字素切点,把词切分成字素。本发明在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5%以上。

    印刷体阿拉伯字符集文本切分方法

    公开(公告)号:CN1332348C

    公开(公告)日:2007-08-15

    申请号:CN200510086478.1

    申请日:2005-09-23

    Applicant: 清华大学

    Abstract: 印刷体阿拉伯字符集文本切分方法属于光学字符识别中的字符切分领域。本发明特征在于:在字符块分类的基础上,选择部分字符块水平投影分割文本图像成子区域,然后检测多行子区域归并字符块实现多行子区域的文字行切分;随后估计文字行的基线和顶线位置,并把文字行切分成联体字符段;最后根据字符切点的特点寻找在基线上、基线上方及基线下方的切点,并且利用结构规则删除过切分点。本发明在多字体多字号印刷体阿拉伯文本测试集上的字符切分正确率达到99%以上。

    印刷蒙古文文本切分方法

    公开(公告)号:CN100470582C

    公开(公告)日:2009-03-18

    申请号:CN200710065195.8

    申请日:2007-04-06

    Applicant: 清华大学

    Abstract: 印刷蒙古文文本切分方法,属于光学字符识别中的字符切分领域。本发明特征在于:在连通体分类的基础上,选择部分连通体竖直投影,分割文本图像成子区域,然后检测多列子区域,归并字符块实现多列子区域的文字列切分;随后把文字列切分成词;接着估计文字列各处的基线位置;最后根据基线位置和词轮廓寻找字素切点,把词切分成字素。本发明在多字体多字号印刷蒙古文文本测试集上的字素切分正确率达到98.5%以上。

    印刷体阿拉伯字符集文本切分方法

    公开(公告)号:CN1741035A

    公开(公告)日:2006-03-01

    申请号:CN200510086478.1

    申请日:2005-09-23

    Applicant: 清华大学

    Abstract: 印刷体阿拉伯字符集文本切分方法属于光学字符识别中的字符切分领域。本发明特征在于:在字符块分类的基础上,选择部分字符块水平投影分割文本图像成子区域,然后检测多行子区域归并字符块实现多行子区域的文字行切分;随后估计文字行的基线和顶线位置,并把文字行切分成联体字符段;最后根据字符切点的特点寻找在基线上、基线上方及基线下方的切点,并且利用结构规则删除过切分点。本发明在多字体多字号印刷体阿拉伯文本测试集上的字符切分正确率达到99%以上。

    基于阿拉伯字符集的印刷体字符识别方法

    公开(公告)号:CN1266643C

    公开(公告)日:2006-07-26

    申请号:CN200410009785.5

    申请日:2004-11-12

    Applicant: 清华大学

    Abstract: 基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域,其特征在于,提取阿拉伯字符集中字符独特的区域信息、字符形式信息、构成部件信息进行预分类,确定输入字符所属的字符类别子集,然后抽取能很好反映字符笔划构成信息的方向特征,在此基础上采用两个步骤进行特征优化处理:1.特征整形;2.由LDA(线性鉴别分析)和K-L变换相结合的特征变换,最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。本发明在多字体多字号维吾尔、哈萨克、柯尔克孜和阿拉伯印刷体字符测试集上的识别正确率均达到99.4%以上。

    基于阿拉伯字符集的印刷体字符识别方法

    公开(公告)号:CN1606028A

    公开(公告)日:2005-04-13

    申请号:CN200410009785.5

    申请日:2004-11-12

    Applicant: 清华大学

    Abstract: 基于阿拉伯字符集的印刷体字符识别方法属于字符识别领域,其特征在于,提取阿拉伯字符集中字符独特的区域信息、字符形式信息、构成部件信息进行预分类,确定输入字符所属的字符类别子集,然后抽取能很好反映字符笔划构成信息的方向特征,在此基础上采用两个步骤进行特征优化处理:1.特征整形;2.由LDA(线性鉴别分析)和K-L变换相结合的特征变换,最后运用MQDF(改进的二次鉴别函数)统计分类器进行分类判决。本发明在多字体多字号维吾尔、哈萨克、柯尔克孜和阿拉伯印刷体字符测试集上的识别正确率均达到99.4%以上。

Patent Agency Ranking