-
公开(公告)号:CN101149790A
公开(公告)日:2008-03-26
申请号:CN200710144588.8
申请日:2007-11-14
Applicant: 哈尔滨工程大学
Abstract: 本发明提供的是一种中文印刷体公式识别方法。包括版面分析、汉字识别和数学公式识别3个模块,版面分析模块是对待识别的BMP图像进行各项预处理二值化,并利用投影法结合自底向上的版面分析算法,分割出文字块、图像块、表格块,对图像块和表格块进行保存处理;汉字识别模块是针对文字块进行虚假行合并、选择切分参数、提取特征和对汉字识别,将拒识的结果记录下来,把同行相邻的拒识结果合并这样可以定位出公式区域;数学公式识别是将拒识出来的文字区域中的公式字符进行提取、分割、合并一些合成字符、识别;最后通过公式字符的结构分析,得出字符间的关系;并最终输出结果为一维的字符串。经过试验证明本发明的识别效果还是令人满意的。
-
公开(公告)号:CN100541521C
公开(公告)日:2009-09-16
申请号:CN200710144588.8
申请日:2007-11-14
Applicant: 哈尔滨工程大学
Abstract: 本发明提供的是一种中文印刷体公式识别方法。包括版面分析、汉字识别和数学公式识别3个模块,版面分析模块是对待识别的BMP图像进行各项预处理二值化,并利用投影法结合自底向上的版面分析算法,分割出文字块、图像块、表格块,对图像块和表格块进行保存处理;汉字识别模块是针对文字块进行虚假行合并、选择切分参数、提取特征和对汉字识别,将拒识的结果记录下来,把同行相邻的拒识结果合并这样可以定位出公式区域;数学公式识别是将拒识出来的文字区域中的公式字符进行提取、分割、合并一些合成字符、识别;最后通过公式字符的结构分析,得出字符间的关系;并最终输出结果为一维的字符串。经过试验证明本发明的识别效果还是令人满意的。
-