一种用于中文历史文献密集文本的文字检测识别方法

    公开(公告)号:CN109800756B

    公开(公告)日:2021-02-12

    申请号:CN201811533332.0

    申请日:2018-12-14

    Abstract: 本发明公开了一种用于中文历史文献密集文本的文字检测识别方法,包括步骤:(1)数据获取:采集历史文献图像,进行人工标注;(2)数据预处理:对历史文献图像进行竖直投影做列切分,将历史文献中竖直的文本按列切开;(3)构建并预训练一个单行文本识别的卷积神经网络;(4)构建一个对单行文本进行文字检测的卷积神经网络,与进行单行文本识别的卷积神经网络共享浅层参数,同时进行训练;文字检测卷积神经网络利用文本识别卷积神经网络所提供的文本信息,对检测的位置进行微调,实现精确检测历史文献中密集文本的单个文字位置。本发明采用了卷积神经网络实现文本识别,并且充分利用文本识别分类器的指导信息,检测的效果可以更加精确。

    一种用于中文历史文献密集文本的文字检测识别方法

    公开(公告)号:CN109800756A

    公开(公告)日:2019-05-24

    申请号:CN201811533332.0

    申请日:2018-12-14

    Abstract: 本发明公开了一种用于中文历史文献密集文本的文字检测识别方法,包括步骤:(1)数据获取:采集历史文献图像,进行人工标注;(2)数据预处理:对历史文献图像进行竖直投影做列切分,将历史文献中竖直的文本按列切开;(3)构建并预训练一个单行文本识别的卷积神经网络;(4)构建一个对单行文本进行文字检测的卷积神经网络,与进行单行文本识别的卷积神经网络共享浅层参数,同时进行训练;文字检测卷积神经网络利用文本识别卷积神经网络所提供的文本信息,对检测的位置进行微调,实现精确检测历史文献中密集文本的单个文字位置。本发明采用了卷积神经网络实现文本识别,并且充分利用文本识别分类器的指导信息,检测的效果可以更加精确。

    一种基于注意力机制的文本行单字分割方法

    公开(公告)号:CN110399879A

    公开(公告)日:2019-11-01

    申请号:CN201910517862.4

    申请日:2019-06-14

    Abstract: 本发明公开一种基于注意力机制的文本行单字分割方法,包括收集文本行训练图像;对图像的尺寸做归一化;对训练图像做数据增广;创建基于注意力机制的文本行识别网络;通过大量训练数据训练得到识别模型;将待分割文本行图像输入到识别模型中,通过注意力机制的权重概率分布计算单字分割结果;本发明注意力机制中的权重概率分布,在识别文本行内容的同时,能够将文本行中的单字分割出来,并且只需要标注文本内容,而不需要标注单字的位置,节省了大量人力,实现了弱监督的文本行单字分割。

    一种基于注意力机制的文本行单字分割方法

    公开(公告)号:CN110399879B

    公开(公告)日:2022-05-13

    申请号:CN201910517862.4

    申请日:2019-06-14

    Abstract: 本发明公开一种基于注意力机制的文本行单字分割方法,包括收集文本行训练图像;对图像的尺寸做归一化;对训练图像做数据增广;创建基于注意力机制的文本行识别网络;通过大量训练数据训练得到识别模型;将待分割文本行图像输入到识别模型中,通过注意力机制的权重概率分布计算单字分割结果;本发明注意力机制中的权重概率分布,在识别文本行内容的同时,能够将文本行中的单字分割出来,并且只需要标注文本内容,而不需要标注单字的位置,节省了大量人力,实现了弱监督的文本行单字分割。

Patent Agency Ranking