-
公开(公告)号:CN111611933B
公开(公告)日:2023-07-14
申请号:CN202010441086.7
申请日:2020-05-22
Applicant: 中国科学院自动化研究所
IPC: G06V30/40 , G06V30/148 , G06V30/19 , G06V10/80 , G06N3/08 , G06N3/0464 , G06V10/82
Abstract: 本发明涉及一种文档图像的信息提取方法及系统,所述提取方法包括:基于全卷积神经网络,根据待识别文档图像,得到字符感知响应图;采用分水岭算法,对字符感知响应图进行分割,得到多个分割图像;通过连通域提取方法,对各分割图像进行字符提取,得到各分割图像中的字符;基于深度神经网络的字符识别模型,对各字符进行识别,确定各字符的位置信息;根据位置信息,对字符进行合并,得到待识别图像的识别信息。本发明通过全卷积神经网络、分水岭算法、连通域提取方法,确定待识别文档图像的各分割图像中的字符,并基于深度神经网络的字符识别模型,确定各字符的位置信息;进而根据位置信息对字符进行合并,可准确得到待识别图像的识别信息。
-
公开(公告)号:CN103336961A
公开(公告)日:2013-10-02
申请号:CN201310308807.7
申请日:2013-07-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种交互式自然场景文本检测方法,该方法首先在场景图片中标记出感兴趣文本所在区域,即在文本上画一条线;根据这条线从原图中选取一个扩展区域,在扩展区域中进行边缘检测,对边缘检测结果进行连通域标记,再对标记结果的边界进行投影得到边缘文本区域;然后对这个区域分块二值化、连通域标记和投影操作,得到粗略文本区域;最后对粗略文本区域进行分块二值化和反色的二值化操作,对两种二值化结果分别进行连通域标记、去除各种噪声、边界投影和连通域数目确定,根据两种二值图像的连通域数目确定图片极性,再对连通域进行融合得到精确的文本区域。本方法具有局部空间自适应性,对自然场景图片中背景复杂的文本块有很好的检测效果。
-
公开(公告)号:CN117891503A
公开(公告)日:2024-04-16
申请号:CN202311696266.X
申请日:2023-12-11
Applicant: 中国科学院自动化研究所
IPC: G06F8/75
Abstract: 本发明提供一种元素自动探测方法、装置、电子设备及存储介质,应用于数据自动化技术领域。该方法包括:基于用户输入获取目标元素;逐层确定所述目标元素的所有父级节点,并确定所述所有父级节点的序列表示,得到目标序列;对所述目标序列进行层级解析得到目标解析语句,并执行所述目标解析语句得到所述目标元素。
-
公开(公告)号:CN103279753B
公开(公告)日:2016-03-09
申请号:CN201310230927.X
申请日:2013-06-09
Applicant: 中国科学院自动化研究所
IPC: G06K9/20
Abstract: 本发明公开一种基于结构指导的英文场景文本块识别方法,S1在部件上对每类字符建立树结构,并为每类字符训练一个用于检测出该类字符结构的字符树结构模型;S2在待识别的文本块图像中使用每类字符树结构模型对每类字符进行检测,得到所有类别字符的检测结果;S3对检测结果进行非极大值抑制,抑制检测分数低的检测结果,保留检测分数高的检测结果,这些保留的检测结果所在位置代表了候选字符所在的位置,将这些候选字符中的每个候选字符所在的位置设为一个节点,利用这些节点建立条件随机场;S4为条件随机场定义损失函数,所述损失函数包括一元损失函数和二元损失函数;S5对损失函数做最小化处理,得到最终的文本块识别结果。
-
公开(公告)号:CN104537362A
公开(公告)日:2015-04-22
申请号:CN201510022065.0
申请日:2015-01-16
Applicant: 中国科学院自动化研究所
CPC classification number: G06K9/6821
Abstract: 本发明是一种基于域自适应的英文场景文字识别方法,其包括步骤:1、建立位置嵌入词典;2)基于位置嵌入词典的编码和抽取;3)中间域词典的学习;4)文字分类器的训练和测试。本发明方法先通过建立位置嵌入词典解决传统图像金字塔无法应用于场景文字识别的问题,之后通过非监督词典学习方法对训练域和目标域的分布差异进行内插,从而实现域自适应的英文场景文字识别。
-
公开(公告)号:CN103279753A
公开(公告)日:2013-09-04
申请号:CN201310230927.X
申请日:2013-06-09
Applicant: 中国科学院自动化研究所
IPC: G06K9/20
Abstract: 本发明公开一种基于结构指导的英文场景文本块识别方法,S1在部件上对每类字符建立树结构,并为每类字符训练一个用于检测出该类字符结构的字符树结构模型;S2在待识别的文本块图像中使用每类字符树结构模型对每类字符进行检测,得到所有类别字符的检测结果;S3对检测结果进行非极大值抑制,抑制检测分数低的检测结果,保留检测分数高的检测结果,这些保留的检测结果所在位置代表了候选字符所在的位置,将这些候选字符中的每个候选字符所在的位置设为一个节点,利用这些节点建立条件随机场;S4为条件随机场定义损失函数,所述损失函数包括一元损失函数和二元损失函数;S5对损失函数做最小化处理,得到最终的文本块识别结果。
-
公开(公告)号:CN102332097B
公开(公告)日:2013-06-26
申请号:CN201110322549.9
申请日:2011-10-21
Applicant: 中国科学院自动化研究所
IPC: G06K9/20
Abstract: 本发明公开了一种基于图割的复杂背景文本图像分割方法,其包括步骤:1)将原始文本块图像粗分为子图;2)通过估计每个子图的极性,最终决定整个文本块图像的极性;3)根据文本块图像的极性,结合字符笔画的固有特征,自动提供一些置信度较高的前景背景点作为图割的硬约束;4)对子图施加相应的软约束,用图割将硬约束传播到整个子图,进而分割子图;5)将分割的子图合并获得整体的文本分割图像。本发明方法采用分-合的技术,具有局部空间自适应性,从而可以应对背景不均匀的复杂背景文本块图像;同时,本方法自动为图割提供硬约束,结合软约束将硬约束扩展到整幅子图,因此对背景复杂的文本图像可以取得较好的分割效果。
-
公开(公告)号:CN117891862A
公开(公告)日:2024-04-16
申请号:CN202311721127.8
申请日:2023-12-14
Applicant: 中国科学院自动化研究所
IPC: G06F16/25 , G06F16/22 , G06F16/23 , G06V10/764 , G06Q40/12 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种业财数据转换方法、装置、电子设备及存储介质,应用于财会技术领域。该方法包括:获取待处理票据的票据图像;识别所述票据图像中的票据信息;基于预设分类模型确定所述票据信息对应的目标经济事项,基于会计科目映射库确定所述目标经济事项对应的目标会计科目;根据所述目标经济事项和所述目标会计科目生成所述待处理票据的财务记账凭证;其中,所述预设分类模型用于预测输入的票据信息对应的经济事项,所述会计科目映射库包括经济事项与会计科目之间的映射关系。
-
公开(公告)号:CN108805033B
公开(公告)日:2020-12-18
申请号:CN201810492704.3
申请日:2018-05-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于模式识别领域,具体涉及一种基于局部梯度分布的拍摄图像优选方法及装置,旨在解决如何在获取的多张目标文档的图像中快速准确地选择出最清晰的一张图像的问题。为此目的,本发明提供的优选方法包括:获取目标文档的多张尺寸一致的拍摄图像,并设置多个大小一致的第一候选框;计算每个第一候选框内图像的第一边缘信息强度,根据第一边缘信息强度的降序选取第二候选框;对目标文档的每张拍摄图像,计算每张所述拍摄图像的第一评估值和第二评估值;从第一评估值最高的图像和第二评估值最高的图像中选取满足预设条件的图像,并作为优选拍摄图像。本发明提供的优选方法适用于多种类型的文档图像,对于文档图像识别性能的提高有着重要意义。
-
公开(公告)号:CN106570521B
公开(公告)日:2020-04-28
申请号:CN201610924239.7
申请日:2016-10-24
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种多语言场景字符识别方法及识别系统。其中,该方法可以包括:确定场景字符图像中字符的语言类型;根据字符的语言类型,确定深度卷积神经网络模型;利用深度卷积神经网络模型,来提取场景字符图像的卷积层特征;基于卷积层特征,建立空间金字塔模型;利用高斯模型在空间金字塔模型上对每一空间区域进行高阶编码;将高阶编码后的结果拼接起来,作为场景字符描述子;利用分类器对场景字符描述子进行分类,以实现多语言场景字符的识别。本发明实施例对多语言的场景字符图像具有很好的识别效果,是一种通用的字符识别方法,对多语言场景文字识别具有良好的适应性。
-
-
-
-
-
-
-
-
-