-
公开(公告)号:CN118885443A
公开(公告)日:2024-11-01
申请号:CN202411357179.6
申请日:2024-09-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/11 , G06V30/14 , G06V30/148 , G06V30/18 , G06V30/413 , G06V30/42 , G06F16/16
Abstract: 本发明提供一种PDF文档图文对的提取方法、装置、设备及存储介质,属于数据处理技术领域,其方法包括:对目标PDF文档进行解析,得到文本块数据和文本块数据对应的文本坐标,将目标PDF文档逐页转换成文档图像;对文本块数据进行筛选去重处理,获取候选图例文本,并确定候选图例文本对应的候选图例文本坐标,基于图像处理技术对文档图像进行处理,提取候选插图区域;基于候选图例文本坐标,对候选图例文本和候选插图区域进行匹配,过滤匹配失败的候选图例文本和匹配失败的候选插图区域,合并属于同一图例的候选插图区域,得到目标PDF文档的图文对匹配结果。从而精准识别并提取PDF文档中的图文对,操作流程简单、硬件资源开销低。
-
公开(公告)号:CN118644435A
公开(公告)日:2024-09-13
申请号:CN202410541268.X
申请日:2024-04-30
Applicant: 中国科学院自动化研究所
IPC: G06T5/92 , G06T5/94 , G06T5/60 , G06N3/0464 , G06N3/0455 , G06N3/09 , G06N3/0475 , G06N3/0442 , G06N3/094 , G06V10/44 , G06V10/42 , G06V10/80 , G06V10/52 , G06V10/82 , G06N3/048
Abstract: 本发明提供一种文档图像高光去除方法、装置及电子设备,涉及图像处理技术领域,所述方法包括:将带有高光的文档图像输入训练好的高光去除模型,得到去除高光的文档图像;其中,训练好的高光去除模型包括训练好的全局预测模型和训练好的局部预测模型;训练好的全局预测模型用于对带有高光的文档图像进行全局信息捕获,得到初始去除高光的文档图像;训练好的局部预测模型用于对所述初始去除高光的文档图像进行局部信息捕获,得到残差图像;去除高光的文档图像是初始去除高光的文档图像和残差图像相加得到的。本发明实现了高效和精确去除文档图像的高光。
-
公开(公告)号:CN109685065B
公开(公告)日:2021-06-25
申请号:CN201811512183.X
申请日:2018-12-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明提出一种试卷内容自动分类的版面分析方法及系统,所述方法包括:获取录入的文档图像;提取所述文档图像的连通部件构成原始联通部件集;根据文档图像的连通部件,对各连通部件进行文本和非文本的分类,获取第一文本连通部件集、非文本连通部件集;对非文本连通部件集中各连通部件,进行文字部件的检测和切分,获得粘连在非文本分类的连通部件中的文字部件,并将该部件增入第一文本连通部件集,得到第二文本连通部件集;对所述第二文本连通部件集中各连通部件,进行印刷体文字和手写体文字的分类;输出文档图像内容的分类结果。采用本发明的方法将元素的分类问题转化成了一个求解所有元素的联合概率最大的全局优化问题,从而可以提升整体的分类正确率。
-
公开(公告)号:CN109460735B
公开(公告)日:2021-02-02
申请号:CN201811334371.8
申请日:2018-11-09
Applicant: 中国科学院自动化研究所 , 富士通株式会社
Abstract: 本发明属于模式识别领域,具体涉及一种基于图半监督学习的文档二值化处理方法、系统、装置,旨在为了解决古籍文档文本识别准确度较低的问题。本发明方法包括:获取待处理的图像;降采样和k近邻法构图;基于分别从前景和背景中选取样本点作为标记的种子点;采用图半监督学习方法进行结点分类;基于前景结点进行图像恢复;对恢复后的图像进行二值化,得到二值化的图像。本发明可以较好地保留文字的纤细笔画,不仅提提高了文字识别的准确度、也提高了文字细节识别的准确度,对于光照不均和背景复杂的图像也有较好的鲁棒性,同时降采样提高了半监督学习算法求解过程的运行速度。
-
公开(公告)号:CN110232337A
公开(公告)日:2019-09-13
申请号:CN201910454930.7
申请日:2019-05-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉及模式识别领域,具体涉及了一种基于全卷积神经网络的中文字符图像笔划提取方法、系统,旨在解决自由书写的手写字符笔划提取困难的问题。本发明方法包括:对获取的中文字符图像进行区域提取;对交叠区域、非交叠区域进行骨架化操作;计算骨架化后的交叠区域任意笔划段之间的连贯度;将交叠区域中属于同一笔划的笔划段相连,与非交叠区域中直接相连的笔划段合并成完整的骨架形态笔划。本发明一方面在自由书写的手写中文字符笔划重叠的情况下,依然可以实现手写中文字符的笔划提取,另一方面采用了字符合成方法获取训练样本,并附带其在不同任务中的不同标注信息,极大地节约了人力成本。
-
公开(公告)号:CN104216875B
公开(公告)日:2017-05-03
申请号:CN201410502810.7
申请日:2014-09-26
Applicant: 中国科学院自动化研究所
Abstract: 一种基于非监督关键二元词串提取的微博文本自动摘要方法,包括:微博预处理;二元词串标准化;基于混合TF‑IDF、TextRank和LDA的关键二元词串提取;基于交集相似度和互信息策略的句子排序;基于相似度阈值的摘要句抽取;以及合理组合摘要句以生成摘要。本发明以二元词串作为最小词汇单元,而二元词串比词语具备更丰富的上下文信息,因此基于关键二元词串比基于关键词抽取的句子抗噪性更强,准确率更高。同时,提取摘要句时引入相似度阈值控制冗余,因此摘要具备更高的召回率。本方法生成的摘要准确、简洁、全面,显著提高了用户获取知识的效率和质量,节省了用户大量时间。
-
公开(公告)号:CN102542268A
公开(公告)日:2012-07-04
申请号:CN201110451826.6
申请日:2011-12-29
Applicant: 中国科学院自动化研究所
IPC: G06K9/32
Abstract: 一种用于视频中文本区域检测与定位的方法,其特征在于,包含如下步骤:输入视频,按等时间间隔对输入视频进行采样;对采样得到的图像进行边缘检测;利用检测后得到的图像生成文本置信度图;根据生成的文本置信度图提取文本候选区域;对文本候选区域近似相同的多帧图像的文本候选区域进行融合;对融合后的文本区域图像进行分行。本发明的文本检测与定位方法能够实时地对视频中出现的多语言文本进行准确定位。可以适用于视频内容编辑、索引与检索等多种用途。
-
公开(公告)号:CN101853126B
公开(公告)日:2012-02-15
申请号:CN201010175627.2
申请日:2010-05-12
Applicant: 中国科学院自动化研究所
Abstract: 本发明是一种联机手写句子实时识别方法,该方法是:输入开始模块启动笔划输入;笔划采集模块记录笔尖在输入平面上移动的笔划轨迹;实时识别模块对提笔后得到的笔划轨迹进行实时识别;提笔时间判断模块计算提笔时间是否够长;启动字符串识别模块,字符串识别模块根据路径评价准则计算候选切分识别网格中各切分识别路径的分数,并用动态规划算法搜索分数最优的路径得到字符串识别结果;编辑修改模块对字符串识别结果进行编辑修改,对错误的字符切分和字符识别部分通过用户操作进行编辑修改;语言联想模块在字符串识别和编辑修改的基础上,根据最后的字符类别,通过语言联想给出后续的字或词供用户选择,以提高句子输入速度。
-
公开(公告)号:CN119919946A
公开(公告)日:2025-05-02
申请号:CN202510390289.0
申请日:2025-03-31
Applicant: 中国科学院自动化研究所
IPC: G06V30/148 , G06V30/413 , G06V30/412 , G06V30/24 , G06V10/764 , G06V10/82 , G06N3/0455
Abstract: 本发明涉及图像分割领域,提供一种基于查询解耦和原型分类的通用文档图像分割方法,包括:利用视觉骨架网络对输入文档图像提取多尺度视觉特征,并进行优化得到优化后的多尺度视觉特征;利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量;将优化后的多尺度视觉特征、语义查询向量以及实例查询向量输入混合查询解码器中得到更新后的语义查询向量和实例查询向量;利用更新后的语义查询向量和实例查询向量分别进行语义分割和实例分割,得到语义分割结果和实例分割结果。本发明不仅能处理多种类型文档图像上的多种分割任务,还能够以任意文档图像和分割任务提示为输入,输出相应的分割结果。
-
公开(公告)号:CN118537867B
公开(公告)日:2025-02-07
申请号:CN202410673996.6
申请日:2024-05-28
Applicant: 中国科学院自动化研究所 , 乌鲁木齐市公安局刑事侦查支队
IPC: G06V30/148 , G06V30/19 , G06V10/56
Abstract: 本发明提供一种多语种印章文字识别方法、装置、电子设备和存储介质,属于光学字符识别技术领域,该方法包括:使用SAM分割模型对目标印章印文图像进行分割,获得每一个印章文字的mask和特征向量;基于所述每一个印章文字的mask和特征向量,对所述每一个印章文字进行聚类,获得至少一个文字行;分别将所述至少一个文字行中的文字按相对位置进行排序;基于所述每一个印章文字的mask,使用Transformer编码器识别排序后的所述至少一个文字行,输出所述每一个印章文字的字符外框、字符类别和所述文字行的语种。可以提高印章图像识别的效果和准确率。
-
-
-
-
-
-
-
-
-