-
公开(公告)号:CN111753657B
公开(公告)日:2023-01-13
申请号:CN202010428815.5
申请日:2020-05-20
Applicant: 中国科学院信息工程研究所(CN)
IPC: G06V20/40 , G06V10/774
Abstract: 本发明公开了一种基于自训练的文本检测器训练方法及系统。本方法步骤包括:1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;4)利用步骤3)得到的伪数据集训练检测器。
-
公开(公告)号:CN111753657A
公开(公告)日:2020-10-09
申请号:CN202010428815.5
申请日:2020-05-20
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于自训练的文本检测器训练方法及系统。本方法步骤包括:1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;4)利用步骤3)得到的伪数据集训练检测器。
-
公开(公告)号:CN117437501A
公开(公告)日:2024-01-23
申请号:CN202311216027.X
申请日:2023-09-20
Applicant: 中国科学院信息工程研究所
IPC: G06V10/774 , G06V10/764 , G06V10/82 , G06V10/25 , G06V10/40 , G06N3/096 , G06N3/0464 , G06N3/0475 , G06N3/09
Abstract: 本发明提供一种基于伪目标重放与挖掘的增量目标检测方法及装置,所述方法包括:获取一已训练完成的旧模型和若干新训练数据,并用已训练完成的旧模型初始化新模型,以得到原始新模型;结合随机生成的噪声向量、旧类标签与边界框对新训练数据进行增广,得到增广后的新数据;将增广后的新数据输入到原始新模型和旧模型中,通过原始新模型和旧模型分别得到图像级特征、实例级特征和检测结果进行原始新模型的参数更新,以得到新模型;基于新模型,得到待检测数据的目标检测结果。本发明可以减少增量模型在共现和非共现场景下的性能差距。
-
公开(公告)号:CN116863476A
公开(公告)日:2023-10-10
申请号:CN202310733846.5
申请日:2023-06-20
Applicant: 中国科学院信息工程研究所
IPC: G06V30/148 , G06V10/22 , G06V10/54 , G06V30/19
Abstract: 本发明公开一种基于掩模引导的去除印章噪声的图像生成方法及系统,涉及图像文字识别领域,通过印章定位模块生成能够代表印章位置的掩模,避免对非印章区域文字的过度擦除,并保证能够将注意力集中在印章区域;通过提取背景文字的纹理信息,以及通过跳过连接将纹理信息和掩膜一起传递给印章擦除模块,让印章擦除模块在去除印章的同时保留背景文字,确保对印章准确地擦除。本发明能够自动将文档图像中遮挡文字信息并妨碍图像文字识别的印章进行擦除,保留被印章遮挡的背景文字,从而防止或减少印章遮挡对文字识别器的负面影响,进而有助于更准确识别文档图像中的文字。
-
公开(公告)号:CN111091157A
公开(公告)日:2020-05-01
申请号:CN201911348018.X
申请日:2019-12-24
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提出一种基于完形填空任务的视频自监督学习方法,属于数字化视频自监督领域,通过切分视频段,对选取视频段进行空间或/和时间的变换操作,再放回原视频中提取特征,进行变换操作的分类识别,由此实现自监督学习,通过这种完形填空的方式,在不需要人工标注数据的同时,引导网络学习丰富的视频特征,同时基于完形填空的特性,可以针对不同的特征融合多个自监督任务,增加了泛化性。
-
公开(公告)号:CN111753827B
公开(公告)日:2024-02-13
申请号:CN202010416704.2
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V30/164 , G06V30/18 , G06V10/82 , G06N3/045 , G06N3/0442 , G06N3/0464
Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。
-
公开(公告)号:CN110674807A
公开(公告)日:2020-01-10
申请号:CN201910720688.3
申请日:2019-08-06
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于半监督与弱监督学习的曲形场景文字检测方法,用于减少曲形文字检测算法所需要的人工标注,同时让整个算法框架更加简洁,利用少量精确的像素级标注数据及大量的无标注或由水平包围框标注的数据,就能训练得到一个准确的曲形文字检测器,能够对场景曲形文字进行准确检测。
-
公开(公告)号:CN118262346A
公开(公告)日:2024-06-28
申请号:CN202410434598.9
申请日:2024-04-11
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V10/774 , G06V10/82 , G06N3/094
Abstract: 本发明公开了一种基于对抗训练的场景文字识别方法及装置,属于场景文字识别领域,本发明使用训练数据集对场景文字识别模型进行迭代训练,每次迭代中基于原始样本采用PGD攻击生成对抗样本利用小批量原始样本数据和对应的小批量对抗样本数据对模型进行标准训练和对抗训练,最后通过正则化系数进行损失融合,采用梯度下降更新模型参数。本发明利用对抗训练能够提高场景文字识别模型的准确性和鲁棒性。
-
公开(公告)号:CN117765520A
公开(公告)日:2024-03-26
申请号:CN202311573331.X
申请日:2023-11-23
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V20/70 , G06V10/82 , G06V10/764 , G06V10/766 , G06V10/74 , G06N3/0464 , G06N3/044 , G06N3/0442 , G06N3/0499 , G06N3/0895
Abstract: 本发明公开一种高效准确的歧义场景文字检测方法及系统,属于图像文字识别领域,使用基于Mask R‑CNN结构的文本检测分支检测场景图像中的文本,生成文本候选框;使用歧义感知模块检测场景图像的文本块,将文本块与文本候选框进行匹配及关联,分析文本块中所有文本候选框之间的连接情况,找出有歧义的文本块;构建由图像编码器、文本编码器和跨模态编码器组成的语义感知模块,通过对比学习、匹配预测和掩码预测来训练该语义感知模块;使用训练好的语义感知模块对有歧义的文本块进行场景文字检测。本发明能够高效准确地检测歧义文字,并提高识别的准确率。
-
公开(公告)号:CN111753827A
公开(公告)日:2020-10-09
申请号:CN202010416704.2
申请日:2020-05-15
Applicant: 中国科学院信息工程研究所
Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。
-
-
-
-
-
-
-
-
-