-
公开(公告)号:CN113887282B
公开(公告)日:2024-07-26
申请号:CN202111004566.8
申请日:2021-08-30
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开一种面向场景图像中任意形状邻近文本的检测系统及方法,属于图像文本检测领域,通过生成区域建议使得网络更加关注文本特征,同时提出一种一对多的训练策略,为每一个候选框匹配多个目标文本,用以缓解邻近文本时在选取回归目标混淆的问题,最终提升基于回归的两阶段模型检测场景图像中任意形状邻近文本的能力。
-
公开(公告)号:CN117237968A
公开(公告)日:2023-12-15
申请号:CN202311025547.2
申请日:2023-08-15
Applicant: 中国科学院信息工程研究所
IPC: G06V30/412 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0455
Abstract: 本发明提出了一种基于Transformer的逐行扫描的表格结构识别方法及系统,涉及表格图像识别领域。本发明设计一个全新的表格结构识别模型,由编码器模块、行解码器模块和单元格解码器模块组成,结合表格本身独有的特性,按照符合表格逻辑的二维形式进行解码;同时通过使用半自回归形式生成表格序列,从而在一定程度上缓解较长的表格序列所带来的严重的误差累计问题。
-
公开(公告)号:CN116051901A
公开(公告)日:2023-05-02
申请号:CN202310102438.X
申请日:2023-01-31
Applicant: 中国科学院信息工程研究所
IPC: G06V10/764 , G06V10/774 , G06V10/74
Abstract: 本发明公开了一种基于单目标重放的增量目标检测方法及装置,所述方法包括获取旧目标检测器、旧图像训练集中的旧类目标切片图像、新目标检测器、新图像训练集和待检测图像;将旧图像中的旧类目标切片图像和新图像合成,得到合成图像;使用新图像中的新类目标对旧类目标在旧目标检测器中的原始特征进行增广,得到增广特征;基于L1蒸馏损失、交叉熵分类损失、分类损失和回归损失对新目标检测器进行优化训练,以得到训练后的新目标检测器;将所述待检测图像送入训练后的新目标检测器,得到目标检测结果。本发明可以减少旧样本的存储空间,并达到与重放整张图像相当的性能。
-
公开(公告)号:CN115879462A
公开(公告)日:2023-03-31
申请号:CN202211233226.7
申请日:2022-10-10
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F40/289 , G06F40/284 , G06V30/40 , G06V30/19 , G06N3/044 , G06N3/08
Abstract: 本发明提供一种无需细粒度检测的场景文本提取方法,首先将所获取的文本图像输入至预训练的文本块检测器中以使文本块检测器对文本图像进行检测剪裁形成文本块图像;再通过预训练的文本块识别器基于文本块特征图获取所述文本块图像的语义特征向量和位置特征向量,基于语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征,并获取与预测特征相对应的预测文本,通过这种粗粒度检测与多实例识别相结合的框架减轻检测负担,同时利用丰富的上下文信息进行识别,能够通过启发式文本块生成方法依据真实数据集生成的文本块级数据集训练文本块检测器,无需细粒度检测即可实现高精度文本提取。
-
公开(公告)号:CN111091157B
公开(公告)日:2023-03-10
申请号:CN201911348018.X
申请日:2019-12-24
Applicant: 中国科学院信息工程研究所
IPC: G06V10/764 , G06V20/40
Abstract: 本发明提出一种基于完形填空任务的视频自监督学习方法,属于数字化视频自监督领域,通过切分视频段,对选取视频段进行空间或/和时间的变换操作,再放回原视频中提取特征,进行变换操作的分类识别,由此实现自监督学习,通过这种完形填空的方式,在不需要人工标注数据的同时,引导网络学习丰富的视频特征,同时基于完形填空的特性,可以针对不同的特征融合多个自监督任务,增加了泛化性。
-
公开(公告)号:CN113095319B
公开(公告)日:2022-11-15
申请号:CN202110235490.3
申请日:2021-03-03
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于全卷积角点修正网络的多向场景文字检测方法及装置,包括:依据图片的视觉特征,获取融合特征;根据融合特征,分别得到初始特征、初始分数与初始包围框偏移;将初始包围框偏移进行线性变换,得到角点感知卷积的采样网格,并依据该采样网格,对初始特征进行卷积,产生角点感知特征;依据角点感知特征,获取修正分数与修正包围框偏移;根据初始包围框偏移、修正包围框偏移及预定义参考点进行解码运算,获取修正包围框,从而得到多向场景文字检测结果。本发明利用多向场景文本的几何特性进行特征采样,通过角点感知的卷积模块,扩大了有效感受野且没有冗余信息引入,解决了密集长文本和高质量检测的问题,获取更优秀的性能。
-
公开(公告)号:CN114220086A
公开(公告)日:2022-03-22
申请号:CN202111295077.2
申请日:2021-11-03
Applicant: 中国科学院信息工程研究所 , 中国传媒大学
Abstract: 本发明公开一种成本高效的场景文字检测方法及系统,属于图像字体识别领域,本发明首先在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型;其次在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。
-
公开(公告)号:CN113989582A
公开(公告)日:2022-01-28
申请号:CN202110988818.9
申请日:2021-08-26
Applicant: 中国科学院信息工程研究所
IPC: G06V10/774 , G06V10/764 , G06V10/762 , G06N3/08 , G06N3/04
Abstract: 本发明公开了一种基于密集语义对比的自监督视觉模型预训练方法,其步骤包括:1)对于样本图像xi,利用数据增强方法a、b分别对样本图像xi增强后进行特征提取和映射,得到样本图像xi中每一个像素点pi的特征,即像素级特征以及实例级特征2)基于和进行对比学习,得到实例判别损失Lins;基于和进行对比学习,得到像素判别损失Lpix;3)根据像素点pi对应的正样本集计算邻居判别损失Lnei;4)对像素级特征集合va、vb分别执行聚类,分别获得K个聚类集群;然后对每个集群进行对比学习,计算聚类对比损失LKM;5)根据损失函数L=Lins+Lpix+Lsem对自监督视觉模型进行端到端的训练。
-
公开(公告)号:CN113963340A
公开(公告)日:2022-01-21
申请号:CN202111026162.9
申请日:2021-09-02
Applicant: 中国科学院信息工程研究所
Abstract: 本发明公开了一种基于并行迭代模仿解码的场景文字识别系统及方法,涉及场景图像文本检测识别领域,综合了自回归和非自回归解码的优点,采用一种并行迭代的生成方式,针对不同长度的文本采用固定的迭代次数,并将“简单优先”策略引入到文字识别任务中,并引入一个额外的自回归解码器作为教师网络,使用自回归解码器FFN的输出作为额外的监督信号对并行解码器进行监督学习,并使用模仿学习来辅助并行解码器隐藏层的学习。本发明在多个公开的数据集上达到了最优的准确率,同时与自回归方法相比,速度上有明显的提升。
-
公开(公告)号:CN110503090B
公开(公告)日:2021-11-09
申请号:CN201910614874.9
申请日:2019-07-09
Applicant: 中国科学院信息工程研究所
Abstract: 本发明涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。本发明设计了基于深度神经网络的字符检测器,在网络结构中加入注意力模型来对学习到的特征进行加权,充分利用了字符周围的上下文信息来辅助字符特征的学习,并设计了一个受限关系模型来对上下文信息进行编码,考虑了不同上下文信息对当前特征的影响。本发明使用受限的上下文信息来提升字符检测的结果,通过融入合适的上下文信息,可以在很大程度上提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,能够减少检测过程中的误报和漏报,同时能够提供初步的识别结果。
-
-
-
-
-
-
-
-
-