一种基于自训练的文本检测器训练方法及系统

    公开(公告)号:CN111753657B

    公开(公告)日:2023-01-13

    申请号:CN202010428815.5

    申请日:2020-05-20

    Abstract: 本发明公开了一种基于自训练的文本检测器训练方法及系统。本方法步骤包括:1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;4)利用步骤3)得到的伪数据集训练检测器。

    一种基于自训练的文本检测器训练方法及系统

    公开(公告)号:CN111753657A

    公开(公告)日:2020-10-09

    申请号:CN202010428815.5

    申请日:2020-05-20

    Abstract: 本发明公开了一种基于自训练的文本检测器训练方法及系统。本方法步骤包括:1)获取来源于目标域的视频数据;使用源域的数据对检测器和跟踪器进行预训练;2)利用步骤1)训练后的检测器处理来源于目标域的视频数据,获得该视频数据每一帧的检测结果;步骤1)训练后的跟踪器根据前一帧的检测结果预测当前帧的跟踪结果;3)文本挖掘模块将每一帧的检测结果与跟踪结果进行融合生成运动轨迹,然后根据该运动轨迹中的边界包围盒来预测轨迹结果,以及从该运动轨迹中挖掘得到难正样本和难负样本,其中当且仅当该视频数据中的一帧图像A中存在难正样本或难负样本,则将图像A添加到伪数据集中;4)利用步骤3)得到的伪数据集训练检测器。

    基于伪目标重放与挖掘的增量目标检测方法及装置

    公开(公告)号:CN117437501A

    公开(公告)日:2024-01-23

    申请号:CN202311216027.X

    申请日:2023-09-20

    Abstract: 本发明提供一种基于伪目标重放与挖掘的增量目标检测方法及装置,所述方法包括:获取一已训练完成的旧模型和若干新训练数据,并用已训练完成的旧模型初始化新模型,以得到原始新模型;结合随机生成的噪声向量、旧类标签与边界框对新训练数据进行增广,得到增广后的新数据;将增广后的新数据输入到原始新模型和旧模型中,通过原始新模型和旧模型分别得到图像级特征、实例级特征和检测结果进行原始新模型的参数更新,以得到新模型;基于新模型,得到待检测数据的目标检测结果。本发明可以减少增量模型在共现和非共现场景下的性能差距。

    基于掩模引导的去除印章噪声的图像生成方法及系统

    公开(公告)号:CN116863476A

    公开(公告)日:2023-10-10

    申请号:CN202310733846.5

    申请日:2023-06-20

    Abstract: 本发明公开一种基于掩模引导的去除印章噪声的图像生成方法及系统,涉及图像文字识别领域,通过印章定位模块生成能够代表印章位置的掩模,避免对非印章区域文字的过度擦除,并保证能够将注意力集中在印章区域;通过提取背景文字的纹理信息,以及通过跳过连接将纹理信息和掩膜一起传递给印章擦除模块,让印章擦除模块在去除印章的同时保留背景文字,确保对印章准确地擦除。本发明能够自动将文档图像中遮挡文字信息并妨碍图像文字识别的印章进行擦除,保留被印章遮挡的背景文字,从而防止或减少印章遮挡对文字识别器的负面影响,进而有助于更准确识别文档图像中的文字。

    基于完形填空任务的视频自监督学习方法

    公开(公告)号:CN111091157A

    公开(公告)日:2020-05-01

    申请号:CN201911348018.X

    申请日:2019-12-24

    Abstract: 本发明提出一种基于完形填空任务的视频自监督学习方法,属于数字化视频自监督领域,通过切分视频段,对选取视频段进行空间或/和时间的变换操作,再放回原视频中提取特征,进行变换操作的分类识别,由此实现自监督学习,通过这种完形填空的方式,在不需要人工标注数据的同时,引导网络学习丰富的视频特征,同时基于完形填空的特性,可以针对不同的特征融合多个自监督任务,增加了泛化性。

    基于语义强化编码器解码器框架的场景文字识别方法及系统

    公开(公告)号:CN111753827B

    公开(公告)日:2024-02-13

    申请号:CN202010416704.2

    申请日:2020-05-15

    Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。

    基于对抗训练的场景文字识别方法及装置

    公开(公告)号:CN118262346A

    公开(公告)日:2024-06-28

    申请号:CN202410434598.9

    申请日:2024-04-11

    Abstract: 本发明公开了一种基于对抗训练的场景文字识别方法及装置,属于场景文字识别领域,本发明使用训练数据集对场景文字识别模型进行迭代训练,每次迭代中基于原始样本采用PGD攻击生成对抗样本利用小批量原始样本数据和对应的小批量对抗样本数据对模型进行标准训练和对抗训练,最后通过正则化系数进行损失融合,采用梯度下降更新模型参数。本发明利用对抗训练能够提高场景文字识别模型的准确性和鲁棒性。

    基于语义强化编码器解码器框架的场景文字识别方法及系统

    公开(公告)号:CN111753827A

    公开(公告)日:2020-10-09

    申请号:CN202010416704.2

    申请日:2020-05-15

    Abstract: 本发明提供一种基于语义强化编码器解码器框架的场景文字识别方法及系统,将目标图像上的任意形状的文本矫正为水平文本,得到矫正后的图像;将矫正后的图像输入到卷积神经网络中提取视觉特征,利用循环神经网络从该视觉特征中提取序列信息;根据序列信息预测全局语义信息;利用上述全局语义信息初始化一基于注意力机制的门控循环单元GRU的状态,根据上述视觉特征与GRU每一个解码时间的隐状态计算注意力权重,根据该注意力权重对上述视觉特征进行加权,预测出图像上的每一个字符。能够有效地利用全局信息填补现有方法使用局部信息的不足,同时减小视觉信息与语义信息之间的鸿沟,从而使模型能够更好地处理低质量的图像。

Patent Agency Ranking