具有场景文字的图像生成方法
    11.
    发明公开

    公开(公告)号:CN119579733A

    公开(公告)日:2025-03-07

    申请号:CN202411423694.X

    申请日:2024-10-12

    Abstract: 本发明涉及计算机技术领域,具体为具有场景文字的图像生成方法。本发明通过获取文本描述;基于文本描述获得背景图像、待生成文字和文本区域;基于所述背景图像通过自适应本文块探索策略得到局部图像;通过所述待生成文字得到文字图像;基于所述局部图像和文字图像得到条件嵌入;基于所述文本区域建立图像指导;将所述条件嵌入和所述图像指导输入卷积神经网络得到解码图像;所述解码图像中文字生成由所述待生成文字和所述文本区域确定。解决了图像生成时小文字生成的问题并提高文字生成的准确率,使得图像生成时小文本渲染效果优良。

    基于单目标重放的增量目标检测方法及装置

    公开(公告)号:CN116051901A

    公开(公告)日:2023-05-02

    申请号:CN202310102438.X

    申请日:2023-01-31

    Abstract: 本发明公开了一种基于单目标重放的增量目标检测方法及装置,所述方法包括获取旧目标检测器、旧图像训练集中的旧类目标切片图像、新目标检测器、新图像训练集和待检测图像;将旧图像中的旧类目标切片图像和新图像合成,得到合成图像;使用新图像中的新类目标对旧类目标在旧目标检测器中的原始特征进行增广,得到增广特征;基于L1蒸馏损失、交叉熵分类损失、分类损失和回归损失对新目标检测器进行优化训练,以得到训练后的新目标检测器;将所述待检测图像送入训练后的新目标检测器,得到目标检测结果。本发明可以减少旧样本的存储空间,并达到与重放整张图像相当的性能。

    基于完形填空任务的视频自监督学习方法

    公开(公告)号:CN111091157B

    公开(公告)日:2023-03-10

    申请号:CN201911348018.X

    申请日:2019-12-24

    Abstract: 本发明提出一种基于完形填空任务的视频自监督学习方法,属于数字化视频自监督领域,通过切分视频段,对选取视频段进行空间或/和时间的变换操作,再放回原视频中提取特征,进行变换操作的分类识别,由此实现自监督学习,通过这种完形填空的方式,在不需要人工标注数据的同时,引导网络学习丰富的视频特征,同时基于完形填空的特性,可以针对不同的特征融合多个自监督任务,增加了泛化性。

    基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

    公开(公告)号:CN110503090B

    公开(公告)日:2021-11-09

    申请号:CN201910614874.9

    申请日:2019-07-09

    Abstract: 本发明涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。本发明设计了基于深度神经网络的字符检测器,在网络结构中加入注意力模型来对学习到的特征进行加权,充分利用了字符周围的上下文信息来辅助字符特征的学习,并设计了一个受限关系模型来对上下文信息进行编码,考虑了不同上下文信息对当前特征的影响。本发明使用受限的上下文信息来提升字符检测的结果,通过融入合适的上下文信息,可以在很大程度上提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,能够减少检测过程中的误报和漏报,同时能够提供初步的识别结果。

    基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

    公开(公告)号:CN110503090A

    公开(公告)日:2019-11-26

    申请号:CN201910614874.9

    申请日:2019-07-09

    Abstract: 本发明涉及一种基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器。本发明设计了基于深度神经网络的字符检测器,在网络结构中加入注意力模型来对学习到的特征进行加权,充分利用了字符周围的上下文信息来辅助字符特征的学习,并设计了一个受限关系模型来对上下文信息进行编码,考虑了不同上下文信息对当前特征的影响。本发明使用受限的上下文信息来提升字符检测的结果,通过融入合适的上下文信息,可以在很大程度上提高字符检测器的性能,使其对于复杂环境(光照、遮挡、复杂纹理等)的变化产生较强的抵抗性,能够减少检测过程中的误报和漏报,同时能够提供初步的识别结果。

Patent Agency Ranking