-
公开(公告)号:CN115019143B
公开(公告)日:2024-10-01
申请号:CN202210677277.2
申请日:2022-06-16
Applicant: 湖南大学
IPC: G06V10/80 , G06V10/82 , G06V30/14 , G06V30/148 , G06V10/774 , G06V10/30 , G06V10/28
Abstract: 本发明公开了一种基于CNN和Transformer混合模型的文本检测方法。该方法采用CNN提取出文本图像一系列不同尺度的基本特征,通过Transformer生成权重嵌入和概率阈值嵌入。利用权重嵌入生成注意力权重,对不同尺度基本特征进行动态尺度融合,得到一个具有强大特征表示能力的融合特征图;对概率阈值嵌入和融合特征图进行标量积相乘得到一个结构轻便且同样具有强大表示能力的概率阈值预测;随后,对概率阈值预测进行反卷积得到概率图和阈值图;最后,通过一个近似二值化公式得到文本图像的二值图,在二值图上寻找联通区域即可得到文本的边界框。本发明能有效地提取图像的局部信息和全局信息,使得解码后的特征包含更多更精准的文本信息,显著提高了文本检测的精度。
-
公开(公告)号:CN115019143A
公开(公告)日:2022-09-06
申请号:CN202210677277.2
申请日:2022-06-16
Applicant: 湖南大学
IPC: G06V10/80 , G06V10/82 , G06V30/14 , G06V30/148 , G06V10/774 , G06V10/30 , G06V10/28
Abstract: 本发明公开了一种基于CNN和Transformer混合模型的文本检测方法。该方法采用CNN提取出文本图像一系列不同尺度的基本特征,通过Transformer生成权重嵌入和概率阈值嵌入。利用权重嵌入生成注意力权重,对不同尺度基本特征进行动态尺度融合,得到一个具有强大特征表示能力的融合特征图;对概率阈值嵌入和融合特征图进行标量积相乘得到一个结构轻便且同样具有强大表示能力的概率阈值预测;随后,对概率阈值预测进行反卷积得到概率图和阈值图;最后,通过一个近似二值化公式得到文本图像的二值图,在二值图上寻找联通区域即可得到文本的边界框。本发明能有效地提取图像的局部信息和全局信息,使得解码后的特征包含更多更精准的文本信息,显著提高了文本检测的精度。
-
公开(公告)号:CN116563399A
公开(公告)日:2023-08-08
申请号:CN202310705506.1
申请日:2023-06-15
Applicant: 湖南大学
Abstract: 本发明公开了一种基于扩散模型和生成对抗网络的图像生成方法。该方法采用改进后的生成对抗网络模型的判别器对输入图像的信息进行提取,然后将中间状态输入到自注意力机制的扩散模型,最后经过生成器生成出一张完整的图片。对不同尺度的图像特征进行了融合,并提出了一种新的局部采样做法,可以更有效地捕捉图像细微的特征。在无附加条件的生成任务中,该模型可以根据一张图片输入,输出一张生成的图片;在有附加条件的图像生成领域比如图像超分辨率任务,将原始低分辨率的图像作为额外输入,则可以输出一张清晰度更高的高分辨率图像。
-
-