-
公开(公告)号:CN118366143A
公开(公告)日:2024-07-19
申请号:CN202410489150.7
申请日:2024-04-23
Applicant: 华中科技大学
IPC: G06V20/62 , G06V20/40 , G06V10/44 , G06V30/18 , G06N3/042 , G06N3/045 , G06N3/0464 , G06V10/80 , G06T7/246
Abstract: 本发明公开一种基于拓扑结构特征关联的视频文字跟踪方法:先利用文本检测器针对视频帧生成高召回的文本检测框,再基于三阶段匹配的关联策略进行前后帧文本实例之间的特征匹配,最终生成视频中包含同一文本目标位置信息和身份信息的所有轨迹。将文本检测结果划分为高分框和低分框并先后同未配对轨迹进行第一、第二阶段的数据关联匹配,再针对第二阶段的中断轨迹利用局部搜索跟踪器参考历史轨迹文本特征以进行断点处遗漏文本框的局部搜索,在第三阶段进行局部搜索文本与未配对轨迹的数据关联匹配。该方法准确高效,在多个主流的视频文字跟踪基准上实现了最佳的跟踪精度及可观效率。本发明还提供了相应的基于拓扑结构特征关联的视频文字跟踪装置。
-
公开(公告)号:CN117765590A
公开(公告)日:2024-03-26
申请号:CN202311785920.4
申请日:2023-12-22
Applicant: 华中科技大学
IPC: G06V40/16 , G06V10/80 , G06V10/82 , G06V10/26 , G06V10/764 , G06V20/70 , G06N3/045 , G06N3/084 , G06N3/092
Abstract: 本发明公开一种基于Transformer的面部注视估计方法:(1)训练基于朴素视觉Transformer的强化融合的注视估计算法模型,包括:(1.1)对原始数据集中的所有图片的面部特征区域进行识别和标注,以进行数据清理并得到带有统一高精度标注的标准数据集,标签为实例级别的包围框的左上及右下顶点;(1.2)构建基于朴素视觉Transformer的强化融合的面部注视特征提取架构,利用多重面部注视特征编码及特征间长距离建模提取及融合特征语义信息;(1.3)利用上述提取出的强化语义信息融合的面部注视特征进行注视估计;(2)利用上述训练好的模型进行注视估计。本发明通过对突出面部局部特征信息和全局特征信息间的强化融合,更完整且精确的提取面部特征信息以进行注视估计。
-
公开(公告)号:CN116342971A
公开(公告)日:2023-06-27
申请号:CN202310174614.0
申请日:2023-02-16
IPC: G06V10/774 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/09
Abstract: 本发明公开了一种基于稀疏标注数据集的新型目标检测系统,教师检测器在训练期间不回传梯度,而仅在每次训练迭代结束时通过指数滑动平均方式更新参数,由指数滑动平均更新的教师检测器是双输入端口的副教师检测器的平滑版本;教师检测器输入图像是原始图像,即原始图像被馈送到教师检测器以生成教师伪标签集,弱增强和强增强图像被馈送到两个输入端口的副教师检测器以生成原始伪标签集;每个原始伪标签集由教师检测器的输出的伪标签集联合稀疏标注框进行修正和整合,最后用修正整合完的标注框对副教师检测器的预测输出进行监督。本发明还公开了相应的基于稀疏标注数据集的新型目标检测方法。
-
公开(公告)号:CN115861386A
公开(公告)日:2023-03-28
申请号:CN202211588069.1
申请日:2022-12-12
Applicant: 华中科技大学
IPC: G06T7/292 , G06T7/223 , G06T7/246 , G06V20/17 , G06V10/74 , G06V10/82 , G06N5/04 , G06V10/80 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种通过分而治之关联的无人机多目标跟踪方法:将连续两帧图像和前一帧的运动查询热图输入到主干网中,同时预测当前帧目标的位置,外观特征以及目标在相邻帧间的运动;设计对跟踪过程中的在线轨迹和丢失轨迹进行分而治之的目标关联算法,利用运动信息对在线轨迹与检测目标进行相邻帧的关联,利用外观特征对丢失轨迹和检测目标进行跨多帧的关联;为确保位置关联的可靠性,使用预测目标中心点运动计算当前帧目标边界框在前一帧中的估计位置并与前一帧跟踪的轨迹边界框进行交并比相似度计算(运动匹配);本发明在在图像分辨率为608×1088的情况下,可以以实时速度运行。本发明还提供了相应的通过分而治之关联的无人机多目标跟踪装置。
-
公开(公告)号:CN115471665A
公开(公告)日:2022-12-13
申请号:CN202211054850.0
申请日:2022-08-31
Applicant: 华中科技大学
IPC: G06V10/40 , G06V10/26 , G06V10/774
Abstract: 本发明公开了一种基于三分图视觉Transformer语义信息解码器的抠图方法:用连续的卷积层构建起一个轻量化的细节特征提取层,使用该特征提取层处理图片I,得到细节特征图组{D1,D2,D3,D4};使用三分图视觉Transformer语义信息解码器处理细节特征图D4和三分图Trimap,得到语义特征图S4;通过连续使用抠图解码器,处理上层语义特征图和对应细节特征图,得到融合语义特征图以及层级抠图输出;在训练数据集上训练构建的基于三分图视觉Transformer解码器的抠图网络至收敛;使用训练好的抠图网络处理待抠图图片,最后一层抠图解码器输出的层级抠图输出结果,即为最终的抠图结果。本发明还提供了相应的基于三分图视觉Transformer语义信息解码器的抠图装置。
-
公开(公告)号:CN114140322A
公开(公告)日:2022-03-04
申请号:CN202111374589.8
申请日:2021-11-19
Applicant: 华中科技大学
Abstract: 本发明公开了一种注意力引导插值方法:对初始低分辨率特征图利用双线性插值进行上采样得到上采样的低分辨率特征图,并将上采样的低分辨率特征图与初始高分辨率特征图拼接得到查询特征矩阵;将上采样的低分辨率特征图看作键特征矩阵和值特征矩阵,把查询特征矩阵和键特征矩阵输入到相似度函数中,并将相似度函数输出的结果输入归一化指数函数,计算得到相似度矩阵,再通过相似度矩阵和值特征矩阵求出每一个高分辨率特征图中像素的特征向量,得到中间高分辨率特征图;将中间高分辨率特征图Fa和上采样的低分辨率特征图Fl拼接,再通过1x1的卷积,得到最终输出的高分辨率特征图。本发明还公开了相应的低延迟语义分割方法。
-
公开(公告)号:CN106686472A
公开(公告)日:2017-05-17
申请号:CN201611241691.X
申请日:2016-12-29
Applicant: 华中科技大学
IPC: H04N21/845 , H04N19/587 , H04N7/01 , G06N3/04 , G06N3/08
CPC classification number: H04N21/845 , G06N3/0454 , G06N3/084 , H04N7/0127 , H04N19/587
Abstract: 本发明公开了一种基于深度学习的高帧率视频生成方法,包括:利用一个或多个原始高帧率视频片段生成训练样本集;利用所述训练样本集中的多个视频帧子集合训练双通道卷积神经网络模型,以获得优化后双通道卷积神经网络,所述双通道卷积神经网络模型为由两个卷积通道融合而成的卷积神经网络;利用所述优化后双通道卷积神经网络,根据低帧率视频中的任意相邻两视频帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的视频。本发明方法整个过程是端到端的,不需要对视频帧进行后续的处理,视频帧率转换效果良好,合成的视频流畅度高,对于视频拍摄过程中存在的抖动、视频场景切换等问题具有较好的鲁棒性。
-
-
公开(公告)号:CN118674929A
公开(公告)日:2024-09-20
申请号:CN202410822470.X
申请日:2024-06-25
Applicant: 华中科技大学
IPC: G06V10/26 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0499 , G06N3/08
Abstract: 本发明涉及计算机视觉技术领域,提供了一种基于分割万物模型和前融合的指令分割方法和装置。包括:选取前融合的多模态特征提取编码器,将文本提示与低分辨率图像进行前期联合编码处理;构造嵌入维度投影层,使用嵌入维度投影层转换联合编码后的多模态特征至统一的嵌入空间;优化提示词编码器适配性。本发明通过使用前融合的多模态特征提取编码器,使不同模态的输入在早期阶段进行融合,从而能够更早地整合不同模态的信息,提高模型对指令内容的理解能力和分割精度,即提高模型的性能,并且通过优化提示词编码器适配性,以保持输入和输出的一致序列长度,从而确保实际训练和推理的不稳定,并实现模型的轻量化。
-
公开(公告)号:CN114140322B
公开(公告)日:2024-07-05
申请号:CN202111374589.8
申请日:2021-11-19
Applicant: 华中科技大学
IPC: G06V10/26 , G06T3/4038 , G06T3/4007 , G06V10/74 , G06V20/70
Abstract: 本发明公开了一种注意力引导插值方法:对初始低分辨率特征图利用双线性插值进行上采样得到上采样的低分辨率特征图,并将上采样的低分辨率特征图与初始高分辨率特征图拼接得到查询特征矩阵;将上采样的低分辨率特征图看作键特征矩阵和值特征矩阵,把查询特征矩阵和键特征矩阵输入到相似度函数中,并将相似度函数输出的结果输入归一化指数函数,计算得到相似度矩阵,再通过相似度矩阵和值特征矩阵求出每一个高分辨率特征图中像素的特征向量,得到中间高分辨率特征图;将中间高分辨率特征图Fa和上采样的低分辨率特征图Fl拼接,再通过1x1的卷积,得到最终输出的高分辨率特征图。本发明还公开了相应的低延迟语义分割方法。
-
-
-
-
-
-
-
-
-