-
公开(公告)号:CN116912664A
公开(公告)日:2023-10-20
申请号:CN202310967164.0
申请日:2023-08-02
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于预训练大模型的步态识别方法:输入视频序列至预训练的步态识别模型提取步态特征;根据步态特征对每个样本选取相同数量的正样本和负样本构造正样本对和负样本对;为每个构造的样本对根据提示生成文本描述;文本描述令牌化后嵌入可学习的提示令牌,经过预训练大模型文本编码器的Transformer生成文本特征;对构造的样本对进行特征拼接生成视觉特征;计算文本特征与视觉特征的相似度;通过对步态特征和相似度进行监督微调网络训练。该发明的目的是通过预训练大模型中蕴含的丰富语义关系来学习序列间的相似性,使步态识别模型学习更丰富的高级语义特征,以此提高识别性能。本发明还提供了相应的基于预训练大模型的步态识别装置。
-
公开(公告)号:CN115471665A
公开(公告)日:2022-12-13
申请号:CN202211054850.0
申请日:2022-08-31
Applicant: 华中科技大学
IPC: G06V10/40 , G06V10/26 , G06V10/774
Abstract: 本发明公开了一种基于三分图视觉Transformer语义信息解码器的抠图方法:用连续的卷积层构建起一个轻量化的细节特征提取层,使用该特征提取层处理图片I,得到细节特征图组{D1,D2,D3,D4};使用三分图视觉Transformer语义信息解码器处理细节特征图D4和三分图Trimap,得到语义特征图S4;通过连续使用抠图解码器,处理上层语义特征图和对应细节特征图,得到融合语义特征图以及层级抠图输出;在训练数据集上训练构建的基于三分图视觉Transformer解码器的抠图网络至收敛;使用训练好的抠图网络处理待抠图图片,最后一层抠图解码器输出的层级抠图输出结果,即为最终的抠图结果。本发明还提供了相应的基于三分图视觉Transformer语义信息解码器的抠图装置。
-
公开(公告)号:CN112926549B
公开(公告)日:2022-06-24
申请号:CN202110404465.3
申请日:2021-04-15
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于时间域‑空间域特征联合增强的步态识别方法,对待检测步态序列,先使用卷积神经网络提取序列特征表达,再自适应地捕捉显著的空域特征,最后分别进行空间域与时间域的建模。自适应显著性特征生成模块可灵活地提取来自不同身体区域的突出特征,有效地丰富特征的多样性与显著性。基于这样的多区域显著性特征,本发明,分别对输入步态序列进行空间域与时间域的建模,通过联合优化,输出空间域‑时间域联合增强的步态特征。本方法在不同场景下的精度高、鲁棒性强,能有效克服由于行人携带不同物品或穿着不同衣物产生的外观变化所导致的不利因素。本发明还提供了相应的基于时间域‑空间域特征联合增强的步态识别系统。
-
公开(公告)号:CN114140322A
公开(公告)日:2022-03-04
申请号:CN202111374589.8
申请日:2021-11-19
Applicant: 华中科技大学
Abstract: 本发明公开了一种注意力引导插值方法:对初始低分辨率特征图利用双线性插值进行上采样得到上采样的低分辨率特征图,并将上采样的低分辨率特征图与初始高分辨率特征图拼接得到查询特征矩阵;将上采样的低分辨率特征图看作键特征矩阵和值特征矩阵,把查询特征矩阵和键特征矩阵输入到相似度函数中,并将相似度函数输出的结果输入归一化指数函数,计算得到相似度矩阵,再通过相似度矩阵和值特征矩阵求出每一个高分辨率特征图中像素的特征向量,得到中间高分辨率特征图;将中间高分辨率特征图Fa和上采样的低分辨率特征图Fl拼接,再通过1x1的卷积,得到最终输出的高分辨率特征图。本发明还公开了相应的低延迟语义分割方法。
-
公开(公告)号:CN110197136B
公开(公告)日:2021-01-12
申请号:CN201910394488.3
申请日:2019-05-13
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于动作边界概率的级联动作候选框生成方法,对待检测输入视频,使用特征提取网络得到特征,通过级联模型预测每个位置上属于动作边界点的概率。级联模型分为两级:第一级模型对输入特征进行粗糙的边界预测,分别预测每一个位置属于动作起点、终点和动作内部的概率;再将第一级模型的输出和原始特征串联起来当作新特征输入到第二级模型,让第二级模型再次预测每个位置上属于动作起点、终点和动作内部的概率;得到级联模型预测的概率后,将起点或终点概率大于设定的阈值的位置组合进而得到动作候选框。本方法简单易行,推广能力强,产生的候选框质量高,能有效克服视频背景杂乱和目标运动快慢变化范围大的不利因素的影响。
-
公开(公告)号:CN106845392B
公开(公告)日:2020-06-30
申请号:CN201710038193.3
申请日:2017-01-18
Applicant: 华中科技大学
Abstract: 本发明公开了一种基于众包轨迹的室内转角地标匹配及识别方法,包括:获取室内布局图的地标二维坐标信息;在目标区域设置N个信号源、使得用户终端可以采集到至少一个信号源的信号;采集已标注与未标注的轨迹,划分为轨迹窗口;从已标注的轨迹窗口提取针对性的特征,训练姿态组识别分类器与转角识别分类器;利用已训练的分类器对未标注的轨迹窗口进行转角地标的识别,提取其中的正类窗口的RSS数据;利用多维尺度分析算法降维到多种维度,分别进行聚类与匹配;采用投票算法,根据多种维度下的聚类匹配结果,使有效采样值对应到某转角,无效采样值被过滤;根据匹配结果生成转角地标指纹;本发明相对现有转角地标识别方法提高了识别性能。
-
公开(公告)号:CN106686472A
公开(公告)日:2017-05-17
申请号:CN201611241691.X
申请日:2016-12-29
Applicant: 华中科技大学
IPC: H04N21/845 , H04N19/587 , H04N7/01 , G06N3/04 , G06N3/08
CPC classification number: H04N21/845 , G06N3/0454 , G06N3/084 , H04N7/0127 , H04N19/587
Abstract: 本发明公开了一种基于深度学习的高帧率视频生成方法,包括:利用一个或多个原始高帧率视频片段生成训练样本集;利用所述训练样本集中的多个视频帧子集合训练双通道卷积神经网络模型,以获得优化后双通道卷积神经网络,所述双通道卷积神经网络模型为由两个卷积通道融合而成的卷积神经网络;利用所述优化后双通道卷积神经网络,根据低帧率视频中的任意相邻两视频帧生成这两视频帧的插入帧,从而生成帧率高于所述低帧率视频的视频。本发明方法整个过程是端到端的,不需要对视频帧进行后续的处理,视频帧率转换效果良好,合成的视频流畅度高,对于视频拍摄过程中存在的抖动、视频场景切换等问题具有较好的鲁棒性。
-
公开(公告)号:CN103020651B
公开(公告)日:2014-03-05
申请号:CN201210490923.0
申请日:2012-11-27
Applicant: 华中科技大学
IPC: G06F15/00
Abstract: 本发明公开了一种微博图片敏感信息检测方法,包括:建立敏感词库、字体库和颜色库,接收N张待检测微博图片,创建敏感信息列表,遍历检测微博图片是否含敏感信息,根据当前微博图片大小和敏感词库、字体库和颜色库生成对应于该微博图片的敏感信息图片库,并遍历与该微博图片进行匹配,根据微博图片上遍历位置的图像块与敏感信息图片的匹配度中的最大值判定是否存在敏感信息,并将匹配信息存入敏感信息列表中。本方法的特征是基于生成式,不易漏检误检,鲁棒性强,并且检测准确率高。
-
-
公开(公告)号:CN102200999A
公开(公告)日:2011-09-28
申请号:CN201110106315.0
申请日:2011-04-27
Applicant: 华中科技大学
IPC: G06F17/30
Abstract: 本发明公开了一种相似性形状检索方法,步骤为:①提取输入查询图像和数据库中待检索图像的形状轮廓;②用内距离形状上下文描述子对所有形状(包括输入查询形状和数据库中的待检索形状)进行表示。③用动态规划方法对所有形状(包括输入查询形状和数据库中的待检索形状)进行两两之间的匹配。④用内容敏感的相似性度量方法计算获得新的相似度度量排序。⑤获得形状检索的结果。本发明不再使用两两形状之间的不相似性(距离)作为形状检索的直接依据,而是通过对形状的内在差异进行整合,利用形状相似性空间中的结构信息对原始两两形状之间的不相似度(距离)进行改进,从而有效的提升了形状检索的准确率。
-
-
-
-
-
-
-
-
-