-
公开(公告)号:CN115065841B
公开(公告)日:2023-07-04
申请号:CN202210731778.4
申请日:2022-06-25
Applicant: 同济大学
IPC: H04N21/234 , H04N21/44
Abstract: 本发明涉及一种基于多层次内容感知边界检测的视频处理方法及存储介质,包括以下步骤:获取输入视频;对所述输入视频进行特征提取,获得多个第一特征;以所述第一特征作为多层次内容感知边界检测模型的输入,所述多层次内容感知边界检测模型包括用于获取局部特征和局部概率的局部模块以及用于获取全局概率图的全局模块,所述全局模块以基于所述局部特征获取的全局特征为输入;对所述局部模块和全局模块进行后处理融合,生成最终的视频时序动作提议。与现有技术相比,本发明具有精确度高、通用性强等优点。
-
公开(公告)号:CN114926855A
公开(公告)日:2022-08-19
申请号:CN202210467166.9
申请日:2022-04-24
Applicant: 同济大学
Abstract: 本发明涉及一种基于先验知识的直推式广义零样本视频行为识别方法,该方法通过一直推式广义零样本视频行为识别模型对待识别视频进行行为类别识别,其中,所述直推式广义零样本视频行为识别模型利用有标记的源数据和无标记的目标数据训练获得,训练过程包括:构建第一模型,在先验数据集上进行先验知识学习,得到参数构建与所述第一模型结构相同的第二模型,以所述参数作为初始化参数,在源数据集上进行源学习,得到参数θs;在所述第二模型上添加标签预测模块,构建获得第三模型,在源数据集和目标数据集上进行直推式学习。与现有技术相比,本发明具有样本需求少、识别准确率等优点。
-
公开(公告)号:CN118865490A
公开(公告)日:2024-10-29
申请号:CN202410859475.X
申请日:2024-06-28
Applicant: 同济大学
IPC: G06V40/20 , G06V10/82 , G06V10/40 , G06V10/80 , G06V20/70 , G06F40/126 , G06N3/045 , G06N3/042 , G06N3/0464 , G06N3/0895
Abstract: 本发明涉及一种基于提示式对比学习的骨架动作识别方法及存储介质,该方法包括:获取待识别的视频帧,输入预先训练好的骨架动作识别模型中进行识别,输出动作识别结果,其中骨架动作识别模型包括骨架编码器、文本编码器、感知模块和跨模态注意力块。与现有技术相比,本发明具有减少模态差距、提高特征的对齐度和表征能力等优点。
-
公开(公告)号:CN119851180A
公开(公告)日:2025-04-18
申请号:CN202411924951.8
申请日:2024-12-25
Applicant: 同济大学
Abstract: 本发明涉及一种视频动作检测的提示裁剪方法,方法包括以下步骤:1)获取视频数据,设置非关键帧标记、提示标记、关键帧标记;2)标记化处理后的视频数据输入视频动作检测模型中,得到裁剪后关键帧标记;3)提议标记和裁剪后的提示标记经过视频动作检测模型的解码器输出最终的特征序列,所述最终的特征序列包括标有提议标记的提议特征和标有裁剪后的提示标记的提示特征,基于最终的特征序列得到视频动作识别结果。与现有技术相比,本发明具有显著降低计算复杂度的同时保留关键帧实现视频动作检测全面优化等优点。
-
公开(公告)号:CN115065841A
公开(公告)日:2022-09-16
申请号:CN202210731778.4
申请日:2022-06-25
Applicant: 同济大学
IPC: H04N21/234 , H04N21/44
Abstract: 本发明涉及一种基于多层次内容感知边界检测的视频处理方法及存储介质,包括以下步骤:获取输入视频;对所述输入视频进行特征提取,获得多个第一特征;以所述第一特征作为多层次内容感知边界检测模型的输入,所述多层次内容感知边界检测模型包括用于获取局部特征和局部概率的局部模块以及用于获取全局概率图的全局模块,所述全局模块以基于所述局部特征获取的全局特征为输入;对所述局部模块和全局模块进行后处理融合,生成最终的视频时序动作提议。与现有技术相比,本发明具有精确度高、通用性强等优点。
-
公开(公告)号:CN119851179A
公开(公告)日:2025-04-18
申请号:CN202411924948.6
申请日:2024-12-25
Applicant: 同济大学
IPC: G06V20/40 , G06V40/20 , G06V10/25 , G06V10/44 , G06V10/52 , G06V10/764 , G06V10/766 , G06V10/80 , G06V10/82 , G06N3/0455
Abstract: 本发明设计一种基于非线性时空相对位置偏置的视频动作检测方法,其特征在于,方法包括以下步骤:获取视频数据;将视频数据输入基于Transformer的视频动作检测模型,基于目标点和参考点采用非线性变换计算立方体的相对坐标;输出每个维度的非线性偏置,计算改进的相对位置偏置B,注意力机制输出关键时空特征;关键时空特征输入模型的分类模块,得到视频动作检测结果。与现有技术相比,本发明具有提高动作检测的精度的同时减少计算量等优点。
-
公开(公告)号:CN114926855B
公开(公告)日:2024-11-12
申请号:CN202210467166.9
申请日:2022-04-24
Applicant: 同济大学
IPC: G06V40/10 , G06V40/20 , G06V10/44 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明涉及一种基于先验知识的直推式广义零样本视频行为识别方法,该方法通过一直推式广义零样本视频行为识别模型对待识别视频进行行为类别识别,其中,所述直推式广义零样本视频行为识别模型利用有标记的源数据和无标记的目标数据训练获得,训练过程包括:构建第一模型,在先验数据集上进行先验知识学习,得到参数#imgabs0#构建与所述第一模型结构相同的第二模型,以所述参数#imgabs1#作为初始化参数,在源数据集上进行源学习,得到参数θs;在所述第二模型上添加标签预测模块,构建获得第三模型,在源数据集和目标数据集上进行直推式学习。与现有技术相比,本发明具有样本需求少、识别准确率等优点。
-
-
-
-
-
-