-
公开(公告)号:CN117373129A
公开(公告)日:2024-01-09
申请号:CN202311375163.3
申请日:2023-10-23
Applicant: 浙江工业大学
IPC: G06V40/20 , G06V20/40 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明属于连续手语识别领域,公开了一种基于双路径刺激的连续手语识别方法,包括:获取待识别的手语视频,解析手语视频将视频帧序列输入特征提取器;特征提取器通过主干网络输出视觉特征,主干网络中插入有一个或多个双路径刺激,所述双路径刺激包括全局解释刺激和局部波动刺激两条刺激路径,视频帧序列分别输入全局解释刺激和局部波动刺激,并综合全局解释刺激和局部波动刺激的输出后得到双路径刺激的输出;将得到的视觉特征输入对齐模块,所述对齐模块通过双向长短期记忆网络和分类器输出连续手语识别预测结果。本发明有效提高连续手语识别效果,降低计算成本。
-
公开(公告)号:CN118135298A
公开(公告)日:2024-06-04
申请号:CN202410228099.4
申请日:2024-02-29
Applicant: 浙江工业大学
IPC: G06V10/764 , G06V10/774 , G06V10/766 , G06V10/74 , G06V10/82 , G06V10/25 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了基于语义增强特征生成和预测优化的小样本目标检测方法,构建小样本目标检测模型,所述小样本目标检测模型包括查询分支、支持分支、类无关聚合模块、检测头和检测结果优化模块,并构建特征生成器训练所述小样本目标检测模型。所构建的特征生成器,整合语义和视觉信息,允许生成器通过跨模态约束来加强以类别为中心的表示,从而在确保提高数据多样性的同时,明确不同类别的边界。此外,本发明公开的预测优化模块,它能准确地过滤掉边界框偏移造成的潜在误报,确保只留下最可靠的检测结果。本发明提出的方法比其他方法取得了更加领先的性能。
-
公开(公告)号:CN117372932A
公开(公告)日:2024-01-09
申请号:CN202311449597.3
申请日:2023-11-02
Applicant: 浙江工业大学
IPC: G06V20/40 , G06V10/82 , G06V10/764 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/084 , G06N3/0895
Abstract: 本发明属于时序动作定位技术领域,公开了一种基于自适应时序特征增强的弱监督时序动作定位方法,通过对原始RGB和光流特征进行时序增强,实现更好的动作分类与定位性能。值得注意的是,与以前的方法相比,由于可变形卷积动态的感受野,本申请方法可以自适应地学习动作内部以及动作与背景间复杂多变的时序关系。此外,本申请引入了教师模型来更好地利用学习到时序信息,并指导模态共识的训练。本申请提高了弱监督时序动作定位任务的精度,在两个流行的数据集上比最近的方法取得了领先的性能。
-
公开(公告)号:CN117372651A
公开(公告)日:2024-01-09
申请号:CN202311449598.8
申请日:2023-11-02
Applicant: 浙江工业大学
IPC: G06T17/20 , G06N3/0455 , G06N3/082 , G06N3/0464
Abstract: 本发明属于单目三维人体重建技术领域,公开了一种基于姿态先验约束的启发式三维人体网格重建方法,本发明从特征图中提取综合先验约束向量,它将自我注意力集中在图像中人体的身体部分,避免了特征冗余。另外将骨架信息合并到一个互逆映射层中,增强模型修正人体网格姿态能力的同时保证了输入输出的语义一致性。此外,本发明提取的区域先验约束通过将交叉注意力指向顶点周围的关键点来微调局部顶点。然后,在微调过程中,利用启发式微调策略确定当前查询顶点的最优偏移量。和传统基于Transformer的方法相比,本发明所提出的启发式Transformer有效地减少了交叉注意力查询数量,在保证模型轻量级的同时加速模型的收敛速度。
-
-
-