-
公开(公告)号:CN118155283A
公开(公告)日:2024-06-07
申请号:CN202410288694.7
申请日:2024-03-14
Applicant: 杭州电子科技大学 , 杭州电子科技大学信息工程学院
IPC: G06V40/20 , G06V10/46 , G06N3/0464 , G06V10/82 , G06V10/80 , G06N3/045 , G06V10/764
Abstract: 本发明公开了一种基于多中心多模态的图卷积网络的骨架动作识别方法,包括如下步骤:步骤1、获取骨架数据并进行数据预处理和数据增强;步骤2、经步骤1处理后的骨架数据的关节流态作为一阶骨骼数据;步骤3、对关节流态进行处理得到二阶骨架数据,所述二阶骨骼数据包括骨骼流态;步骤4、应用GPT‑3模型,将人体动作识别数据作为输入生成离线动作的文本描述数据;步骤5、构建并训练多中心多模态图卷积网络模型;步骤6、分别将关节流态数据、骨骼流态数据以及文本描述数据输入输出最后的预测结果。该方法方便网络在极端尺度变化下识别和检测对象,实现注意特征融合。有助于提高人体行为的预测精确度。
-
公开(公告)号:CN116524402A
公开(公告)日:2023-08-01
申请号:CN202310471296.4
申请日:2023-04-27
Applicant: 杭州电子科技大学信息工程学院 , 杭州电子科技大学
Abstract: 本发明公开了基于多头自注意力的多时间跨度上下文建模动作识别方法,包括:获取待识别视频并提取视频帧形成第一特征序列;对第一特征序列进行采样获得高频时间轴采样流和低频时间轴采样流;分别通过第一多时间跨度上下文聚合模块和数据增强模块对高频时间轴采样流进行特征提取,对应形成第一上下文提取特征和第一增强特征,并通过第二多时间跨度上下文聚合模块对低频时间轴采样流进行特征提取,形成第二上下文提取特征;将两个上下文提取特征进行相加平均后再与第一增强特征进行相加聚合,形成第一聚合特征;将第一聚合特征输入后处理模块获取动作识别结果。该方法能具有优秀的时序动作定位性能,动作识别准确率高。
-
公开(公告)号:CN119992429A
公开(公告)日:2025-05-13
申请号:CN202510471124.6
申请日:2025-04-15
Applicant: 杭州电子科技大学信息工程学院
IPC: G06V20/40 , G06V40/20 , G06V10/82 , G06V10/44 , G06V10/776 , G06V10/80 , G06V10/62 , G06V10/774 , G06N3/045 , G06N3/0464
Abstract: 本发明公开了一种基于双阶段神经网络的点监督时序动作定位方法及系统。该方法包括:首先针对点监督标注的时序动作定位数据集,通过I3D视频特征提取网络提取每个动作视频的视频特征;然后对候选提案生成模块进行第一阶段的帧级原型学习,以及对边界定位模块进行第二阶段的实例级边界学习;最后,针对目标动作视频,将其通过I3D视频特征提取网络提取视频特征后输入经过学习的候选提案生成模块,生成所有候选提案后输入经过学习的边界定位模块,对得到的所有修正后提案计算提案分数并执行soft‑NMS算法,获得最终提案。本发明可有效区分视频中的背景和动作,同时提取视频全局的动作特征。以实现人体时序动作定位,提高定位精确度。
-
公开(公告)号:CN118968634B
公开(公告)日:2025-01-07
申请号:CN202411456009.3
申请日:2024-10-18
Applicant: 杭州电子科技大学
IPC: G06V40/20 , G06V20/40 , G06V10/25 , G06V10/42 , G06V10/44 , G06V10/764 , G06V10/766 , G06V10/70 , G06V10/82 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于卷积和多头自注意力的时序动作定位方法,属于深度学习视频理解领域。本发明的方法先将待识别视频中的每个视频帧各自提取为视频表示序列,并将其作为多时间跨度上下文模型的输入,然后将编码器每层主干网络输出的特征序列堆叠构成特征金字塔,最后由预测模块输出最终的动作分类结果以及相应的动作起始时间点和动作终止时间点,实现时间点的精确定位,从而减少单一回归头带来的误差。主干网络中融合带有非线性分支的瞬时平均卷积模块以及瞬时平均空洞卷积模块,并将其与多头自注意力模块相结合,以增强学习局部特征的能力和相邻帧特征的区分度。此外,瞬时平均空洞卷积模块中整合了空洞卷积以增强对深层特征的学习能力。
-
公开(公告)号:CN118968634A
公开(公告)日:2024-11-15
申请号:CN202411456009.3
申请日:2024-10-18
Applicant: 杭州电子科技大学
IPC: G06V40/20 , G06V20/40 , G06V10/25 , G06V10/42 , G06V10/44 , G06V10/764 , G06V10/766 , G06V10/70 , G06V10/82 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种基于卷积和多头自注意力的时序动作定位方法,属于深度学习视频理解领域。本发明的方法先将待识别视频中的每个视频帧各自提取为视频表示序列,并将其作为多时间跨度上下文模型的输入,然后将编码器每层主干网络输出的特征序列堆叠构成特征金字塔,最后由预测模块输出最终的动作分类结果以及相应的动作起始时间点和动作终止时间点,实现时间点的精确定位,从而减少单一回归头带来的误差。主干网络中融合带有非线性分支的瞬时平均卷积模块以及瞬时平均空洞卷积模块,并将其与多头自注意力模块相结合,以增强学习局部特征的能力和相邻帧特征的区分度。此外,瞬时平均空洞卷积模块中整合了空洞卷积以增强对深层特征的学习能力。
-
-
-
-