一种基于关键帧选择的多路径网络的人体行为识别方法

    公开(公告)号:CN118968609A

    公开(公告)日:2024-11-15

    申请号:CN202410818306.1

    申请日:2024-06-24

    Abstract: 本发明提供了一种基于关键帧选择的多路径网络的人体行为识别方法。该方法包括:对待识别的视频数据进行采样,得到多个视频分段;对各个视频分段进行特征采集,使用多层感知器和归一化函数生成概率分布,根据概率分布筛选出人体动作所在的视频分段;将所述人体动作所在的视频分段输入到多路径视频‑文本编码器分类网络中,通过时间编码器和空间编码器从视频分段学习时空特征,通过文本编码器学习视频分段中的文本特征,通过计算时空特征和文本特征的相似度,获得所述待识别视频的人体行为的识别结果。本发明所提出的方法能够有效地筛选出与人体动作相关的图像帧,减少无关行为的干扰,提升整体的识别效果。

    一种基于频域增强的压缩视频人体行为识别方法

    公开(公告)号:CN116959100A

    公开(公告)日:2023-10-27

    申请号:CN202310732026.4

    申请日:2023-06-20

    Abstract: 本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括:构建频域增强FE模块,所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet‑50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题,与其他基于频域数据的方法相比,达到了更高的识别准确率,与其他基于压缩域数据的方法和基于RGB数据方法相比,也达到了具有竞争力的准确率,同时具有较高的效率。

    一种基于一致片段选择的视听事件定位方法

    公开(公告)号:CN116310975B

    公开(公告)日:2024-06-25

    申请号:CN202310241056.5

    申请日:2023-03-14

    Abstract: 本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括:从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征;将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征;从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对;对语义一致的视听片段对进行视听特征融合,得到视听融合特征;根据视听融合特征对待进行识别的视听事件进行识别,获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系,对于关联得分高的视听对有着一致的语义,将其保留,并对保留下来的视听对进行全局建模,获取整个视频的语义信息。

    基于双流自监督网络的语音识别方法、装置、设备及介质

    公开(公告)号:CN116863920A

    公开(公告)日:2023-10-10

    申请号:CN202310874348.2

    申请日:2023-07-17

    Abstract: 本发明提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质,包括:利用编码与量化模块对目标声学特征进行编码与量化获得语音向量;利用重构预测模块对语音向量进行重构预测获得第一语音表示;同时,利用对比预测模块中的自回归模型对语音向量进行预测获得第二语音表示;利用特征融合子模块对第一语音表示与第二语音表示进行融合获得融合后语音表示;基于目标声学特征,结合第一子模型与CTC模块中的连接时序分类器对融合后语音表示进行识别获得转录文本。本发明能够关注语音详细的上下文信息及语音不同特征之间的差异信息,提高自监督学习的鲁棒性,有效结合生成式和判别式自监督学习的互补优势。

    一种基于频域增强的压缩视频人体行为识别方法

    公开(公告)号:CN116959100B

    公开(公告)日:2024-10-11

    申请号:CN202310732026.4

    申请日:2023-06-20

    Abstract: 本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括:构建频域增强FE模块,所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet‑50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题,与其他基于频域数据的方法相比,达到了更高的识别准确率,与其他基于压缩域数据的方法和基于RGB数据方法相比,也达到了具有竞争力的准确率,同时具有较高的效率。

    基于双流自监督网络的语音识别方法、装置、设备及介质

    公开(公告)号:CN116863920B

    公开(公告)日:2024-06-11

    申请号:CN202310874348.2

    申请日:2023-07-17

    Abstract: 本发明提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质,包括:利用编码与量化模块对目标声学特征进行编码与量化获得语音向量;利用重构预测模块对语音向量进行重构预测获得第一语音表示;同时,利用对比预测模块中的自回归模型对语音向量进行预测获得第二语音表示;利用特征融合子模块对第一语音表示与第二语音表示进行融合获得融合后语音表示;基于目标声学特征,结合第一子模型与CTC模块中的连接时序分类器对融合后语音表示进行识别获得转录文本。本发明能够关注语音详细的上下文信息及语音不同特征之间的差异信息,提高自监督学习的鲁棒性,有效结合生成式和判别式自监督学习的互补优势。

    一种基于一致片段选择的视听事件定位方法

    公开(公告)号:CN116310975A

    公开(公告)日:2023-06-23

    申请号:CN202310241056.5

    申请日:2023-03-14

    Abstract: 本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括:从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征;将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征;从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对;对语义一致的视听片段对进行视听特征融合,得到视听融合特征;根据视听融合特征对待进行识别的视听事件进行识别,获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系,对于关联得分高的视听对有着一致的语义,将其保留,并对保留下来的视听对进行全局建模,获取整个视频的语义信息。

Patent Agency Ranking