-
公开(公告)号:CN107256221B
公开(公告)日:2020-11-03
申请号:CN201710281305.8
申请日:2017-04-26
Applicant: 苏州大学
IPC: G06F16/74 , G06F40/134 , G06K9/00 , G06K9/62
Abstract: 本发明公开了一种基于多特征融合的视频描述方法,其特征在于:1)通过融合传统CNN特征和SIFT流特征提取视频的深层时空特征;2)根据步骤1)提取的深层时空特征,采用加入以平均池化特征作为视频整体特征的S2VT句子生成模型生成相应的句子描述;3)采用word2vec词向量替换one‑hot vector词表征优化步骤2)中的句子生成模型。本方法优点是通过多特征融合,能更好地提取到更加鲁棒的时空特征,同时在句子生成模型中加入平均池化特征,以便视觉信息与单词间建立更多联系,最后采用word2vec词向量方法替换one‑hot vector词表征,在单词与单词之间建立更多的联系,有效提高视频描述性能。
-
公开(公告)号:CN107256221A
公开(公告)日:2017-10-17
申请号:CN201710281305.8
申请日:2017-04-26
Applicant: 苏州大学
Abstract: 本发明公开了一种基于多特征融合的视频描述方法,其特征在于:1)通过融合传统CNN特征和SIFT流特征提取视频的深层时空特征;2)根据步骤1)提取的深层时空特征,采用加入以平均池化特征作为视频整体特征的S2VT句子生成模型生成相应的句子描述;3)采用word2vec词向量替换one‑hot vector词表征优化步骤2)中的句子生成模型。本方法优点是通过多特征融合,能更好地提取到更加鲁棒的时空特征,同时在句子生成模型中加入平均池化特征,以便视觉信息与单词间建立更多联系,最后采用word2vec词向量方法替换one‑hot vector词表征,在单词与单词之间建立更多的联系,有效提高视频描述性能。
-
公开(公告)号:CN106845351A
公开(公告)日:2017-06-13
申请号:CN201611193290.1
申请日:2016-12-21
Applicant: 苏州大学
CPC classification number: G06K9/00335 , G06K9/00744 , G06K9/6277 , G06K9/6288 , G06N3/049
Abstract: 本发明公开了一种用于视频的基于双向长短时记忆单元的行为识别方法,包括:(1)输入视频序列,提取视频序列中的RBG帧序列和光流图像;(2)分别训练RGB图像深度卷积网络和光流图像深度卷积网络;(3)提取网络的多层特征,其中至少提取第三卷积层、第五卷积层、第七全连接层的特征;对卷积层特征进行和池化;(4)对采用双向长短时记忆单元构建的递归神经网络进行训练,得到视频每帧的概率矩阵;(5)对每个概率矩阵取平均,最后融合光流帧和RGB帧的概率矩阵,取概率最大的类作为最后的分类结果,由此实现行为识别。本发明采用多层深度学习的特征代替传统的人工特征,不同层的深度特征表征了不同的信息,多层特征的组合可以提高分类的准确率;通过采用双向长短时记忆捕获时间信息,获得更多的时域结构信息,提高了行为识别的效果。
-
-