基于多模态注意力机制的视频内容描述方法、系统、装置

    公开(公告)号:CN111079601A

    公开(公告)日:2020-04-28

    申请号:CN201911243331.7

    申请日:2019-12-06

    Inventor: 胡卫明 孙亮 李兵

    Abstract: 本发明属于计算机视觉和自然语言处理领域,具体涉及一种基于多模态注意力机制的视频内容描述方法、系统、装置,旨在解决视频内容描述方法只考虑视频特征而忽略高级语义属性信息,导致生成的描述语句准确度较低的问题。本发明方法包括:获取待描述视频的视频帧序列;提取视频帧序列的多模态特征向量,构建多模态特征向量序列,并通过循环神经网络得到各模态特征向量序列对应的特征表示;通过语义属性检测网络得到各特征表示对应的语义属性向量;基于各模态特征向量序列对应的特征表示级联后的向量、语义属性向量,通过基于注意力机制的LSTM网络得到待描述视频的描述语句。本发明融合视觉特征和高层语义属性,提高了生成视频描述语句的准确度。

Patent Agency Ranking