-
公开(公告)号:CN118097497A
公开(公告)日:2024-05-28
申请号:CN202410170538.0
申请日:2024-02-06
Applicant: 湖南中南数智科技有限公司
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06V10/74 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06V10/44
Abstract: 本发明公开了一种挖掘单词语义关系的视频描述方法、终端设备及存储介质,首先对包含描述句子的视频进行采样获取视频帧,使用预训练的2D卷积神经网络提取视觉外貌特征,使用预训练的3D卷积神经网络提取动作特征;使用LSTM解码器获取单词语义特征表示;结合单词语义关系挖掘模块和LSTM网络结构生成句子;使用Transformer解码器获取单词语义特征表示;结合单词语义关系挖掘模块和Transformer网络结构生成句子;本发明在不增加测试阶段模型参数的情况下提升了模型生成句子在CIDER,METER,BLUE,ROUGE‑L指标上的数值,提升了模型生成句子的质量。