-
公开(公告)号:CN115661710A
公开(公告)日:2023-01-31
申请号:CN202211303545.0
申请日:2022-10-24
Applicant: 江南大学
IPC: G06V20/40 , G06N3/0455 , G06N3/08 , G06V10/80 , G06V10/82
Abstract: 本发明涉及视频理解技术领域,尤其是指一种视频描述生成方法、装置及计算机存储介质。本发明所述的视频描述生成方法,提出了时间注意和融合注意,并向每个帧特征在线添加一个标记来表示全局特征,让这些标记进行交互,以便在帧与帧之间进行信息的传递和交互,首先,使用时间注意交互所有的标记,学习输入视频的视频帧之间的时间关系,接下来,将时间注意处理过的标记与最终特征内的每一个特征向量相级联,然后输入到融合注意,融合注意使全部特征相交互,使得经过融合注意之后输出的特征包含视频帧之间的时间关系;本发明将预训练模型得到的空间特征和时序信息相结合,捕获视频帧之间的时间线索,最终能够得到更充分的特征表示,提高了预测精度。
-
公开(公告)号:CN116013299A
公开(公告)日:2023-04-25
申请号:CN202211405410.5
申请日:2022-11-10
Applicant: 江南大学
IPC: G10L15/26 , H04N19/20 , H04N21/485
Abstract: 本发明公开了一种局部语义指导的多特征融合视频文本生成方法、装置、设备以及计算机可读存储介质,包括构建并训练视频文本生成模型,将视频片段输入训练好的视频文本生成模型中;提取视频片段中预设帧数的局部空间语义特征;提取视频片段的全局空间语义特征;提取全局空间语义特征中的时间序列特征;将局部空间语义特征、全局空间语义特征和时间序列特征融合;并融合后进行平均池化操作,得到全局平均池化特征;将融合特征和全局平均池化特征输入编码器中进行编码‑解码模块中,得到视频片段的视频字幕。本发明融合局部、全局和时间序列特征,使获得语义更丰富,干扰更小,关键信息更多的视频字幕。
-