-
公开(公告)号:CN113784199B
公开(公告)日:2022-09-13
申请号:CN202111060036.5
申请日:2021-09-10
Applicant: 中国科学院计算技术研究所
IPC: H04N21/435 , H04N21/44 , G06V20/40 , G06F16/74
Abstract: 本发明提供的一种用于生成视频描述文本的系统,包括:视觉编码模块,用于对待处理的视频进行全局编码,得到全局视频特征,并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码,得到各个视频片段中每个视频帧的视觉模态表征;以及字幕生成模块,用于对视觉模态表征进行嵌入处理,得到文本模态表征,并基于文本模态表征生成描述文本。根据该系统进行的视频描述的生成方法中,生成的描述文本不仅更加具有视觉准确性和视觉一致性,前后文本更加连贯。
-
公开(公告)号:CN114743056A
公开(公告)日:2022-07-12
申请号:CN202210439734.4
申请日:2022-04-25
Applicant: 中国科学院计算技术研究所
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06K9/62 , G06F16/583 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种基于动态早退的图像描述生成模型,包括:视觉编码器,用于提取图像的视觉特征,其包括多个依次串联的编码层;文本解码器,用于对视觉编码器输出的视觉特征进行解码并依次输出多个预测词汇表中的单词以组成图像的自然语言描述文本,其包括多个依次串联的解码层,每个解码层配置有一个动态早退决策模块和一个模仿学习网络;其中:所述每个动态早退决策模块用于在单词预测过程中根据预测词汇表中的单词预测概率判断当前预测是否需要提前退出、并在预测词汇表中单词的预测概率中的最大概率超过可信度阈值时输出该最大概率对应的单词;所述每个模仿学习网络用于根据输入模仿预测其对应解码层的输出隐含层状态向量。
-
公开(公告)号:CN113784199A
公开(公告)日:2021-12-10
申请号:CN202111060036.5
申请日:2021-09-10
Applicant: 中国科学院计算技术研究所
IPC: H04N21/435 , H04N21/44 , G06K9/00 , G06F16/74
Abstract: 本发明提供的一种用于生成视频描述文本的系统,包括:视觉编码模块,用于对待处理的视频进行全局编码,得到全局视频特征,并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码,得到各个视频片段中每个视频帧的视觉模态表征;以及字幕生成模块,用于对视觉模态表征进行嵌入处理,得到文本模态表征,并基于文本模态表征生成描述文本。根据该系统进行的视频描述的生成方法中,生成的描述文本不仅更加具有视觉准确性和视觉一致性,前后文本更加连贯。
-
-