基于语义驱动的前背景区分视频描述生成系统

    公开(公告)号:CN115393759A

    公开(公告)日:2022-11-25

    申请号:CN202210970846.2

    申请日:2022-08-13

    Applicant: 复旦大学

    Inventor: 张玥杰 景和明

    Abstract: 本发明属于跨媒体生成技术领域,具体为基于语义驱动的前背景区分视频描述生成系统。本发明的视频描述生成系统包括:视频特征提取网络、前背景区分网络、视频特征编码网络、及描述生成网络。视频特征提取网络对视频进行采样处理,获取视频特征,输出至前背景区分网络;前背景区分网络对视频特征根据语义信息进行区分,并输入至视频特征编码网络;描述生成网络根据视频特征编码网络输出的特征进行句子生成。本发明对视频序列特征进行区分,在生成描述语句时充分利用视频帧的前景和背景信息,使得生成更为精确。这对于视频分析和多模态信息研究具有重要意义,能够提高模型对视频视觉信息的理解能力,具有广泛应用价值。

    基于感知语法知识的视频描述生成方法

    公开(公告)号:CN115410120A

    公开(公告)日:2022-11-29

    申请号:CN202210970842.4

    申请日:2022-08-13

    Applicant: 复旦大学

    Abstract: 本发明属于计算机视觉技术领域,具体为一种基于感知语法知识的树结构视频描述生成方法。本发明显式利用语言中存在的语义信息,使用依存结构分析工具将顺序结构的句子转换成语法树的结构,通过树之间父结点和子结点之间的连接关系,对句子当中的依存语法结构进行显式建模;通过感知上下文的注意力网络,对生成过程中所产生的不同路径上下文信息分别进行建模;同时,在训练阶段引入强化学习和迭代式生成的训练方式,进一步提高模型性能;本发明通过定性和定量实验,表明模型具有可生成更加准确、语义更加丰富描述的能力。

    基于关系感知的视频描述生成系统

    公开(公告)号:CN115311598A

    公开(公告)日:2022-11-08

    申请号:CN202210911326.4

    申请日:2022-07-29

    Applicant: 复旦大学

    Abstract: 本发明属于跨媒体生成技术领域,具体为基于关系感知的视频描述生成系统。本发明系统包括视频特征提取网络、关系感知视觉特征编码网络、语言解码网络。视频特征提取网络对视频进行帧采样,获取帧级别视觉语义特征与目标对象序列特征及相关信息;关系感知视觉特征编码网络对帧级别视觉语义进行融合,对视频中目标对象序列特征根据关系信息进行重构编码;语言解码网络采用注意力机制融合特征信息,生成最终的描述语句。本发明采用场景图解析模型预提取视频中显著对象间的关系信息,利用图卷积对视频中对象级序列特征进行重构,在生成描述语句时充分利用视频内对象间的空间语义与时序关系信息,使生成更精确,并提高模型对视频视觉信息的理解能力。

Patent Agency Ranking