一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

    公开(公告)号:CN116385937B

    公开(公告)日:2024-07-30

    申请号:CN202310371771.0

    申请日:2023-04-07

    Abstract: 本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,涉及计算机视觉和自然语言处理领域。本发明的技术要点包括:对视频提取帧级与目标级特征,并提取描述文本的语义词性和问题的词嵌入向量,利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示,利用图神经网络集成不同粒度的表示,并利用注意力来捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,生成基于问题的视觉表示和基于视频的文本表示,进而自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。

    一种基于时空图和相似图的协同注意力推理的视频问答方法

    公开(公告)号:CN116758450A

    公开(公告)日:2023-09-15

    申请号:CN202310547607.0

    申请日:2023-05-15

    Abstract: 本发明提出一种基于时空图和相似图的协同注意力推理的视频问答方法,属于视频问答技术领域。包括:提取输入视频的帧级全局特征和目标级局部特征。提取输入问题语句的特征并对其进行编码,获取问题语句的上下文信息。根据提取的局部特征,构建目标之间的相似图和时空图,获得目标时间的相似关系和时空关系,并进行关系推理。依据视觉特征和问题特征,得到具有问题导向和具有视频导向的特征信息,并同时建立长期依赖。依据提取的答案特征,进行预测答案。解决了现有技术无法同时关注到视觉和文本内容的内在联系的问题,根据文本信息在视频内容中建立长距离语义依赖,并且能准确建模视频中对象之间产生的交互关系,有效提高视频问答预测的准确性。

    一种基于多粒度的跨模态交互框架解决视频问答的方法及系统

    公开(公告)号:CN116385937A

    公开(公告)日:2023-07-04

    申请号:CN202310371771.0

    申请日:2023-04-07

    Abstract: 本发明公开了一种基于多粒度的跨模态交互框架解决视频问答的方法及系统,涉及计算机视觉和自然语言处理领域。本发明的技术要点包括:对视频提取帧级与目标级特征,并提取描述文本的语义词性和问题的词嵌入向量,利用对视频和描述文本的图神经网络获取多粒度的视频和文本表示,利用图神经网络集成不同粒度的表示,并利用注意力来捕获同模态的视频、同模态的文本,以及跨模态视频和文本之间的交互信息,生成基于问题的视觉表示和基于视频的文本表示,进而自适应地融合基于问题的视觉表示和基于视频的文本表示,生成答案。本发明通过整合不同表示形式提高了回答的准确性。本发明在视频问答中取得的效果相比于传统方法更好。

Patent Agency Ranking