基于多关系图模型的多模态对话问答生成方法

    公开(公告)号:CN115712709A

    公开(公告)日:2023-02-24

    申请号:CN202211451009.5

    申请日:2022-11-18

    Abstract: 基于多关系图模型的多模态对话问答生成方法,涉及一种多模态对话问答生成方法。本发明为了解决现有的多模态对话系统仅考虑场景序列化信息而导致现有模型效果一般的问题。本发明首先将视频序列化切分为多个视频片段,对于每个片段获取该片段的色彩特征、光流特征和音频特征,并拼接起来,再加入位置信息和模态信息得到各个视频片段的序列表示;将每个视频片段视作顶点,构建基于全联通关系的视频图并输入图卷积神经网络,得到视频隐藏层序列以及与原视频序列的融合表示;然后利用相似的方式处理基于视听场景标题和对话历史对应的词向量得到各自对应的文本隐藏层序列以及与原文本序列的融合表示;最后利用神经网络模型生成回答。

Patent Agency Ranking