-
公开(公告)号:CN115312044A
公开(公告)日:2022-11-08
申请号:CN202210936845.6
申请日:2022-08-05
Applicant: 清华大学
IPC: G10L15/18 , G10L15/16 , G10L15/26 , G10L15/06 , G10L25/30 , G10L25/57 , G06V10/80 , G06V10/82 , G06N3/08
Abstract: 本申请涉及音视频问答领域,提供了一种用于音视频问答的层次化声音‑视觉特征融合方法及产品,通过将输入视频片段中的声音嵌入分别在层次化特征融合流程中的早期、中期和晚期分别与基线模型以及视频嵌入、问题嵌入融合并得到第一答案概率分布、第二答案概率分布以及第三答案概率分布,并对答案概率分布基于预设权值相加后取平均进行层次化集成,生成最终答案,本申请提供的方法一方面增加了声音表征模块在整个问答系统中的占比,可以提升问题的回答能力;另一方面,增加声音‑视觉融合模块可以提升对复杂语义理解性能,得到对真实复杂场景中视频片段的问题的更优解答案输出。
-
公开(公告)号:CN115312044B
公开(公告)日:2024-06-14
申请号:CN202210936845.6
申请日:2022-08-05
Applicant: 清华大学
IPC: G10L15/18 , G10L15/16 , G10L15/26 , G10L15/06 , G10L25/30 , G10L25/57 , G06V10/80 , G06V10/82 , G06N3/08
Abstract: 本申请涉及音视频问答领域,提供了一种用于音视频问答的层次化声音‑视觉特征融合方法及产品,通过将输入视频片段中的声音嵌入分别在层次化特征融合流程中的早期、中期和晚期分别与基线模型以及视频嵌入、问题嵌入融合并得到第一答案概率分布、第二答案概率分布以及第三答案概率分布,并对答案概率分布基于预设权值相加后取平均进行层次化集成,生成最终答案,本申请提供的方法一方面增加了声音表征模块在整个问答系统中的占比,可以提升问题的回答能力;另一方面,增加声音‑视觉融合模块可以提升对复杂语义理解性能,得到对真实复杂场景中视频片段的问题的更优解答案输出。
-