-
公开(公告)号:CN119739840A
公开(公告)日:2025-04-01
申请号:CN202510258945.1
申请日:2025-03-06
Applicant: 东北大学
IPC: G06F16/3329 , G06F16/334 , G06F16/532 , G06F16/583 , G06N5/04 , G10L15/02 , G10L15/16 , G10L15/18
Abstract: 本发明提供一种支持情绪化语音输出的多模态智能问答与推荐系统,涉及视觉问答技术领域,具体包括多模态问答模块、多模态推荐模块、语音识别模块、以及语音合成模块;其中多模态问答模块将用户输入的图像转换为自然语言的形式,结合彗星知识库COMET,完成最终的问题回答;语音识别模块用于识别输入到多模态智能问答与推荐系统中的语音数据,并将其处理成文本的形式;多模态推荐模块鉴别传入的数据是否存在模态缺失的情况,生成缺失模态的表示,然后根据用户和物品的交互矩阵,通过图卷积神经网络,学习得到用户和物品的向量表示,并进行可靠性计算,最后将多模态推荐的结果,送回到多模态问答模块中;语音合成模块将语音输出给用户。