-
公开(公告)号:CN118053451B
公开(公告)日:2024-07-19
申请号:CN202410447623.7
申请日:2024-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备,应用于训练好的多模态大模型,多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型;通过将待鉴别音频输入到音频编码器中,获得音频特征;将音频特征输入到线性对齐层,获得对齐到文本模态的音频特征;将鉴伪音频的文本指令和文本模态的音频特征进行拼接,获得拼接特征;将拼接特征输入到预训练的大语言模型中,输出音频鉴别结果和鉴别原因;音频鉴别结果为真,表示音频是被模仿对象的真实音频;音频鉴别结果为假,表示音频是模仿对象针对被模仿对象所进行的模仿音频;鉴别原因是指做出所述音频鉴别结果的依据信息;实现了模仿音频的精确、快速检测。
-
公开(公告)号:CN118053451A
公开(公告)日:2024-05-17
申请号:CN202410447623.7
申请日:2024-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备,应用于训练好的多模态大模型,多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型;通过将待鉴别音频输入到音频编码器中,获得音频特征;将音频特征输入到线性对齐层,获得对齐到文本模态的音频特征;将鉴伪音频的文本指令和文本模态的音频特征进行拼接,获得拼接特征;将拼接特征输入到预训练的大语言模型中,输出音频鉴别结果和鉴别原因;音频鉴别结果为真,表示音频是被模仿对象的真实音频;音频鉴别结果为假,表示音频是模仿对象针对被模仿对象所进行的模仿音频;鉴别原因是指做出所述音频鉴别结果的依据信息;实现了模仿音频的精确、快速检测。
-
公开(公告)号:CN117453898B
公开(公告)日:2024-03-22
申请号:CN202311795864.2
申请日:2023-12-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/335 , G06F16/33 , G06F18/27 , G06N5/04 , G06N5/01 , G06N3/0455 , G06N3/0895 , G06N3/0985 , G06N3/084
Abstract: 本公开涉及一种基于思维链的跨模态问答的处理方法和装置,上述处理方法包括:获取目标问答场景下的语音问题和对应的上下文文本;基于预训练好的思维链生成模型,对上述语音问题和上述上下文文本进行跨模态学习,得到用于表示上述语音问题的解决思路的思维链;将上述上下文文本和上述思维链进行拼接,得到目标上下文文本;基于预训练好的答案生成模型,对上述语音问题和上述目标上下文文本进行跨模态学习,得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链,学习对问题进行思考的过程,之后基于思维链学习到答案,不仅有助于提升答案的正确率,也能有效提升答案的可解释性。
-
公开(公告)号:CN117453898A
公开(公告)日:2024-01-26
申请号:CN202311795864.2
申请日:2023-12-25
Applicant: 中国科学院自动化研究所
IPC: G06F16/332 , G06F16/335 , G06F16/33 , G06F18/27 , G06N5/04 , G06N5/01 , G06N3/0455 , G06N3/0895 , G06N3/0985 , G06N3/084
Abstract: 本公开涉及一种基于思维链的跨模态问答的处理方法和装置,上述处理方法包括:获取目标问答场景下的语音问题和对应的上下文文本;基于预训练好的思维链生成模型,对上述语音问题和上述上下文文本进行跨模态学习,得到用于表示上述语音问题的解决思路的思维链;将上述上下文文本和上述思维链进行拼接,得到目标上下文文本;基于预训练好的答案生成模型,对上述语音问题和上述目标上下文文本进行跨模态学习,得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链,学习对问题进行思考的过程,之后基于思维链学习到答案,不仅有助于提升答案的正确率,也能有效提升答案的可解释性。
-
-
-