Patent search ap:("中国科学院自动化研究所") AND inv:"顾浩" Page 1

1.

发明授权
基于多模态大模型的模仿音频鉴别方法、装置和设备有权

公开(公告)号：CN118053451B

公开(公告)日：2024-07-19

申请号：CN202410447623.7

申请日：2024-04-15

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 顾浩 , 陶建华

IPC: G10L25/51 , G10L17/18 , G10L17/26 , G10L25/30

Abstract: 本发明实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备，应用于训练好的多模态大模型，多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型；通过将待鉴别音频输入到音频编码器中，获得音频特征；将音频特征输入到线性对齐层，获得对齐到文本模态的音频特征；将鉴伪音频的文本指令和文本模态的音频特征进行拼接，获得拼接特征；将拼接特征输入到预训练的大语言模型中，输出音频鉴别结果和鉴别原因；音频鉴别结果为真，表示音频是被模仿对象的真实音频；音频鉴别结果为假，表示音频是模仿对象针对被模仿对象所进行的模仿音频；鉴别原因是指做出所述音频鉴别结果的依据信息；实现了模仿音频的精确、快速检测。

2.

发明公开
基于多模态大模型的模仿音频鉴别方法、装置和设备有权

公开(公告)号：CN118053451A

公开(公告)日：2024-05-17

申请号：CN202410447623.7

申请日：2024-04-15

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 顾浩 , 陶建华

IPC: G10L25/51 , G10L17/18 , G10L17/26 , G10L25/30

Abstract: 本发明实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备，应用于训练好的多模态大模型，多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型；通过将待鉴别音频输入到音频编码器中，获得音频特征；将音频特征输入到线性对齐层，获得对齐到文本模态的音频特征；将鉴伪音频的文本指令和文本模态的音频特征进行拼接，获得拼接特征；将拼接特征输入到预训练的大语言模型中，输出音频鉴别结果和鉴别原因；音频鉴别结果为真，表示音频是被模仿对象的真实音频；音频鉴别结果为假，表示音频是模仿对象针对被模仿对象所进行的模仿音频；鉴别原因是指做出所述音频鉴别结果的依据信息；实现了模仿音频的精确、快速检测。

3.

发明授权
基于思维链的跨模态问答的处理方法和装置有权

公开(公告)号：CN117453898B

公开(公告)日：2024-03-22

申请号：CN202311795864.2

申请日：2023-12-25

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 顾浩 , 陶建华

IPC: G06F16/332 , G06F16/335 , G06F16/33 , G06F18/27 , G06N5/04 , G06N5/01 , G06N3/0455 , G06N3/0895 , G06N3/0985 , G06N3/084

Abstract: 本公开涉及一种基于思维链的跨模态问答的处理方法和装置，上述处理方法包括：获取目标问答场景下的语音问题和对应的上下文文本；基于预训练好的思维链生成模型，对上述语音问题和上述上下文文本进行跨模态学习，得到用于表示上述语音问题的解决思路的思维链；将上述上下文文本和上述思维链进行拼接，得到目标上下文文本；基于预训练好的答案生成模型，对上述语音问题和上述目标上下文文本进行跨模态学习，得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链，学习对问题进行思考的过程，之后基于思维链学习到答案，不仅有助于提升答案的正确率，也能有效提升答案的可解释性。

4.

发明公开
基于思维链的跨模态问答的处理方法和装置有权

公开(公告)号：CN117453898A

公开(公告)日：2024-01-26

申请号：CN202311795864.2

申请日：2023-12-25

Applicant: 中国科学院自动化研究所

Inventor： 易江燕 , 顾浩 , 陶建华

IPC: G06F16/332 , G06F16/335 , G06F16/33 , G06F18/27 , G06N5/04 , G06N5/01 , G06N3/0455 , G06N3/0895 , G06N3/0985 , G06N3/084

Abstract: 本公开涉及一种基于思维链的跨模态问答的处理方法和装置，上述处理方法包括：获取目标问答场景下的语音问题和对应的上下文文本；基于预训练好的思维链生成模型，对上述语音问题和上述上下文文本进行跨模态学习，得到用于表示上述语音问题的解决思路的思维链；将上述上下文文本和上述思维链进行拼接，得到目标上下文文本；基于预训练好的答案生成模型，对上述语音问题和上述目标上下文文本进行跨模态学习，得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链，学习对问题进行思考的过程，之后基于思维链学习到答案，不仅有助于提升答案的正确率，也能有效提升答案的可解释性。

Patent Agency Ranking