语音溯源取证方法及装置、设备及存储介质

    公开(公告)号:CN115083422B

    公开(公告)日:2022-11-15

    申请号:CN202210859678.X

    申请日:2022-07-21

    Abstract: 本公开涉及一种语音溯源取证方法及装置、设备及存储介质,所述方法包括:本提取待测试语音的至少两种不同的声学特征;对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;将预测出的待测试语音的生成算法作为语音溯源取证结果,通过提取算法指纹,不仅可以判断音频的真实性,而且可以进一步溯源取证,得到虚假音频的生成来源。

    语音溯源取证方法及装置、设备及存储介质

    公开(公告)号:CN115083422A

    公开(公告)日:2022-09-20

    申请号:CN202210859678.X

    申请日:2022-07-21

    Abstract: 本公开涉及一种语音溯源取证方法及装置、设备及存储介质,所述方法包括:本提取待测试语音的至少两种不同的声学特征;对提取的待测试语音的至少两种不同的声学特征进行融合,得到第一融合声学特征;基于预先训练的语音溯源取证模型,从所述第一融合声学特征中提取帧级别的算法指纹特征,对帧级别的算法指纹特征进行池化平均,根据池化平均得到的特征加权平均向量和加权标准差向量计算段级别的算法指纹特征,以基于段级别的算法指纹特征预测出待测试语音的生成算法;将预测出的待测试语音的生成算法作为语音溯源取证结果,通过提取算法指纹,不仅可以判断音频的真实性,而且可以进一步溯源取证,得到虚假音频的生成来源。

    语音检测方法及装置、设备及存储介质

    公开(公告)号:CN114937455B

    公开(公告)日:2022-10-11

    申请号:CN202210861977.7

    申请日:2022-07-21

    Abstract: 本公开涉及一种语音检测方法及装置、设备及存储介质,所述方法包括:接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征;将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果,结合待检测语音的语义声学特征检测语音的真伪,通过语义声学特征中待检测语音的编码状态向量与解码状态向量之间的相关性,能够结合待检测语音的上下文之间的相关性检测语音的真伪,提高检测的准确性。

    语音检测方法及装置、设备及存储介质

    公开(公告)号:CN114937455A

    公开(公告)日:2022-08-23

    申请号:CN202210861977.7

    申请日:2022-07-21

    Abstract: 本公开涉及一种语音检测方法及装置、设备及存储介质,所述方法包括:接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征;将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果,结合待检测语音的语义声学特征检测语音的真伪,通过语义声学特征中待检测语音的编码状态向量与解码状态向量之间的相关性,能够结合待检测语音的上下文之间的相关性检测语音的真伪,提高检测的准确性。

    基于多模态大模型的模仿音频鉴别方法、装置和设备

    公开(公告)号:CN118053451A

    公开(公告)日:2024-05-17

    申请号:CN202410447623.7

    申请日:2024-04-15

    Abstract: 本发明实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备,应用于训练好的多模态大模型,多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型;通过将待鉴别音频输入到音频编码器中,获得音频特征;将音频特征输入到线性对齐层,获得对齐到文本模态的音频特征;将鉴伪音频的文本指令和文本模态的音频特征进行拼接,获得拼接特征;将拼接特征输入到预训练的大语言模型中,输出音频鉴别结果和鉴别原因;音频鉴别结果为真,表示音频是被模仿对象的真实音频;音频鉴别结果为假,表示音频是模仿对象针对被模仿对象所进行的模仿音频;鉴别原因是指做出所述音频鉴别结果的依据信息;实现了模仿音频的精确、快速检测。

    基于思维链的跨模态问答的处理方法和装置

    公开(公告)号:CN117453898B

    公开(公告)日:2024-03-22

    申请号:CN202311795864.2

    申请日:2023-12-25

    Abstract: 本公开涉及一种基于思维链的跨模态问答的处理方法和装置,上述处理方法包括:获取目标问答场景下的语音问题和对应的上下文文本;基于预训练好的思维链生成模型,对上述语音问题和上述上下文文本进行跨模态学习,得到用于表示上述语音问题的解决思路的思维链;将上述上下文文本和上述思维链进行拼接,得到目标上下文文本;基于预训练好的答案生成模型,对上述语音问题和上述目标上下文文本进行跨模态学习,得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链,学习对问题进行思考的过程,之后基于思维链学习到答案,不仅有助于提升答案的正确率,也能有效提升答案的可解释性。

Patent Agency Ranking