多重对抗判别伪造音频检测系统

    公开(公告)号:CN118280389B

    公开(公告)日:2024-11-15

    申请号:CN202410365711.2

    申请日:2024-03-28

    Abstract: 本发明涉及语音识别技术领域,具体涉及一种多重对抗判别伪造音频检测系统;包括数据采集模块、波形检测模型、时域特征建模模块和对抗神经网络分类器;波形检测模型用于提取预处理后的原始音频数据中的频谱,基于频谱的连续性判别原始音频是否为真实音频;时域特征建模模块用于对音频波形与特征进行建模;对抗神经网络分类器用于对特征进行判别,再次判别原始音频是否为真实音频;通过对目标音频进行波形频谱分析,采用深度神经网络对于音频波形与特征进行建模,使用对抗神经网络对特征进行判别,从而判断音频来源是否伪造,获得检测出深度音频的伪造,提高检测的准确性和鲁棒性的效果。

    基于说话人语音微动作的说话人识别方法

    公开(公告)号:CN118918900A

    公开(公告)日:2024-11-08

    申请号:CN202411154941.0

    申请日:2024-08-22

    Inventor: 丁卓 刘叔弢 邵曦

    Abstract: 本发明涉及电子数字数据处理技术领域,具体涉及一种基于说话人语音微动作的说话人识别方法,包括:语音流经过预处理后提取Fbank特征分别送入教师网络和学生网络中,得到各自对应的特征嵌入;将教师网络和学生网络分别得到的特征嵌入送入loss函数中并进行反向传播;学生网络正常迭代,教师网络通过EMA滑动平均的方法进行迭代;将经过ECAPA‑TDNN声纹模型提取得到的声纹特征信息与通过口音数据训练得到的说话人语音微动作信息进行特征聚合和分类,进行说话人识别;本发明利用数据增强等方法提升模型的泛化性能,避免拟合在信道特征当中,且不需要人工标注,并通过引入新的特征来帮助说话人验证模型取得在更大人群中识别说话人的能力。

    一种声纹验证多模态唤醒方法及设备

    公开(公告)号:CN118335090A

    公开(公告)日:2024-07-12

    申请号:CN202410605682.2

    申请日:2024-05-16

    Abstract: 本发明涉及声纹验证技术领域,具体涉及一种声纹验证多模态唤醒方法及设备;包括声纹采集模块、多模态融合模块、多通道声音采集模块、声源定位模块、语音识别模块、操作执行模块和交互模块,声纹采集模块用于采集用户声音样本数据,并建立该用户的声纹特征模型;多通道声音采集模块用于采集多个当前用户发出的声音数据;多模态融合模块用于匹配当前用户与声纹特征模型是否为同一用户;语音识别模块用于识别声音数据的操作任务,并唤醒操作设备;操作执行模块用于执行操作任务;交互模块用于与当前用户进行交互,通过采用匹配当前用户和本地的声纹特征模型的方式进行验证,防止网络延迟导致的用户体验下降。

    一种背景音效作品生成系统及方法

    公开(公告)号:CN118053409A

    公开(公告)日:2024-05-17

    申请号:CN202410190193.5

    申请日:2024-02-21

    Inventor: 段艺博 丁卓

    Abstract: 本发明涉及背景音效生成技术领域,具体涉及一种背景音效作品生成系统及方法;包括背景音效特征提取模组和背景音效生成模组,背景音效生成模组包括音乐特征采集模块、神经网络生成模块、后处理模块和声码器,神经网络生成模块与音乐特征采集模块连接,所诉神经网络生成模块与音乐特征采集模块连接,后处理模块分别与神经网络生成模块和声码器连接;生成方法为:建立所述背景音效特征提取系统;对所有背景音效数据进行预处理,将背景音效数据成为统一的特征输入;提取背景音效特征;对背景音效特征进行处理,生成背景音效;输出背景音效的语音波形,通过上述方式,实现了能够自动生成高质量的背景音效作品。

    车载多人实时智能语音交互系统
    45.
    发明公开

    公开(公告)号:CN117854517A

    公开(公告)日:2024-04-09

    申请号:CN202410160194.5

    申请日:2024-02-05

    Inventor: 段艺博 丁卓

    Abstract: 本发明涉及车载智能语音技术领域,具体涉及一种车载多人实时智能语音交互系统;包括声音采集模块、多通道语音增强模块、语音识别模块、自然语音处理模块和语音合成模块,使用车载语音时,通过声音采集模块对声源进行采集,多通道语音增强模块将采集的声源进行多通道自注意力语音增强,随后语音识别模块通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类,利用自然语音处理模块进行实时语音识别将说话人音频进行语音转文字,最后语音合成模块将转换后的实时转换文字按目标说话人声源进行人机交互处理,实现了能够提高语音的识别率,减少噪声干扰,更准确的远距离语音识别,提升了用户的体验。

    多人匿名元宇宙会议系统及方法
    46.
    发明公开

    公开(公告)号:CN117812186A

    公开(公告)日:2024-04-02

    申请号:CN202410034901.6

    申请日:2024-01-09

    Inventor: 赵胜 丁卓

    Abstract: 本发明涉及数字信息传输技术领域,具体涉及一种多人匿名元宇宙会议系统及方法,多人匿名元宇宙会议方法包括:建立多个虚拟说话人的TTS说话人库,将输入文字转换成相应说话人的语音输出;对参与者的语音进行语音识别,将参与者的语音输入转化为文本信息;对语音和文本信息进行加密保护,将语音和文本信息进行端到端的加密传输;根据用户选择的匿名身份,在电话会议中生成相应的数字化虚拟人物形象;实时捕捉参与者的面部表情,匿名传输参与者的面部表情;本发明能够为电话会议提供参与者匿名功能,以保护用户的隐私并提升用户体验。

    一种面向实时语音通讯的丢包补偿方法

    公开(公告)号:CN116248229A

    公开(公告)日:2023-06-09

    申请号:CN202211572689.6

    申请日:2022-12-08

    Abstract: 本发明公开一种面向实时语音通讯的丢包补偿方法,包括如下步骤:构建基于对抗神经网络的补偿训练模型,所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器;将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频;通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度;基于相似度,更新补偿训练模型的参数,继续训练,直到模型收敛或达到最大迭代次数,输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。本发明能够更加准确地预测出丢失的音频帧,提高实时语音通讯中的音频质量。

Patent Agency Ranking