一种声纹验证多模态唤醒方法及设备

    公开(公告)号:CN118335090A

    公开(公告)日:2024-07-12

    申请号:CN202410605682.2

    申请日:2024-05-16

    Abstract: 本发明涉及声纹验证技术领域,具体涉及一种声纹验证多模态唤醒方法及设备;包括声纹采集模块、多模态融合模块、多通道声音采集模块、声源定位模块、语音识别模块、操作执行模块和交互模块,声纹采集模块用于采集用户声音样本数据,并建立该用户的声纹特征模型;多通道声音采集模块用于采集多个当前用户发出的声音数据;多模态融合模块用于匹配当前用户与声纹特征模型是否为同一用户;语音识别模块用于识别声音数据的操作任务,并唤醒操作设备;操作执行模块用于执行操作任务;交互模块用于与当前用户进行交互,通过采用匹配当前用户和本地的声纹特征模型的方式进行验证,防止网络延迟导致的用户体验下降。

    一种背景音效作品生成系统及方法

    公开(公告)号:CN118053409A

    公开(公告)日:2024-05-17

    申请号:CN202410190193.5

    申请日:2024-02-21

    Inventor: 段艺博 丁卓

    Abstract: 本发明涉及背景音效生成技术领域,具体涉及一种背景音效作品生成系统及方法;包括背景音效特征提取模组和背景音效生成模组,背景音效生成模组包括音乐特征采集模块、神经网络生成模块、后处理模块和声码器,神经网络生成模块与音乐特征采集模块连接,所诉神经网络生成模块与音乐特征采集模块连接,后处理模块分别与神经网络生成模块和声码器连接;生成方法为:建立所述背景音效特征提取系统;对所有背景音效数据进行预处理,将背景音效数据成为统一的特征输入;提取背景音效特征;对背景音效特征进行处理,生成背景音效;输出背景音效的语音波形,通过上述方式,实现了能够自动生成高质量的背景音效作品。

    一种基于循环生成对抗网络的图像风格迁移方法

    公开(公告)号:CN117994122A

    公开(公告)日:2024-05-07

    申请号:CN202410135881.1

    申请日:2024-01-31

    Inventor: 郑宇力 丁卓

    Abstract: 本发明涉及计算机视觉技术领域,具体涉及一种基于循环生成对抗网络的图像风格迁移方法;将风格A的图像集和风格B的图像集共同作为训练集,两种风格的图像集分别把对方的风格作为迁移目标,构建一个用于判断图像的风格和是否经过迁移的判别器,两个用于进行风格迁移的生成器;利用推土机距离和梯度惩罚更新判别器,利用循环一致性损失、一致性损失和两个生成器损失更新生成器;通过推土机距离收敛与否判断训练进程;通过实际生成的效果图来调整多优化目标的损失函数的超参数;本发明改善了循环生成对抗网络训练的稳定性,使得训练进程可视化,有效降低了模型训练的难度,可以用于不同数据集的图像风格迁移任务。

    车载多人实时智能语音交互系统
    34.
    发明公开

    公开(公告)号:CN117854517A

    公开(公告)日:2024-04-09

    申请号:CN202410160194.5

    申请日:2024-02-05

    Inventor: 段艺博 丁卓

    Abstract: 本发明涉及车载智能语音技术领域,具体涉及一种车载多人实时智能语音交互系统;包括声音采集模块、多通道语音增强模块、语音识别模块、自然语音处理模块和语音合成模块,使用车载语音时,通过声音采集模块对声源进行采集,多通道语音增强模块将采集的声源进行多通道自注意力语音增强,随后语音识别模块通过时频域的多通道对齐与语音活动检测后的音频进行说话人聚类,利用自然语音处理模块进行实时语音识别将说话人音频进行语音转文字,最后语音合成模块将转换后的实时转换文字按目标说话人声源进行人机交互处理,实现了能够提高语音的识别率,减少噪声干扰,更准确的远距离语音识别,提升了用户的体验。

    多人匿名元宇宙会议系统及方法
    35.
    发明公开

    公开(公告)号:CN117812186A

    公开(公告)日:2024-04-02

    申请号:CN202410034901.6

    申请日:2024-01-09

    Inventor: 赵胜 丁卓

    Abstract: 本发明涉及数字信息传输技术领域,具体涉及一种多人匿名元宇宙会议系统及方法,多人匿名元宇宙会议方法包括:建立多个虚拟说话人的TTS说话人库,将输入文字转换成相应说话人的语音输出;对参与者的语音进行语音识别,将参与者的语音输入转化为文本信息;对语音和文本信息进行加密保护,将语音和文本信息进行端到端的加密传输;根据用户选择的匿名身份,在电话会议中生成相应的数字化虚拟人物形象;实时捕捉参与者的面部表情,匿名传输参与者的面部表情;本发明能够为电话会议提供参与者匿名功能,以保护用户的隐私并提升用户体验。

Patent Agency Ranking