一种语音增强网络信噪比估计器及损失优化方法

    公开(公告)号:CN116364109A

    公开(公告)日:2023-06-30

    申请号:CN202310200774.8

    申请日:2023-03-03

    Abstract: 本发明公开了一种语音增强网络信噪比估计器,包括编码器和解码器,编码器和解码器之间设置有复数运算的CNN、复数LSTM和复数的BN层,编码器包含了复Conv2D层、复BN层和实数PReLU层,LSTM层后设置有1‑D卷积模块,1‑D卷积模块由多个一维卷积层和全连接层交替串行组合,全连接层具有sigmoid函数,信噪比估计器采用了两个一维卷积层和具有sigmoid函数的全连接层串行组合,输入是经过复LSTM计算后的带噪语音信号实部和虚部的拼接,输出为根据公式计算出的帧级先验信噪比,以保持良好的语音质。

    一种音视频融合多说话人检测设备

    公开(公告)号:CN116233687A

    公开(公告)日:2023-06-06

    申请号:CN202310206261.8

    申请日:2023-03-03

    Abstract: 本发明公开了一种音视频融合多说话人检测设备,包括外球壳、内球套、架台、麦克风阵列环和控制主机,外球壳由架台架设在指定位置,外球壳壳体安装有摄像头,内球套同心设置在外球壳内部,内球套内部设置有控制主机,麦克风阵列环设置在外球壳和内球套之间,麦克风阵列环包括至少两个交叉环圈,每个交叉环圈外侧均匀设置有多个微型麦克风,每个交叉环圈外侧还对称安装有两驱动件,驱动件包括固定座、控制器、X轴驱动器、Y轴驱动器和万向滚动球,固定座内部具有球形槽,万向滚动球设置在球形槽内,万向滚动球从球形槽部分探出且与外球壳内壁紧贴,麦克风阵列环可以在多说话人的语音场景中灵活调整,检测设备的语音识别和声源定位准确率大大提升。

Patent Agency Ranking