一种基于神经网络的实时回声消除方法

    公开(公告)号:CN117437929A

    公开(公告)日:2024-01-23

    申请号:CN202311768706.8

    申请日:2023-12-21

    Abstract: 本发明公开了一种基于神经网络的实时回声消除方法,包括:步骤1、构建回声消除模型;步骤2、对所述回声消除模型进行训练;步骤3、构建回声检测模型;步骤4、对所述回声检测模型进行训练;步骤5、将近端音频信号和远端音频信号作为训练后的所述回声消除模型的输入,得到训练后的所述回声消除模型的输出;步骤6、将训练后的所述回声消除模型的输出和远端音频信号作为训练后的所述回声检测模型的输入,得到训练后的所述回声检测模型的输出作为回声检测的标签;步骤7、根据所述回声检测的标签判断当前回声消除模型输出帧的状态,得到最终的目标音频。本发明是结合回声消除模型和回声检测模型,在只采集少量数据的情况下,提高回声消除模型的效果,减小模型的部署难度。

    基于标签平滑的扩散标签深度学习模型训练方法及介质

    公开(公告)号:CN116994343B

    公开(公告)日:2023-12-15

    申请号:CN202311256897.X

    申请日:2023-09-27

    Abstract: 本发明公开了一种基于标签平滑的扩散标签深度学习模型训练方法,包括如:步骤1、获取原始训练数据和对应的原始标签;步骤2、将所述原始训练数据和对应的原始标签输入到深度学习模型中;步骤3、对原始训练数据进行混合扩充,得到处理后的混合训练数据;步骤4、根据所述混合训练数据中参与扩充的原始训练数据所对应的原始标签,计算出所述混合训练数据对应的混合标签;步骤5、所述深度学习模型按照扩散的标签平滑方式对原始训练数据、原始标签、混合训练数据和混合标签进行训练,输出预测结果。本发明还提供一种计算机可读存储介质,可以解决泛化性差、过拟合、抗噪能力弱、样本分布和类别不平衡问题。

    一种基于预训练图片残差的人脸识别活体检测方法

    公开(公告)号:CN113610042B

    公开(公告)日:2023-05-23

    申请号:CN202110951138.X

    申请日:2021-08-18

    Abstract: 本发明公开一种基于预训练图片残差的人脸识别活体检测方法,具体包括如下步骤:对数据集做平均脸处理;将输入判断的图片与平均脸做残差获得残差图像;将处理后的图像输入神经网络中获取判断结果。本发明通过对比平均脸模型的图片残差,根据神经网络模型判断得出结果,基于常用的神经网络模型ShuffleNet,耗时低,速度快,使用单镜头的准确度与多模镜头的识别率相当。使用对比平均脸模型的图片残差的方式可以显著增强模型泛化性,使用单镜头的方案,适用范围广,成本低,兼容当前主流设备。

    一种基于预训练图片残差的人脸识别活体检测方法

    公开(公告)号:CN113610042A

    公开(公告)日:2021-11-05

    申请号:CN202110951138.X

    申请日:2021-08-18

    Abstract: 本发明公开一种基于预训练图片残差的人脸识别活体检测方法,具体包括如下步骤:对数据集做平均脸处理;将输入判断的图片与平均脸做残差获得残差图像;将处理后的图像输入神经网络中获取判断结果。本发明通过对比平均脸模型的图片残差,根据神经网络模型判断得出结果,基于常用的神经网络模型ShuffleNet,耗时低,速度快,使用单镜头的准确度与多模镜头的识别率相当。使用对比平均脸模型的图片残差的方式可以显著增强模型泛化性,使用单镜头的方案,适用范围广,成本低,兼容当前主流设备。

    语音数据的处理方法、装置、计算机可读介质及电子设备

    公开(公告)号:CN111710337B

    公开(公告)日:2023-07-07

    申请号:CN202010549158.X

    申请日:2020-06-16

    Inventor: 元涛 兰泽华 林昱

    Abstract: 本申请的实施例提供了一种语音数据的处理方法、装置、计算机可读介质及电子设备。该语音数据的处理方法包括:实时获取语音输入信息;对所述语音输入信息进行分帧处理,得到所述语音输入信息所对应的语音帧;采用预训练的声学模型对所述语音帧进行音素识别,以识别出所述语音帧中包含的音素;针对每次音素识别的结果,对当前识别出的音素进行关键词识别,以确定所述语音输入信息包含的关键词;若连续识别出相同的关键词的次数大于或等于预定数量,则确定所述关键词为目标关键词,以根据所述目标关键词进行相应动作。本申请实施例的技术方案可以提高语音识别的效率,进而保证语音控制设备的响应速度。

    一种地域性的离线口音语音识别系统的生成方法和装置

    公开(公告)号:CN112908295B

    公开(公告)日:2023-05-16

    申请号:CN202110142560.0

    申请日:2021-02-02

    Abstract: 一种地域性的离线口音语音识别系统的生成方法,所述方法包括:导入不同地域的语音音频数据;将所述语音音频数据转化为语音识别的语音特征;通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后,提取所述Xvector模型中不同地域的多维度的Xvector特征;利用前置神经网络进一步提取所述语音特征中的第一Xvector特征,并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练;基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后,利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值,得到口音语音识别模型。本方案能够提升离线语音识别系统在同种语音下不同口音的识别性能。

Patent Agency Ranking