-
公开(公告)号:CN116884412A
公开(公告)日:2023-10-13
申请号:CN202310835916.8
申请日:2023-07-07
Applicant: 重庆邮电大学
IPC: G10L15/25 , G10L15/16 , G06V10/80 , G06N3/0464 , G06N3/08
Abstract: 本发明涉及一种基于混合三维残差门控循环单元的唇语识别方法,属于唇语识别领域,包括以下步骤:S1:以唇部图像特征序列为对象,设计混合数据训练,对数据进行增强;S2:以采用融合残差和时空卷积的网络作为前端网络,以产生序列的最终表示;S3:构建基于序列信息门控网络的后端网络,对唇语进行识别。本发明解决了唇语识别中常见的唇形相似性高、数据量少的难题。
-
公开(公告)号:CN117935816A
公开(公告)日:2024-04-26
申请号:CN202410098931.3
申请日:2024-01-24
Applicant: 重庆邮电大学
Abstract: 本发明涉及基于残差网络带二维注意力和语义增强的说话人识别方法。该方法包括以下步骤:S1:将接收语音信号的梅尔频谱图作为模型的输入;S2:将输入的语音信号的梅尔频谱图经过第一特征提取层和四个第二特征提取层,所述第一特征提取层与四个第二特征提取层串联起来进行特征提取;S3:融合多个层级特征,同时利用网络浅层和深层的信息;S4:将融合后的特征输入基于注意力机制的统计池化层和全连接层,生成说话人特征嵌入;S5:在说话人特征嵌入空间中执行有意义的语义扰动,实现特征级别的数据增强。本发明对嵌入进行有意义的语义方向增强和对数据的多维特征关联计算;扩充样本量和提高特征捕获能力,进而改善模型的性能。
-