基于多头注意力机制和时延神经网络的语音识别方法

    公开(公告)号:CN117672218A

    公开(公告)日:2024-03-08

    申请号:CN202311591964.3

    申请日:2023-11-27

    Abstract: 本发明涉及一种基于多头注意力机制和时延神经网络的语音识别方法,属于语音识别技术领域。本发明针对已有低资源语音识别模型单一,长序列上下文依赖捕获能力差、局部特征提取能力不足的问题。本发明将通过对比学习、时延神经网络等方法提高自监督低资源语音识别模型特征提取能力。针对目标域标注数据稀缺的情景,传统的低资源语音识别模型由于训练数据和测试数据的不匹配的影响,通常难以在高维潜在空间中找到更加理想的片段语音到字元的维特比对齐,最终导致了模型的健壮性不理想。本研究拟定通过数据增强的方法对未标注数据进行理想分布拓展,降低了未标注数据的概念偏移量,加强了未标注数据的可靠性。

    一种唇语识别方法及系统
    4.
    发明公开

    公开(公告)号:CN116978124A

    公开(公告)日:2023-10-31

    申请号:CN202310957253.7

    申请日:2023-08-01

    Abstract: 本发明涉及一种唇语识别方法及系统,属于计算机处理技术领域。该方法包括以下步骤:S1:计算基于卷积网络和Vision Transformer的图像特征编码;S2:进行基于多尺度时间卷积的时序特征提取;S3:进行基于Seq2Seq的文本解码。从模型算法角度出发,为如何提高句子级唇语识别的准确率难题提供一种新方法,通过使用三维卷积与残差网络提取图像特征,融合ViT与多尺度的时间卷积,提高唇部视觉时序特征的提取能力。并且通过使用多尺度时间卷积网络得到各个时间尺度的图像时间序列关系。

Patent Agency Ranking