一种基于文本感知的语音端点检测方法和系统

    公开(公告)号:CN116092535A

    公开(公告)日:2023-05-09

    申请号:CN202310047513.7

    申请日:2023-01-31

    Applicant: 厦门大学

    Inventor: 李琳 王捷 洪青阳

    Abstract: 本申请提出一种基于文本感知的语音端点检测方法和系统,方法包括步骤:S1,获取原始音频,提取原始音频的浅层声学特征和文本特征;S2,将浅层声学特征和文本特征进行自适应加权融合,获得融合音频特征;S3,将融合音频特征进行上下文编码,获得时序特征;S4,对时序特征进行二分类预测,获得语音帧概率和非语音帧概率;S5,对二分类预测的结果进行判决,并将原始音频的各帧判决结果拼接,获得语音端点检测结果。该方法能够有效利用音频中的文本信息,通过融合浅层声学特征和文本特征,可以提高后端语音端点检测模型的准确度和稳定性。在缺乏目标域训练数据的情况下,借助预训练的文本特征提取子网络能够保证语音端点检测模型的鲁棒性。

Patent Agency Ranking