-
公开(公告)号:CN114556468A
公开(公告)日:2022-05-27
申请号:CN202080073153.2
申请日:2020-10-21
Applicant: 格林伊登美国控股有限责任公司
Abstract: 本发明公开了一种方法,该方法包括:接收输入音频文件;将经训练的语音识别算法应用于所述输入音频文件以获得与所述输入音频文件中的每个输入音频文件对应的经识别的语音;选择具有指定句法模式的一个或多个部分(“选定部分”);过滤所述选定部分以导出经过滤的一组选定部分,其中该过滤基于以下中的一者:所述选定部分的内容、持续时间或置信度得分;针对所述过滤组中的所述选定部分中的每个选定部分创建训练音频文件;针对所述训练音频文件中的每个训练音频文件获得训练转录;以及在训练集上重新训练所述经训练的语音识别算法,该训练集具有针对所述经过滤的一组选定部分中的所述选定部分中的每个选定部分的所述训练音频文件和所述对应的训练转录。