-
公开(公告)号:CN112037769B
公开(公告)日:2024-07-30
申请号:CN202010738406.5
申请日:2020-07-28
Applicant: 出门问问信息科技有限公司
IPC: G10L15/06 , G10L15/10 , G10L15/26 , G06F40/284
Abstract: 本发明公开了一种训练数据生成方法、装置以及计算机可读存储介质,包括:接收音频信息和对应的标注文本信息;生成对应于所述音频信息的语音识别文本信息和第一时间戳信息;内容匹配所述标注文本信息和语音识别文本信息,根据所述第一时间戳信息生成对应于所述标注文本信息的第二时间戳信息;根据所述第二时间戳信息,获取所述标注文本信息中的子文本训练信息和所述音频信息中的子音频训练信息。通过获取原始的音频信息以及标注文本信息,利用音频信息的时间戳信息从原始的音频信息以及标注文本信息中获取多个子音频训练信息和对应的子文本训练信息,从而得到大量并且高质量的语音训练数据,此过程效率高并且降低了耗费成本。
-
公开(公告)号:CN112037769A
公开(公告)日:2020-12-04
申请号:CN202010738406.5
申请日:2020-07-28
Applicant: 出门问问信息科技有限公司
IPC: G10L15/06 , G10L15/10 , G10L15/26 , G06F40/284
Abstract: 本发明公开了一种训练数据生成方法、装置以及计算机可读存储介质,包括:接收音频信息和对应的标注文本信息;生成对应于所述音频信息的语音识别文本信息和第一时间戳信息;内容匹配所述标注文本信息和语音识别文本信息,根据所述第一时间戳信息生成对应于所述标注文本信息的第二时间戳信息;根据所述第二时间戳信息,获取所述标注文本信息中的子文本训练信息和所述音频信息中的子音频训练信息。通过获取原始的音频信息以及标注文本信息,利用音频信息的时间戳信息从原始的音频信息以及标注文本信息中获取多个子音频训练信息和对应的子文本训练信息,从而得到大量并且高质量的语音训练数据,此过程效率高并且降低了耗费成本。
-