-
公开(公告)号:CN119207417A
公开(公告)日:2024-12-27
申请号:CN202411297769.4
申请日:2024-09-18
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司 , 中国移动通信有限公司销售分公司
Abstract: 本发明提供一种语音转文字方法、装置、设备及存储介质,涉及语音识别技术领域,所述方法包括:获取语音数据以及热词列表信息;根据语音数据,获取声学特征信息;根据语音数据以及热词列表信息,基于注意力机制处理,获取热词索引信息以及注意力特征信息;根据热词索引信息,获取热词特征信息;根据声学特征信息、注意力特征信息以及热词特征信息,生成文本转换结果信息。结合热词列表信息以及注意力机制,利用热词列表信息弥补低资源语言或专业术语场景下的词汇基础,利用注意力对热词的优先级进行调整,使语音识别过程中更加准确地识别转写关键词汇,令文本转换结果信息在低资源语言或专业术语场景下更加准确,提高语音转文字的准确率和可靠性。
-
公开(公告)号:CN118656778A
公开(公告)日:2024-09-17
申请号:CN202410669554.4
申请日:2024-05-28
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
IPC: G06F18/25 , G10L25/51 , G10L25/30 , G06F18/214 , G06F18/241 , G06F18/213 , G06N3/04 , G06N3/08
Abstract: 本发明涉及人工智能领域,提供一种声音事件检测和定位方法、装置、设备、介质及程序产品,该方法包括:获取待处理数据,其中,待处理数据中包括视频数据和音频数据;基于视频数据提取视觉特征,以及基于音频数据提取音频特征;对视觉特征和音频特征进行融合处理,得到目标特征;将目标特征输入到声音事件检测和定位模型中进行处理,得到声音事件检测结果和声音事件定位结果;其中,声音事件检测和定位模型基于Mixup数据增强方法训练而成。本发明将音频特征和视觉特征进行融合,使得得到的目标特征学习不同模态的特征对声音事件检测和定位的贡献,同时,基于Mixup数据增强方法训练而成声音事件检测和定位模型的准确率更高。
-
公开(公告)号:CN119007709A
公开(公告)日:2024-11-22
申请号:CN202411323079.1
申请日:2024-09-23
Applicant: 中移在线服务有限公司 , 中国移动通信集团有限公司
Abstract: 本发明提供一种单通道语音识别方法、设备及存储介质,涉及语音识别技术领域,所述方法包括:获取语音数据;对语音数据进行分割处理,获取多个语音片段数据;对多个语音片段数据进行特征提取处理,获取声学稳健特征信息;将声学稳健特征信息输入至预设的处理模型进行处理,获取人声片段嵌入向量;根据各个人声片段嵌入向量,获取身份标识信息以及对应的语音起止时间信息;根据身份标识信息、语音起止时间信息以及语音片段数据,获取语音识别结果信息。分割处理获取语音片段数据,便于并行处理提高处理效率,处理模型由模型加速处理后获得,简化处理过程提高处理速度并且维持模型性能水平,降低对硬件性能的要求,满足语音识别的准确率和效率要求。
-
-