-
公开(公告)号:CN119889300A
公开(公告)日:2025-04-25
申请号:CN202510095203.1
申请日:2025-01-21
Applicant: 重庆长安汽车股份有限公司
IPC: G10L15/197 , G10L15/02 , G10L15/26 , G10L21/0272
Abstract: 本发明涉及一种语音识别方法、模型的训练方法、装置、电子设备和车辆,包括对混合音频流进行特征提取,得到目标对象的第一音频特征和所述目标对象之外的其他对象的第二音频特征,混合音频流中包括至少两个对象的语音,目标对象为从至少两个对象中区分的一个对象;根据第一音频特征,获得目标对象发出的语音的第一特征向量;根据第二音频特征,预测得到与目标对象可能发出的语音关联的第二特征向量;根据第一特征向量和第二特征向量,识别得到混合音频流中目标对象发出的语音对应的目标文本。本发明实施例通过双路径提取的特征来识别混合音频流中目标对象的语音,可以提高对混合音频流的识别准确度。
-
公开(公告)号:CN117198318A
公开(公告)日:2023-12-08
申请号:CN202311213608.8
申请日:2023-09-19
Applicant: 重庆长安汽车股份有限公司
IPC: G10L25/03 , G10L25/30 , G10L21/028 , G10L21/0208 , H04R3/00 , G10H1/36
Abstract: 本发明实施例提供一种人声提取方法、装置、产品、无麦车载KTV系统及方法。方法包括:对多个融合特征进行多头注意力加权和处理,获得第一中间人声特征;对所述第一中间人声特征进行人声增强处理,获得第二中间人声特征;通过对音频数据进行人声特征提取,获得对应的目标音频特征;将目标音频特征中的第一目标音频特征与所述第二中间人声特征进行相乘处理,获得第一目标人声特征,以及,将加权中间人声特征与目标音频特征中的第二目标音频特征进行相乘处理,获得第二目标人声特征;通过对所述第一目标人声特征和所述第二目标人声特征进行特征转换,获得对应的人声数据。旨在有效提升封闭场景下的人声提取准确度。
-
公开(公告)号:CN118656160A
公开(公告)日:2024-09-17
申请号:CN202410803709.9
申请日:2024-06-20
Applicant: 重庆长安汽车股份有限公司
Abstract: 本申请涉及一种界面生成方法、装置、电子设备及存储介质,方法包括:获取待需处理的预设界面及目标语言,目标语言用于指示将预设界面中的文本翻译成具有目标语言的文本;利用已训练完成的目标多模态模型对预设界面进行识别,以识别到预设界面中的第一文本及第一文本对应的文本属性信息;根据目标语言和已训练完成的目标多模态模型,对第一文本进行翻译,以得到第一文本对应的目标文本,目标文本所具有的语言为目标语言;根据文本属性信息和目标文本,对预设界面进行处理,以生成预设界面对应的目标界面。本申请能够自动生成具有目标语言的目标界面,无需通过人工对预设界面进行处理,提高了界面的生成效率且减小了界面生成的成本。
-
公开(公告)号:CN119811396A
公开(公告)日:2025-04-11
申请号:CN202510044082.8
申请日:2025-01-10
Applicant: 重庆长安汽车股份有限公司
Abstract: 本发明涉及一种车辆控制方法、装置、设备及介质,该方法包括:获取车辆中目标用户的语音数据和视频数据,并将语音数据和视频数据输入指令生成模型,获取指令生成模型输出的目标指令文本。之后,通过目标指令文本对车辆进行控制。其中,指令生成模型用于对语音数据对应的音频特征以及视频数据对应的图像特征进行融合,进而生成目标指令文本,音频特征包括第一文本子特征和第一情绪子特征,图像特征包括第二文本子特征和第二情绪子特征,第一情绪子特征用于表示目标用户说话的语气、语调、音量中的至少一项,第二情绪子特征用于表示目标用户的面部表情和/或唇部变化。本发明提高了对车辆控制的准确度,提高用户的驾乘体验。
-
公开(公告)号:CN117995212A
公开(公告)日:2024-05-07
申请号:CN202410230333.7
申请日:2024-02-29
Applicant: 重庆长安汽车股份有限公司
IPC: G10L21/0208 , G10L21/0216 , G10L21/0232
Abstract: 本发明实施例提供一种语音降噪增强方法、装置、产品、车载语音降噪增强系统。该方法包括:标注初始通道音频数据,获得通道音频数据;对通道音频数据处理,获得增强特征;将原音频标签的增强特征融合降噪,获得原音频特征,将噪声音频标签的增强特征融合降噪,获得噪声音频特征;对原音频特征和噪声音频特征多通道维纳滤波,获得原音频滤波特征和噪声音频滤波特征;根据原音频滤波特征和噪声音频滤波特征,确定目标音频数据。旨在降低语音降噪增强的资源占用和提升降噪增强效果。
-
公开(公告)号:CN117198317A
公开(公告)日:2023-12-08
申请号:CN202311211520.2
申请日:2023-09-19
Applicant: 重庆长安汽车股份有限公司
IPC: G10L25/03 , G10L25/30 , G10L21/028 , G10L21/0208 , H04R3/00 , G10H1/36
Abstract: 本发明实施例提供了一种人声提取方法、装置、产品、无麦车载KTV系统及方法,涉及音频处理技术领域。该方法包括:对混合音频数据进行分割,得到多段音频数据;对每段音频数据分别进行特征处理,得到所述每段音频数据分别对应的第一处理结果;对每个所述第一处理结果分别进行分割,得到每个所述第一处理结果分别对应的多段处理子结果;对每段处理子结果分别进行特征处理,得到所述每段处理子结果分别对应的第二处理结果;将多个所述第一处理结果和多个所述第二处理结果进行叠加融合,得到所述混合音频数据中的人声音频数据。通过本实施例的人声提取方法,实现了在轻量化的基础上,提升封闭场景下人声提取准确度的技术效果。
-
-
-
-
-