-
公开(公告)号:CN118553235A
公开(公告)日:2024-08-27
申请号:CN202411025556.6
申请日:2024-07-30
Applicant: 罗普特科技集团股份有限公司
IPC: G10L15/06 , G10L15/20 , G10L15/16 , G10L25/24 , G10L25/30 , G10L25/51 , G10L21/0208 , G06V20/40 , G06V10/82 , G06N3/0455
Abstract: 本发明涉及语音识别技术领域,具体涉及一种多模态智能终端的语音识别方法及系统,包括:终端采集到的多模态数据包括视频数据和语音数据,根据语音数据判断是否存在语音交互行为;同时将视频数据和语音数据分别对应输入到两个Transformer网络中进行训练;在训练过程中,当存在语音交互行为时将视频数据与语音数据的Transformer网络的自注意力层进行相互连接,当不存在语音交互行为时,则不进行连接;利用训练好的两个Transformer网络进行语音识别。本发明利用视频数据和语音数据一同进行语音识别,提高了识别的准确率。
-
公开(公告)号:CN118645085A
公开(公告)日:2024-09-13
申请号:CN202411124123.6
申请日:2024-08-16
Applicant: 罗普特科技集团股份有限公司
Abstract: 本发明涉及语音分析技术领域,具体涉及基于深度学习的移动感知终端语音质量评价方法及系统,包括构建深度学习数学模型,并利用数据集对其进行训练得到语音评价模型;计算测试语音数据的质量表达水平;将测试语音数据输入至语音评价模型计算,得到测试质量评价结果;将测试质量评价结果与质量表达水平进行比较,并对数据集或深度学习数学模型进行修改,直到测试质量评价结果与质量表达水平之差小于预设阈值,得到调整后的语音评价模型;再将语音评价模型用于语音数据的质量评价。本发明通过质量表达水平反向指导语音评价模型修改,克服数据集数量有限的问题,有效提升语音评价模型的泛化水平,有利于移动感知终端语音质量评价准确性。
-
公开(公告)号:CN118658450B
公开(公告)日:2024-11-08
申请号:CN202411139857.1
申请日:2024-08-20
Applicant: 罗普特科技集团股份有限公司
Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种AI平台的AI语音速率调整方法及系统,一种AI平台的AI语音速率调整方法,包括:获取当前AI沟通环境下AI平台收集的语音数据;生成所述语音数据对应的宽带语谱图和窄带语谱图;通过分析所述宽带语谱图和所述窄带语谱图,在所述语音数据中确定目标用户的核心语音片段;按照所述核心语音片段对应的语音速率,调整所述AI平台与所述目标用户进行AI交流时的语音速率。本发明可解决汽车内用户与AI交流时,AI语速不当会影响用户体验度的技术问题。
-
公开(公告)号:CN118645085B
公开(公告)日:2024-11-08
申请号:CN202411124123.6
申请日:2024-08-16
Applicant: 罗普特科技集团股份有限公司
Abstract: 本发明涉及语音分析技术领域,具体涉及基于深度学习的移动感知终端语音质量评价方法及系统,包括构建深度学习数学模型,并利用数据集对其进行训练得到语音评价模型;计算测试语音数据的质量表达水平;将测试语音数据输入至语音评价模型计算,得到测试质量评价结果;将测试质量评价结果与质量表达水平进行比较,并对数据集或深度学习数学模型进行修改,直到测试质量评价结果与质量表达水平之差小于预设阈值,得到调整后的语音评价模型;再将语音评价模型用于语音数据的质量评价。本发明通过质量表达水平反向指导语音评价模型修改,克服数据集数量有限的问题,有效提升语音评价模型的泛化水平,有利于移动感知终端语音质量评价准确性。
-
公开(公告)号:CN118658450A
公开(公告)日:2024-09-17
申请号:CN202411139857.1
申请日:2024-08-20
Applicant: 罗普特科技集团股份有限公司
Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种AI平台的AI语音速率调整方法及系统,一种AI平台的AI语音速率调整方法,包括:获取当前AI沟通环境下AI平台收集的语音数据;生成所述语音数据对应的宽带语谱图和窄带语谱图;通过分析所述宽带语谱图和所述窄带语谱图,在所述语音数据中确定目标用户的核心语音片段;按照所述核心语音片段对应的语音速率,调整所述AI平台与所述目标用户进行AI交流时的语音速率。本发明可解决汽车内用户与AI交流时,AI语速不当会影响用户体验度的技术问题。
-
-
-
-