-
公开(公告)号:CN113450779B
公开(公告)日:2022-11-11
申请号:CN202110697465.7
申请日:2021-06-23
Applicant: 海信视像科技股份有限公司
Abstract: 本申请实施例提供一种语音模型训练数据集构建方法及装置,方法包括:获取多音字样本和非多音字样本后,对多音字样本和非多音字样本分别向量表征。进一步对多音字样本向量表征进行重复采样处理,根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征,新的多音字样本向量表征以及非多音字样本向量表征,得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置,能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。
-
公开(公告)号:CN114547367A
公开(公告)日:2022-05-27
申请号:CN202210061388.0
申请日:2022-01-19
Applicant: 海信视像科技股份有限公司
IPC: G06F16/683 , G06F16/638 , G06F16/65
Abstract: 本公开涉及一种电子设备、基于音频指令的搜索方法以及存储介质,尤其涉及信息交互技术领域。该电子设备,包括:控制器,被配置为:响应于用户输入的搜索音频指令,从搜索音频指令中提取第一声纹向量;在第一声纹向量与预先存储的至少一个第二声纹向量匹配的情况下,确定至少一个第二声纹向量所属的第一聚类簇,第一聚类簇中包括多个第二声纹向量;获取第一聚类簇对应的用户偏好信息;根据用户偏好信息响应搜索音频指令。本公开实施例用于解决现有声纹识别注册阶段操作繁琐的问题。
-
公开(公告)号:CN117809628A
公开(公告)日:2024-04-02
申请号:CN202311419047.7
申请日:2023-10-30
Applicant: 海信视像科技股份有限公司
Inventor: 刘宇
IPC: G10L15/06 , G10L15/22 , G10L15/26 , G10L21/0208 , G10L21/0216
Abstract: 本申请实施例公开一种远场语音数据扩充方法、服务器和电子设备,该方法包括:接收电子设备上传的语音数据,判别语音数据的类别;如果语音数据为远场类别,将语音数据保存至第一数据库;如果语音数据为近场类别,将语音数据保存至第二数据库;根据第一数据库筛选远场样本数据,和/或,根据第二数据库或开源语音数据集中的近场语音数据模拟远场样本数据,远场样本数据用于训练远场语音处理模型;存储远场样本数据。本申请实施例可提升远场样本数据累积和扩充的速度,规避远场样本数据与设备信道不匹配等问题,通过线上扩充数据实现对不同场景和领域的覆盖,尤其第一数据库和第二数据库的两种扩充模式共同运行时,显著提升远场样本数据的扩充速度。
-
公开(公告)号:CN114067807B
公开(公告)日:2025-02-28
申请号:CN202111345604.6
申请日:2021-11-15
Applicant: 海信视像科技股份有限公司
Abstract: 本申请实施例提供一种音频数据处理方法、装置及电子设备,可以实现:将各条待处理音频数据转录为文本数据,并对该文本数据进行分组;对每一组文本数据进行去重处理,并在去重处理后的每一组文本数据对应的各条音频数据中选取一条满足预设饱和度需求的目标音频数据添加至训练数据集;当该训练数据集中的音频数据的条数大于或等于预设阈值时,输出该训练数据集;否则,根据训练数据集中的音频数据训练声纹模型,利用训练后的声纹模型提取声纹向量,并根据该声纹向量从备选音频数据集中选择可用音频数据添加到训练数据集。本申请实施例可以从海量的音频数据中筛选出饱和度高、文本多样化的音频数据,提升声纹识别模型的模型性能。
-
公开(公告)号:CN114067807A
公开(公告)日:2022-02-18
申请号:CN202111345604.6
申请日:2021-11-15
Applicant: 海信视像科技股份有限公司
Abstract: 本申请实施例提供一种音频数据处理方法、装置及电子设备,可以实现:将各条待处理音频数据转录为文本数据,并对该文本数据进行分组;对每一组文本数据进行去重处理,并在去重处理后的每一组文本数据对应的各条音频数据中选取一条满足预设饱和度需求的目标音频数据添加至训练数据集;当该训练数据集中的音频数据的条数大于或等于预设阈值时,输出该训练数据集;否则,根据训练数据集中的音频数据训练声纹模型,利用训练后的声纹模型提取声纹向量,并根据该声纹向量从备选音频数据集中选择可用音频数据添加到训练数据集。本申请实施例可以从海量的音频数据中筛选出饱和度高、文本多样化的音频数据,提升声纹识别模型的模型性能。
-
公开(公告)号:CN113191143A
公开(公告)日:2021-07-30
申请号:CN202110568660.X
申请日:2021-05-25
Applicant: 海信视像科技股份有限公司
IPC: G06F40/284 , G06F40/44 , G06N3/04 , G06N3/08
Abstract: 本申请提供多音字消歧和韵律控制联合方法、系统以及电子设备;获取待处理文本和其词性,转换为字符向量和词性向量并拼接得到成拼接向量;通过交替训练策略训练获取联合模型、第一组权重和第二组权重;联合模型包括第一神经网络和第二神经网络,通过联合模型对拼接向量进行编码,得到字符的第一句中编码和第二句中编码;按照第一组权重得到多音加权和,通过第一全连接层,得到多音字的读音概率分布;通过掩码去除多音字的读音概率分布中不正确的读音,得到最终读音预测;按照第二组权重得到韵律加权和,通过第二全连接层和条件随机场,得到韵律停顿等级。消除流式结构处理导致误差累积,提高文本转语音的计算速度。
-
公开(公告)号:CN119107933A
公开(公告)日:2024-12-10
申请号:CN202411045678.1
申请日:2024-07-31
Applicant: 海信视像科技股份有限公司
IPC: G10L13/08 , G10L15/02 , G10L15/22 , G10L15/183
Abstract: 本申请提供一种显示设备、服务器及语音合成方法。所述显示设备在接收到用户输入的语音交互指令时,调用语言提取模型提取样本文本中的逐字向量和整句向量。语言提取模型为根据样本文本训练得到的模型,且样本文本中设置有特征标签。通过特征标签可以在训练模型的过程中使模型具有识别口语化特征的能力,进而在合成语音中增加口语化特征,提高合成语音的拟人度。根据样本文本和样本文本的音频还可以提取语速标签向量和音素向量。将逐字向量、整句向量、语速标签向量和音素向量共同输入至解码器可以得到目标合成语音,并由音频输出装置播放目标合成语音。
-
公开(公告)号:CN113191143B
公开(公告)日:2022-09-16
申请号:CN202110568660.X
申请日:2021-05-25
Applicant: 海信视像科技股份有限公司
IPC: G06F40/284 , G06F40/44 , G06N3/04 , G06N3/08
Abstract: 本申请提供多音字消歧和韵律控制联合方法、系统以及电子设备;获取待处理文本和其词性,转换为字符向量和词性向量并拼接得到成拼接向量;通过交替训练策略训练获取联合模型、第一组权重和第二组权重;联合模型包括第一神经网络和第二神经网络,通过联合模型对拼接向量进行编码,得到字符的第一句中编码和第二句中编码;按照第一组权重得到多音加权和,通过第一全连接层,得到多音字的读音概率分布;通过掩码去除多音字的读音概率分布中不正确的读音,得到最终读音预测;按照第二组权重得到韵律加权和,通过第二全连接层和条件随机场,得到韵律停顿等级。消除流式结构处理导致误差累积,提高文本转语音的计算速度。
-
公开(公告)号:CN113450779A
公开(公告)日:2021-09-28
申请号:CN202110697465.7
申请日:2021-06-23
Applicant: 海信视像科技股份有限公司
Abstract: 本申请实施例提供一种语音模型训练数据集构建方法及装置,方法包括:获取多音字样本和非多音字样本后,对多音字样本和非多音字样本分别向量表征。进一步对多音字样本向量表征进行重复采样处理,根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征,新的多音字样本向量表征以及非多音字样本向量表征,得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置,能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。
-
-
-
-
-
-
-
-