-
公开(公告)号:CN110569908A
公开(公告)日:2019-12-13
申请号:CN201910854260.8
申请日:2019-09-10
Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学
Abstract: 本发明实施例提供一种说话人计数方法。该方法包括:基于深度卷积神经网络建立端到端说话人计数模型;将原始音频波形作为所述端到端说话人计数模型的输入;根据所述端到端说话人计数模型的输出结果确定说话人个数。本发明实施例提供说话人计数系统并且还提供了一种混叠语音检测模型的优化方法及系统。本发明实施例采用原始波形输入的端到端语音混叠检测与说话人计数方法,利用神经网络直接从原始语音中提取深度特征用于后续任务,更容易得到匹配相应任务的特征,准确的确定出说话人的个数;更适用于实际生活中多人同时说话的场景,为后端语音处理系统提供额外信息,从而推进混叠语音的识别、分离、增强的问题。
-
公开(公告)号:CN110246487A
公开(公告)日:2019-09-17
申请号:CN201910511791.7
申请日:2019-06-13
Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学
Abstract: 本发明实施例提供一种用于单通道的语音识别模型的优化方法。该方法包括:接收各带有真实标签向量的单人语音,多人混合语音,将从各单人语音提取的语音特征输入至目标教师模型,得到各单人语音对应的目标软标签向量;将多人混合语音输入至端到端学生模型,确定输出排列;根据确定输出排列的多人混合语音内每个人的输出标签向量,确定知识蒸馏损失和直接损失;当根据知识蒸馏损失和直接损失确定的联合误差未收敛时,根据联合误差对端到端学生模型进行优化。本发明实施例还提供一种用于单通道的语音识别模型的优化系统。本发明实施例能够更容易学习出好的参数,同时模型较为精简,更好的参数使其训练的学生模型有着更好的性能。
-
公开(公告)号:CN109712611A
公开(公告)日:2019-05-03
申请号:CN201811623998.5
申请日:2018-12-28
Applicant: 苏州思必驰信息科技有限公司
Abstract: 本发明实施例提供一种联合模型训练方法。该方法包括:隐式地提取带噪语音训练集的相位谱以及对数幅度谱;利用对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征,利用带噪语音训练集和干净语音训练集确定用于训练时频掩模网络的目标掩模标签,基于输入特征和目标掩模标签,训练时频掩模网络,估计出软阈值掩模;利用软阈值掩模对带噪语音训练集的相位谱进行增强,将增强后的相位谱作为波达方向估计网络的输入特征,以训练波达方向估计网络。本发明实施例还提供一种联合模型训练系统。本发明实施例通过设立目标掩模标签,隐式的提取输入特征,并将时频掩模和DOA估计网络联合训练更适合DOA估计任务。
-
公开(公告)号:CN109712611B
公开(公告)日:2021-03-16
申请号:CN201811623998.5
申请日:2018-12-28
Applicant: 苏州思必驰信息科技有限公司
Abstract: 本发明实施例提供一种联合模型训练方法。该方法包括:隐式地提取带噪语音训练集的相位谱以及对数幅度谱;利用对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征,利用带噪语音训练集和干净语音训练集确定用于训练时频掩模网络的目标掩模标签,基于输入特征和目标掩模标签,训练时频掩模网络,估计出软阈值掩模;利用软阈值掩模对带噪语音训练集的相位谱进行增强,将增强后的相位谱作为波达方向估计网络的输入特征,以训练波达方向估计网络。本发明实施例还提供一种联合模型训练系统。本发明实施例通过设立目标掩模标签,隐式的提取输入特征,并将时频掩模和DOA估计网络联合训练更适合DOA估计任务。
-
公开(公告)号:CN111899727A
公开(公告)日:2020-11-06
申请号:CN202010680303.8
申请日:2020-07-15
Applicant: 苏州思必驰信息科技有限公司
Abstract: 本发明实施例提供一种用于多说话人的语音识别模型的训练方法。该方法包括:将训练数据中的多说话人的单通道混合语音特征输入至语音识别模型,获得多个说话人的高维特征序列表示;基于上下文嵌入提取器,确定多说话人的单通道混合语音特征中每个说话人的上下文嵌入表示,组成上下文混合嵌入序列表示,将上下文混合嵌入序列表示分别与多个说话人的高维特征序列表示拼接,确定每个说话人的拼接高维特征序列表示;基于注意力机制的解码器对每个说话人的拼接高维特征序列表示进行解码输出每个说话人的预测说话文本。本发明实施例还提供一种用于多说话人的语音识别模型的训练系统。本发明推进鸡尾酒会场景下的语音识别问题的解决,提高语音识别效果。
-
公开(公告)号:CN119943028A
公开(公告)日:2025-05-06
申请号:CN202510121489.6
申请日:2025-01-24
Applicant: 上海交通大学
Abstract: 本发明公开了一种环境感知的可控背景去除和保留的语音合成系统,涉及语音领域,本发明提出了一个能够根据带噪提示语音感知声学环境,从而进行可控背景去除和保留的语音合成系统,以文本、提示语音和任务相关的控制信号作为输入,包含时长预测器、声学模型和双重提示语音编码器,在训练策略上,基于流匹配算法,进一步提出了可控的掩码语音预测训练策略,通过提供带噪的提示语音实现可控的背景去除和保留。本发明提高了系统处理带噪、混响和干扰说话人的提示语音的鲁棒性和可控性,能够在生成语音时有效地控制提示语音中含有的背景的去除与保留,实现更高的生成语音质量和更相似的声学背景。
-
公开(公告)号:CN117912469A
公开(公告)日:2024-04-19
申请号:CN202410130424.3
申请日:2024-01-30
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于语音离散化和声码器的目标说话人抽取系统,涉及语音识别技术领域,包括预训练语音离散模块、离散标记预测模块和语音生成模块,其中,所述预训练语音离散模块用于将语音数据离散化为离散标记序列,所述离散标记预测模块根据所述离散标记序列输出预测离散标记序列,所述语音生成模块根据所述预测离散标记序列输出目标说话人的干净语音。本发明使用离散标记序列的声码器生成的语音,在听感上更好,对人耳更加友好,同时不存在残留干扰。
-
公开(公告)号:CN118197334A
公开(公告)日:2024-06-14
申请号:CN202410259638.0
申请日:2024-03-07
Applicant: 上海交通大学
IPC: G10L21/0208 , G10L21/0232 , G10L25/30 , G10L25/45
Abstract: 本发明公开了一种适用于多种输入场景的通用语音增强系统,涉及语音领域,包括基于自适应调节的短时傅立叶变换STFT的编码器,基于Transformer架构的时频双路建模的核心模块,基于自适应调节的短时傅立叶逆变换iSTFT的解码器;针对不同采样率的输入,所述编码器和解码器的窗口大小和窗口移动步长会根据输入采样率进行调整;针对不同麦克风通道数量的语音信号,采用了Transform‑Attention‑Concatenate,即TAttC技术,并用它来进行与麦克风数量无关的通道间建模;本系统在模型中维护了一组可更新的记忆槽memory token;在处理每个片段时,模型会利用记忆槽中保存的信息,并在处理完成后更新记忆槽。本系统采用自适应调节的STFT、TAttC技术,增强了泛化性。
-
-
-
-
-
-
-