-
公开(公告)号:CN119943087A
公开(公告)日:2025-05-06
申请号:CN202411981356.8
申请日:2024-12-30
Applicant: 中电信人工智能科技(北京)有限公司
IPC: G10L21/028 , G10L21/0216
Abstract: 本申请提供一种基于掩蔽波束形成的目标语音提取方法及装置,方法包括:麦克风阵列拾音,通过麦克风阵列采集多通道观测信号;一阶段,基于说话人编码器和语音编码器获取目标语音的特征向量和观测信号的编码特征,通过特征融合和掩膜估计器获取目标语音源和非目标语音源的掩膜,通过掩蔽处理及解码映射获得时域分离语音,通过基于掩蔽的最小方差无失真响应波束形成实现声源的再分离,得到时域语音;二阶段,以一阶段的时域语音作为目标语音分离网络的辅助输入,构建新的融合特征,并重复一阶段处理步骤,直至完成目标语音提取。本申请可有效降低目标源提取中的幅度及相位失真,有效解决同向语音源场景下MVDR波束形成器无法有效消除竞争语音源的难点。
-
公开(公告)号:CN119943085A
公开(公告)日:2025-05-06
申请号:CN202411981375.0
申请日:2024-12-30
Applicant: 中电信人工智能科技(北京)有限公司
IPC: G10L21/0272 , G10L21/0216
Abstract: 本公开提供一种基于指向性卷积波束形成的语音增强与分离方法、装置,方法包括:先根据麦克风阵列,通过多通道观测信号构建历史观测信号矩阵,根据历史观测信号矩阵构建卡尔曼增益线性预测误差模型;再构建基于指向性波束形成器和最大零陷波束形成器的最小方差无失真响应波束形成模型,并估计语音及噪声协方差矩阵;利用基于分离的语音源估计的时变方差,联立卡尔曼增益线性预测误差模型、最小方差无失真响应波束形成模型,建立指向性卷积波束形成模型,通过交替迭代方式完成对语音信号进行增强与分离。本公开在含噪含混响环境下更好地抑制早期混响并降低晚期混响残留;通过构建指向性增益并实时估计噪声协方差矩阵,实现了更鲁棒的语音分离性能。
-
公开(公告)号:CN119864017A
公开(公告)日:2025-04-22
申请号:CN202411998503.2
申请日:2024-12-31
Applicant: 中电信人工智能科技(北京)有限公司
IPC: G10L13/10 , G10L13/027 , G10L25/30
Abstract: 本申请公开了一种语音信息的生成方法、装置、存储介质和电子设备,涉及人工智能、语音合成技术领域。其中,该方法包括:获取待处理文本;将待处理文本分割为多个字符,且将多个字符与语音提示信息进行拼接,得到初始输入序列;按照滑动窗口的目标窗口和目标步长,将初始输入序列分割为多个子输入序列;将多个子输入序列和与语音提示信息对应的音色信息输入至语音合成模型,且利用语音合成模型将多个子输入序列和音色信息,生成与待处理文本对应的语音信息,其中,语音合成模型为基于文本样本、语音提示信息样本,以及语音提示信息样本对应的音色信息样本训练得到。本申请解决了生成语音信息的效果差的技术问题。
-
公开(公告)号:CN119832916A
公开(公告)日:2025-04-15
申请号:CN202411834427.1
申请日:2024-12-12
Applicant: 中电信人工智能科技(北京)有限公司
Abstract: 本申请实施例提供了一种说话人识别方法、装置、设备和存储介质,其中说话人识别方法包括:获取待测语音和样本语音,所述样本语音包括注册语音、训练语音和测试语音;从所述待测语音和注册语音中分别提取若干个目标说话人嵌入向量,生成目标说话人嵌入向量对集合;根据所述目标说话人嵌入向量对集合计算语音相似度得分;根据所述语音相似度得分识别所述待测语音对应的说话人。该方法能够在不消耗大量计算资源的条件下,实现在复杂的声学场景下的说话人识别。
-
公开(公告)号:CN119832893A
公开(公告)日:2025-04-15
申请号:CN202411833736.7
申请日:2024-12-12
Applicant: 中电信人工智能科技(北京)有限公司
IPC: G10L13/027 , G10L13/10 , G10L25/30 , G06F40/279 , G06F40/30 , G06F16/36 , G06F16/334
Abstract: 本发明实施例提供了一种声学模型的生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,所述方法包括:获取训练数据,包括文本内容、文本内容对应的音频对儿数据、文本内容对应的文本韵律特征以及音频对儿数据对应的声学特征,声学模型包括二级韵律表征修正模块以及声学处理单元;将文本内容、音频对儿数据、声学特征以及文本韵律特征输入二级韵律表征修正模块进行修正,基于修正结果对二级韵律表征修正模块进行参数调优,获得调优后的二级韵律表征修正模块;根据文本内容、音频对儿数据、声学特征以及调优后的二级韵律表征修正模块进行模型训练,获得损失函数;根据损失函数对声学处理单元进行参数调优,获得满足预设条件的声学模型。
-
公开(公告)号:CN119811356A
公开(公告)日:2025-04-11
申请号:CN202411960416.8
申请日:2024-12-27
Applicant: 中电信人工智能科技(北京)有限公司
IPC: G10L13/02
Abstract: 本发明公开了一种音频的合成方法、装置、处理器和可读存储介质。其中,该方法包括:获取待合成音频的基础数据,其中,基础数据用于指示合成待合成音频所需满足的条件;将基础数据输入至目标声学模型中进行分析,得到频谱数据,其中,频谱数据用于指示待合成音频的音频特征,目标声学模型为利用基础数据样本和频谱数据样本训练得到,基础数据样本用于指示合成历史待合成音频所需满足的条件,频谱数据样本用于指示历史待合成音频的音频特征;基于频谱数据,将基础数据合成为目标音频。本发明解决了合成的音频的质量低的技术问题。
-
公开(公告)号:CN119918501A
公开(公告)日:2025-05-02
申请号:CN202411999386.1
申请日:2024-12-31
Applicant: 中电信人工智能科技(北京)有限公司
IPC: G06F40/103 , G06F40/151
Abstract: 本申请公开了一种文本的处理方法、装置、存储介质和电子设备,涉及人工智能、语音合成技术领域。其中,该方法包括:获取待处理文本;按照文本规范化规则信息,将待处理文本转换为至少一个候选文本,其中,文本规范化规则信息用于表示将待处理文本转换为候选文本的规则;调用文本分析模型对候选文本进行上下文分析,得到分析结果,其中,文本分析模型为基于候选文本样本训练得到;基于分析结果,调整文本规范化规则信息,且基于调整后的文本规范化规则信息,从至少一个候选文本中确定目标文本。本申请解决了对文本进行处理的效果差的技术问题。
-
公开(公告)号:CN119889324A
公开(公告)日:2025-04-25
申请号:CN202411805039.0
申请日:2024-12-09
Applicant: 中电信人工智能科技(北京)有限公司
Abstract: 本发明实施例提供了一种数据标注方法及装置、电子设备、存储介质,包括:响应于数据标注请求,获取待标注的语音数据;对语音数据进行语音转文本处理和副语言信息识别处理,得到初始标注结果;其中,初始识别结果包括多个子文本以及每个子文本对应的副语言信息标签;将初始标注结果输入到预训练的自然语言处理模型中对副语言信息标签进行修正和/或优化,得到目标标注结果,并反馈目标标注结果。通过本发明实施例,实现了对语音数据标注的自动化,以更高的效率和准确度标注副语言信息标签,减少数据标注的成本和工作量。
-
公开(公告)号:CN119832902A
公开(公告)日:2025-04-15
申请号:CN202411834431.8
申请日:2024-12-12
Applicant: 中电信人工智能科技(北京)有限公司
Abstract: 本申请实施例提供了一种语音识别方法、装置、设备和存储介质,其中语音识别方法包括:接收目标语音信号,所述目标语音信号包含一个或多个说话人的语音信号;获取所述目标语音信号的目标声学特征序列;根据所述目标声学特征序列生成目标编码序列;根据所述目标编码序列生成与所述目标语音信号对应的掩蔽文本;根据所述目标编码序列和掩蔽文本生成对应一个或多个说话人的语音识别内容。该方法可以实现有效减少多说话人自动语音识别系统固有的上下文破碎和语义混淆的问题,显著提高自动语音识别性能。
-
公开(公告)号:CN119724204A
公开(公告)日:2025-03-28
申请号:CN202411908352.7
申请日:2024-12-23
Applicant: 中电信人工智能科技(北京)有限公司
IPC: G10L19/16 , G10L19/022 , G10L13/08 , G10L25/51 , G06N5/04
Abstract: 本申请公开了时序重复感知惩罚采样方法、装置、电子设备及存储介质,涉及人工智能技术领域,方法包括:将给定文本输入到预训练大语言模型;根据第一连续重复阈值和大语言模型当前时刻输出的概率分布确定目标惩罚概率值;利用大语言模型根据目标惩罚概率值解码得到当前时刻的第一语音编码;以第一连续重复阈值作为长度的窗口计算前序生成编码与第一语音编码的连续重复率;若连续重复率达到第二连续重复阈值,则利用大语言模型根据大语言模型当前时刻输出的概率分布解码得到第二语音编码;将第一语音编码替换为第二语音编码;然后继续编码,直至得到目标语音编码。本申请可解决大语言模型语音合成方案中频繁出现的重复、丢漏字、无限循环等问题。
-
-
-
-
-
-
-
-
-