-
公开(公告)号:CN108538285A
公开(公告)日:2018-09-14
申请号:CN201810180347.7
申请日:2018-03-05
Applicant: 清华大学
Abstract: 本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
-
公开(公告)号:CN114067834B
公开(公告)日:2024-08-09
申请号:CN202010752821.6
申请日:2020-07-30
Applicant: 中国移动通信集团有限公司 , 清华大学
Abstract: 本发明实施例提供了一种不良前导音识别方法、装置、存储介质和计算机设备。通过根据获取的多个语音数据生成每个语音数据对应的多维特征向量;根据多个多维特征向量生成每个语音数据对应的前导音概率;从多个前导音概率中提取概率最大值,概率最大值包括最大的前导音概率;判断概率最大值是否大于设定门限;若判断出概率最大值大于设定门限,则将概率最大值对应的语音数据的前导音设置为不良前导音。本发明实施例中,通过提取生成的前导音概率的概率最大值,将大于设定门限的概率最大值对应的语音数据的前导音设置为不良前导音,提高了识别不良前导音的准确性。
-
公开(公告)号:CN111540382B
公开(公告)日:2020-10-16
申请号:CN202010659644.7
申请日:2020-07-10
Applicant: 北京海天瑞声科技股份有限公司 , 清华大学
Abstract: 本公开是关于一种基于线性预测残差负熵的语音音质度量评价方法及装置、电子设备和计算机可读存储介质。其中方法包括:获取待评价的语音数据;将语音数据划分为多个语音帧;对语音帧进行线性预测分析,得到线性预测残差;计算每个语音帧的线性预测残差负熵;根据负熵评价语音数据的音质。通过利用语音信号的线性预测残差的负熵,可以实现定量的对语音音质的高层特征进行评价,而评价结果也更加接近于主观判断,从而对语音数据库的生产提供质量控制依据。
-
公开(公告)号:CN106205638B
公开(公告)日:2019-11-08
申请号:CN201610430195.2
申请日:2016-06-16
Applicant: 清华大学
Abstract: 本发明公开了属于音频事件检测技术领域的一种面向音频事件检测的双层基音特征提取方法。包括采集音频信号,将音频信号格式标准化:声音信号预处理和PITCH特征后处理,对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前面数个有效频域值;目前,通过对该双层基音特征的处理,可以有效提升对长时域周期性音频事件的检测。
-
公开(公告)号:CN101833951B
公开(公告)日:2011-11-09
申请号:CN201010118149.1
申请日:2010-03-04
Applicant: 清华大学
Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。
-
公开(公告)号:CN101256768B
公开(公告)日:2011-03-30
申请号:CN200810103328.0
申请日:2008-04-03
Applicant: 清华大学
IPC: G10L15/02
Abstract: 用于语种识别的时频二维倒谱特征提取方法涉及一种用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法首先分帧计算语音信号子带能量,多帧子带能量拼接后得到时频分布矩阵,然后进行二维DCT变换,去除矩阵时间方向和频率方向的相关性,再对变换后的系数进行重排列并降低维数,可得到最后特征。该特征既利用了语音的短时平稳性,又提取了用于语种识别的长时信息。可以用于语种识别。
-
公开(公告)号:CN101894548A
公开(公告)日:2010-11-24
申请号:CN201010207237.9
申请日:2010-06-23
Applicant: 清华大学
Abstract: 本发明的实施例提出了一种用于语种识别的建模方法,包括输入语音数据,对语音数据预处理得到特征序列,将特征矢量映射为超矢量,对超矢量进行投影补偿,通过支持向量机算法建立训练语种模型;对待测语音采用上述步骤得到待测超矢量,对待测超矢量进行投影补偿,利用语种模型对所述待测超矢量打分,识别待测语音的语言种类。本发明实施例还提出了一种用于语种识别的建模装置包括语音预处理模块、特征提取模块、多坐标系原点选择模块、特征矢量映射模块、子空间提取模块、子空间投影补偿模块、训练模块和识别模块。根据本发明实施例提供的方法及装置,去除高维统计量中对识别无效的信息,提高语种识别的正确率,降低在集成电路上的运算复杂度。
-
公开(公告)号:CN101702314A
公开(公告)日:2010-05-05
申请号:CN200910235393.3
申请日:2009-10-13
Applicant: 清华大学
Abstract: 基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法,其特征在于所述方法首先对语音数据提取特征得到特征矢量,接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数,然后利用GMM模型对特征矢量计算分子项和分母统计量,并对分子统计量进行平滑,由平滑后的分子统计量和分母统计量计算更新系数,最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手,更能抓住语种间的鉴别性信息,从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。
-
公开(公告)号:CN119884364A
公开(公告)日:2025-04-25
申请号:CN202411736222.X
申请日:2024-11-29
Applicant: 清华大学 , 北京电子控股有限责任公司
IPC: G06F16/35 , G06F40/289 , G06N5/04
Abstract: 本申请涉及一种层次术语集的构建方法、装置、计算机设备、存储介质和计算机程序产品,该方法通过根据至少三种术语提取策略,对目标文本进行术语提取,得到各术语提取策略下的多个术语,然后根根据各术语提取策略下的多个术语构建不同层次的术语集,最后对不同层次的术语集下的所有术语进行分类,得到所有术语的分类结果。上述方法中,采用多种术语提取策略能够从多个不同的维度深入剖析目标文本内容,从而更全面地提取出术语,同时增加了术语的覆盖范围,可以实现相互验证和补充的效果,进而提高了术语提取的准确性。
-
公开(公告)号:CN113327601B
公开(公告)日:2024-02-13
申请号:CN202110579536.3
申请日:2021-05-26
Applicant: 清华大学
Abstract: 本申请涉及一种有害语音的识别方法、装置、计算机设备和存储介质。方法包括:将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断。相较于使用单阈值方式对有害语音进行识别,采用双阈值方式更便于对置信度阈值进行调整,进而提高有害语音识别的分类效果。
-
-
-
-
-
-
-
-
-