-
公开(公告)号:CN101546555B
公开(公告)日:2011-05-11
申请号:CN200910081899.3
申请日:2009-04-14
Applicant: 清华大学
IPC: G10L15/02
Abstract: 用于语种识别的约束异方差线性鉴别分析方法涉及一种高维特征矢量的降维和去相关处理方法,其特征在于,所述方法首先由语音信号提取MFCC特征,选取连续M帧MFCC特征并列放置得到倒谱矩阵,然后将其按行展开,形成超矢量,再分块计算超矢量的均值和协方差,并用迭代法分块计算变换矩阵,接着用变换矩阵对超矢量分块进行变换,最后将各块进行降维和拼接处理,可得到新的特征矢量。该方法计算量小,得到的特征矢量去除了各维之间的相关性,鉴别性高且维数低。可以用于语种识别。
-
公开(公告)号:CN119884364A
公开(公告)日:2025-04-25
申请号:CN202411736222.X
申请日:2024-11-29
Applicant: 清华大学 , 北京电子控股有限责任公司
IPC: G06F16/35 , G06F40/289 , G06N5/04
Abstract: 本申请涉及一种层次术语集的构建方法、装置、计算机设备、存储介质和计算机程序产品,该方法通过根据至少三种术语提取策略,对目标文本进行术语提取,得到各术语提取策略下的多个术语,然后根根据各术语提取策略下的多个术语构建不同层次的术语集,最后对不同层次的术语集下的所有术语进行分类,得到所有术语的分类结果。上述方法中,采用多种术语提取策略能够从多个不同的维度深入剖析目标文本内容,从而更全面地提取出术语,同时增加了术语的覆盖范围,可以实现相互验证和补充的效果,进而提高了术语提取的准确性。
-
公开(公告)号:CN113205801B
公开(公告)日:2024-03-19
申请号:CN202110498059.8
申请日:2021-05-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本申请涉及一种恶意语音样本的确定方法、装置、计算机设备和存储介质。该方法包括:获取初始语音样本集;根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集;根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度;将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。本方法基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
-
公开(公告)号:CN113327601B
公开(公告)日:2024-02-13
申请号:CN202110579536.3
申请日:2021-05-26
Applicant: 清华大学
Abstract: 本申请涉及一种有害语音的识别方法、装置、计算机设备和存储介质。方法包括:将每一样本语音的置信度与预设阈值组进行比较,确定每一样本语音对应的判断结果,根据每一样本语音对应的判断结果及每一样本语音对应的标注结果,计算预设阈值组对应的代价函数值;对预设阈值组中的预设阈值进行调整,重复上述调整预设阈值及计算代价函数值的过程,确定满足预设条件的代价函数值;根据满足该预设条件的代价函数值所对应的预设阈值组,确定最终的预设阈值组;根据待判别的语音及所述最终的预设阈值组,对所有待判别的语音进行判断。相较于使用单阈值方式对有害语音进行识别,采用双阈值方式更便于对置信度阈值进行调整,进而提高有害语音识别的分类效果。
-
公开(公告)号:CN113593606B
公开(公告)日:2022-02-15
申请号:CN202111156129.8
申请日:2021-09-30
Applicant: 清华大学
Abstract: 本申请涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。所述方法包括:获取音频数据对应的音频特征。从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。预设的异构关系图为基于将初始异构关系图输入至预设的R‑GCN关系图卷积神经网络所生成的。将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。采用本方法能够同时进行音频中场景和事件的双重识别分类任务,并且提高识别分类的准确度和可信度。
-
公开(公告)号:CN113593606A
公开(公告)日:2021-11-02
申请号:CN202111156129.8
申请日:2021-09-30
Applicant: 清华大学
Abstract: 本申请涉及一种音频识别方法和装置、计算机设备、计算机可读存储介质。所述方法包括:获取音频数据对应的音频特征。从预设的异构关系图中获取异构关系特征,预设的异构关系图用于表示训练集中音频数据对应的标签之间的关系;标签之间的关系包括场景标签与场景标签之间的关系、事件标签与事件标签之间的关系、场景标签与事件标签之间的关系。预设的异构关系图为基于将初始异构关系图输入至预设的R‑GCN关系图卷积神经网络所生成的。将音频特征及异构关系特征输入至预设的深度神经网络中进行音频识别,生成与音频数据对应的场景标签及事件标签。采用本方法能够同时进行音频中场景和事件的双重识别分类任务,并且提高识别分类的准确度和可信度。
-
公开(公告)号:CN110379433B
公开(公告)日:2021-10-08
申请号:CN201910711306.0
申请日:2019-08-02
Applicant: 清华大学 , 北京华控智加科技有限公司
Abstract: 本申请涉及一种身份验证的方法、装置、计算机设备及存储介质。方法包括:获取目标用户根据目标动态验证码输入的语音数据;根据预设的分段算法,将语音数据划分为至少一个语音帧;针对每个语音帧,根据预设的声学特征提取算法,提取该语音帧对应的声学特征向量;将该语音帧对应的声学特征向量输入至预先训练的身份验证多任务模型,输出该语音帧对应的中间用户特征向量和第一后验概率集合;根据各语音帧对应的中间用户特征向量和预设的池化算法,确定目标用户对应的第一用户特征向量;根据目标用户对应的第一用户特征向量和各语音帧对应的第一后验概率集合,对目标用户进行身份验证。采用本申请可以降低服务器的计算复杂度,提高服务器的处理效率。
-
公开(公告)号:CN108538285B
公开(公告)日:2021-05-04
申请号:CN201810180347.7
申请日:2018-03-05
Applicant: 清华大学
Abstract: 本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
-
公开(公告)号:CN111539495B
公开(公告)日:2020-11-10
申请号:CN202010659647.0
申请日:2020-07-10
Applicant: 北京海天瑞声科技股份有限公司 , 清华大学
Abstract: 本公开涉及一种基于识别模型的识别方法、模型训练方法及装置。其中,基于识别模型的识别方法包括识别模型包括特征提取模块,特征提取模块包括多个LSTM单元。识别方法包括:获取待识别特征序列,待识别特征序列包括连续的特征;将多个特征依序分别输入至多个LSTM单元,通过每个LSTM单元得到特征对应的第一隐藏状态;基于多个特征,以及多个特征分别对应的第一隐藏状态,以及特征提取模块的前次输出结果,得到特征提取模块的当前输出结果;基于特征提取模块的当前输出结果,得到识别结果。通过本公开,使得特征提取模块的当前输出结果更加合理、准确。
-
公开(公告)号:CN111540382A
公开(公告)日:2020-08-14
申请号:CN202010659644.7
申请日:2020-07-10
Applicant: 北京海天瑞声科技股份有限公司 , 清华大学
Abstract: 本公开是关于一种基于线性预测残差负熵的语音音质度量评价方法及装置、电子设备和计算机可读存储介质。其中方法包括:获取待评价的语音数据;将语音数据划分为多个语音帧;对语音帧进行线性预测分析,得到线性预测残差;计算每个语音帧的线性预测残差负熵;根据负熵评价语音数据的音质。通过利用语音信号的线性预测残差的负熵,可以实现定量的对语音音质的高层特征进行评价,而评价结果也更加接近于主观判断,从而对语音数据库的生产提供质量控制依据。
-
-
-
-
-
-
-
-
-