-
公开(公告)号:CN117826981A
公开(公告)日:2024-04-05
申请号:CN202211214691.6
申请日:2022-09-30
IPC: G06F3/01 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请实施例提供一种样本数据的标注方法、装置、设备及存储介质,涉及工智能技术领域,能够对多模态的样本数据进行标注,从而提高神经网络模型识别情绪的准确性。具体方案为:获取用于表征用户情绪的多个待标注数据;每个待标注数据包括用户的生理数据和非生理数据,每个待标注数据的数据分类结果包括用于表征用户受场景影响引起情绪变化的体验类型,或者,用于表征用户表达情绪的表达类型;根据预设的目标分类模型,确定每个待标注数据的数据分类结果;基于每个待标注数据以及每个待标注数据的数据分类结果,确定多个目标情绪;基于多个目标情绪,对多个待标注数据进行标注,得到目标样本数据集。本申请实施例用于情绪识别场景。
-
公开(公告)号:CN109741731B
公开(公告)日:2020-12-29
申请号:CN201910015434.1
申请日:2019-01-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。
-
公开(公告)号:CN111209429B
公开(公告)日:2020-07-28
申请号:CN202010309303.7
申请日:2020-04-20
Applicant: 北京海天瑞声科技股份有限公司 , 清华大学
IPC: G06F16/65
Abstract: 本公开是关于一种用于度量语音数据库覆盖性的无监督模型训练方法,所述方法包括:获取训练数据,所述训练数据为语音;确定语音数据库覆盖性的一个或多个评价因素;基于训练数据是否可通过参数调整控制,划分评价因素为可调因素或不可调因素;确定划分后的每个评价因素对应的聚类算法;通过每个评价因素对应的聚类算法分别将训练数据分类,得到多个子类;根据每个所述评价因素的多个子类,训练评价模型。该方法可以根据用户需要设定不同的评价要素度量相应的语音数据库,通过对评价因素的区分,有针对性地抽取不同的特征、选用合适的算法,同时可以利用无监督数据进行模型训练,降低了数据标注所引入的成本。
-
公开(公告)号:CN110738987A
公开(公告)日:2020-01-31
申请号:CN201910992852.6
申请日:2019-10-18
Applicant: 清华大学
Inventor: 张卫强
Abstract: 本发明属于语音信号处理技术领域,尤其涉及一种基于统一表征的关键词检索方法,包括:采用大量语音数据训练带有瓶颈层的神经网络语音自编码器得到声学表征矢量提取器;采用大量文本数据训练带有瓶颈层的神经网络文本自编码器得到语言表征矢量提取器;采用大量语音数据片段和对应的文本数据片段分别提取对应的声学表征矢量和语言表征矢量用于训练统一矢量提取器;通过语言表征矢量提取器和统一矢量提取器得到文本关键词的查询矢量;通过声学表征矢量提取器和统一矢量提取器得到语音关键词的查询矢量;对于待查询语音,分段依次通过声学表征矢量提取器和统一矢量提取器得到多个索引矢量并计算与查询矢量的距离,若小于预设门限即认为命中查询词。
-
公开(公告)号:CN108538285A
公开(公告)日:2018-09-14
申请号:CN201810180347.7
申请日:2018-03-05
Applicant: 清华大学
Abstract: 本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
-
公开(公告)号:CN114067834B
公开(公告)日:2024-08-09
申请号:CN202010752821.6
申请日:2020-07-30
Applicant: 中国移动通信集团有限公司 , 清华大学
Abstract: 本发明实施例提供了一种不良前导音识别方法、装置、存储介质和计算机设备。通过根据获取的多个语音数据生成每个语音数据对应的多维特征向量;根据多个多维特征向量生成每个语音数据对应的前导音概率;从多个前导音概率中提取概率最大值,概率最大值包括最大的前导音概率;判断概率最大值是否大于设定门限;若判断出概率最大值大于设定门限,则将概率最大值对应的语音数据的前导音设置为不良前导音。本发明实施例中,通过提取生成的前导音概率的概率最大值,将大于设定门限的概率最大值对应的语音数据的前导音设置为不良前导音,提高了识别不良前导音的准确性。
-
公开(公告)号:CN111540382B
公开(公告)日:2020-10-16
申请号:CN202010659644.7
申请日:2020-07-10
Applicant: 北京海天瑞声科技股份有限公司 , 清华大学
Abstract: 本公开是关于一种基于线性预测残差负熵的语音音质度量评价方法及装置、电子设备和计算机可读存储介质。其中方法包括:获取待评价的语音数据;将语音数据划分为多个语音帧;对语音帧进行线性预测分析,得到线性预测残差;计算每个语音帧的线性预测残差负熵;根据负熵评价语音数据的音质。通过利用语音信号的线性预测残差的负熵,可以实现定量的对语音音质的高层特征进行评价,而评价结果也更加接近于主观判断,从而对语音数据库的生产提供质量控制依据。
-
公开(公告)号:CN106205638B
公开(公告)日:2019-11-08
申请号:CN201610430195.2
申请日:2016-06-16
Applicant: 清华大学
Abstract: 本发明公开了属于音频事件检测技术领域的一种面向音频事件检测的双层基音特征提取方法。包括采集音频信号,将音频信号格式标准化:声音信号预处理和PITCH特征后处理,对只保留形状特征的PITCH,进行离散傅里叶变换DFT,得到长时域信号PITCH特征的频域特征,并取前面数个有效频域值;目前,通过对该双层基音特征的处理,可以有效提升对长时域周期性音频事件的检测。
-
公开(公告)号:CN101833951B
公开(公告)日:2011-11-09
申请号:CN201010118149.1
申请日:2010-03-04
Applicant: 清华大学
Abstract: 用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明可对背景模型进行细致刻画,从而提高说话人识别的准确率。
-
公开(公告)号:CN101256768B
公开(公告)日:2011-03-30
申请号:CN200810103328.0
申请日:2008-04-03
Applicant: 清华大学
IPC: G10L15/02
Abstract: 用于语种识别的时频二维倒谱特征提取方法涉及一种用于语种识别的时频二维倒谱特征提取方法,其特征在于所述方法首先分帧计算语音信号子带能量,多帧子带能量拼接后得到时频分布矩阵,然后进行二维DCT变换,去除矩阵时间方向和频率方向的相关性,再对变换后的系数进行重排列并降低维数,可得到最后特征。该特征既利用了语音的短时平稳性,又提取了用于语种识别的长时信息。可以用于语种识别。
-
-
-
-
-
-
-
-
-