-
公开(公告)号:CN108682417A
公开(公告)日:2018-10-19
申请号:CN201810455011.7
申请日:2018-05-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于电子行业信号处理技术领域,旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此,本发明提供了一种语音识别中的小数据语音声学建模方法,包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;利用融合特征进行训练,以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度。
-
公开(公告)号:CN108364662A
公开(公告)日:2018-08-03
申请号:CN201711481953.4
申请日:2017-12-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及语音情感识别领域,具体涉及一种基于成对鉴别任务的语音情感识别方法与系统。目的在于解决情感标签的模糊性问题。本发明的语音情感识别系统,在训练过程中,将语音数据随机配对;然后提取语谱图特征并利用第一音向量提取模型生成成对音向量;再利用判别网络模型计算成对音频训练数据属于同一情感类别的概率;计算损失函数时,同时考虑成对音向量之间的余弦相似性损失,以及判别网络模型的输出值和预设标签之间的交叉熵。对于待识别语音,先提取语谱图特征,再用训练好的第一音向量提取模型生成音向量,最后用训练好的支持向量机进行情感分类。本发明通过成对鉴别任务训练语音情感模型,提升了基于语音的情感识别系统的性能。
-
公开(公告)号:CN106531157A
公开(公告)日:2017-03-22
申请号:CN201610971766.3
申请日:2016-10-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种语音识别中的正则化口音自适应方法,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化目标函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。本发明中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。
-
公开(公告)号:CN103531207B
公开(公告)日:2016-07-27
申请号:CN201310481318.1
申请日:2013-10-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种融合长跨度情感历史的语音情感识别方法。该方法包括以下步骤:利用时域和变换域上的不同参数进行端点检测,剔除原始语音序列中的非语音数据,获得待识别语音段数据;将待识别语音段数据切分为独立的语音段数据单元;利用第一支持向量机对语音段数据单元分别进行情感状态初步分类;对情感状态初步分类结果进行加窗,并利用第二支持向量机进行融合,得到融合长跨度情感历史的情感识别结果。本发明在保证对语音信号的局部单元进行高精度分类的同时,又充分利用信号序列的长跨度内的上下文信息,以达到对序列中的每一单元达到最优的分类结果。本发明能够用于语音信号的情感识别,具有实时性好、并能够大幅度提高识别精度等优点。
-
公开(公告)号:CN102820030B
公开(公告)日:2014-03-26
申请号:CN201210265448.7
申请日:2012-07-27
Applicant: 中国科学院自动化研究所
IPC: G10L13/00
Abstract: 本发明提供了一种发音器官可视语音合成系统,包括:音频分析模块、参数映射模块、动画驱动模块和运动分析模块,其中:音频分析模块,用于接收输入的说话人语音信号,根据能量信息判断静音段,将非静音段语音进行编码,输出语音线谱对参数;参数映射模块,用于接收音频分析模块实时传递来的语音线谱对参数,并利用经过训练的混合高斯模型,将其转化为模型运动参数;动画驱动模块,用于接收参数映射模块实时生成的模型运动参数,驱动虚拟发音器官模型的关键点运动,进而带动整个虚拟发音器官模型的运动。本发明直接由输入语音的频域参数生成相应的运动参数来带动模型运动,具有不受在线数据库的限制和生理模型的限制优点。
-
公开(公告)号:CN103531196A
公开(公告)日:2014-01-22
申请号:CN201310481306.9
申请日:2013-10-15
Applicant: 中国科学院自动化研究所
IPC: G10L13/02
Abstract: 本发明公开了一种波形拼接语音合成的选音方法,该方法包括以下步骤:基于原始音频进行基于隐马尔可夫的模型训练,得到声学模型集及对应的特征决策树;输入若干训练文本,基于特征决策树搜索得到相关声学模型,进而得到对应的目标语音和目标音节;根据目标语音与其对应的候选基元的相似度,和候选基元的各声学参数在当前声学模型下的似然概率,训练得到相似度分类器;输入任意待合成文本,基于相似度分类器剔除不相似的候选基元,对于剩余的候选基元,利用拼接代价最小原则选择得到最佳基元,并拼接得到合成语音。采用本发明方法可以合成出较高音质的语音。
-
公开(公告)号:CN101984603B
公开(公告)日:2013-09-25
申请号:CN201010539807.4
申请日:2010-11-11
Applicant: 湖北省电力公司信息通信分公司 , 中国科学院自动化研究所 , 国家电网公司
Abstract: 本发明是一种基于邮件截获的电力敏感信息检测方法,如下步骤所述(1)监听并截获局域网内所有主机通过邮件客户端以及部分网络邮箱发送的邮件;(2)对截获的邮件按照特定的规则进行解析,将邮件中的基本信息解析并保存;(3)利用模式识别和图像处理技术分析上一步解析出来的邮件信息,判断邮件中是否含有电力敏感信息;(4)如果检测到邮件中含有电力敏感信息,系统做出报警并返回发送该邮件的主机的信息。本发明有效的截获并解析局域网内所有主机通过邮件客户端及部分网络邮箱发送的邮件,而且对邮件中可能含有的电力敏感信息进行分析判断并报警,从而有效的防止电力部门的重要文件外泄,保障了电力部门的网络安全。
-
公开(公告)号:CN103247293A
公开(公告)日:2013-08-14
申请号:CN201310176701.6
申请日:2013-05-14
Applicant: 中国科学院自动化研究所
IPC: G10L19/032 , G10L19/083 , G10L25/93 , G10L25/87 , G10L15/06
Abstract: 本发明提供了一种语音数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过端点检测剔除原始音频中的非语音数据,获得语音段数据;对每帧语音数据提取谱参数、基音周期等参数,并计算连续多帧语音数据的增益均值,通过矢量码本对谱参数进行矢量量化,对基音周期和增益均值进行非线性量化;对量化后的各种语音参数进行编码,生成语音数据包。该解码方法包括:对接收到的语音数据包进行解码,提取谱参数、基音周期、增益均值等参数,通过上述参数对激励参数和能量变化轨迹进行预测,最后通过声码器合成语音。本发明可以在极低编码速率的情况下,保持较高的语音音质。
-
公开(公告)号:CN102201240B
公开(公告)日:2012-10-03
申请号:CN201110140269.6
申请日:2011-05-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明基于逆滤波的谐波噪声激励模型声码器,声码器包含有:参数提取模块接收语音数据,分析基频参数和频谱参数;逆滤波模块接收频谱参数设计逆滤波器,得到去除谱信息的残差信号;最大浊音频率估计模块接收基频参数和逆滤波后的残差信号,计算最大浊音频率将残差信号的频谱划分为低频段的谐波和高频段的噪声;浊音激励生成模块接收基频参数和最大浊音频率,分别用一组正弦波和高通滤波的高斯白噪声来构建激励模型中的低频谐波和高频噪声;清音激励生成模块用高斯白噪声;参数语音合成器模块接收频谱参数和清音激励信号或浊音激励信号,调用合成器输出语音。依据本发明实现对逆滤波后的残差信号建模,合成语音具有较好的自然度和清晰度。
-
公开(公告)号:CN102222501A
公开(公告)日:2011-10-19
申请号:CN201110160419.X
申请日:2011-06-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种语音合成中时长参数的生成方法,用于基于隐马尔可夫模型的语音合成中进行状态时长参数的生成,对于输入的上下文相关隐马尔可夫模型序列生成各模型的各个状态的时长,即各状态的驻留时间,在生成状态时长参数时结合了隐马尔可夫模型中的状态时长模型和时长整体方差模型。创建时长整体方差模型训练语料库,利用时长整体方差分析器从训练语料库中生成时长整体方差训练样本,利用整体方差训练样本训练时长整体方差模型。本发明较好的克服了基于隐马尔可夫模型的语音合成中生成的状态时长参数过于平均的问题,合成结果在时长分布上更加自然、具有表现力。
-
-
-
-
-
-
-
-
-