-
公开(公告)号:CN106611604B
公开(公告)日:2020-04-14
申请号:CN201510696366.1
申请日:2015-10-23
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明涉及一种基于深度神经网络的自动语音叠音检测方法,包括:训练用于叠音检测的深度神经网络模型;其中,该深度神经网络模型的输入层为语音的特征信息,输出层为针对叠音语音、单人语音、非语音三类状态的概率输出值;采用深度神经网络模型对自动语音做叠音检测。
-
公开(公告)号:CN106856095A
公开(公告)日:2017-06-16
申请号:CN201510904230.5
申请日:2015-12-09
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明提供了一种拼音拼读的发音质量评测系统,所述系统包括:前端处理模块、强制对齐模块、发音评测模块、声调评测模块和评测输出模块;所述前端处理模块,用于对输入的拼音拼读语音进行端点检测、声学特征的提取及规整;所述强制对齐模块,用于使用强制对齐技术把所述前端处理模块处理后的语音切分为若干个音素段,获取每个音素的开始时间和截止时间;所述发音评测模块,用于利用发音良好度计算每段音素的后验概率;所述声调评测模块,用于对每段音素的声调进行识别,并判断识别结果与正确声调是否一致,给出声调质量的评估值,所述评测输出模块,用于对音评测模块和声调评测模块输出的评测结果进行综合,得到整体的评测结果,并反馈给用户。
-
公开(公告)号:CN103077724B
公开(公告)日:2016-02-17
申请号:CN201210585566.6
申请日:2012-12-28
Applicant: 中国科学院声学研究所 , 中国科学院上海高等研究院 , 北京中科信利技术有限公司
IPC: G10L19/018
Abstract: 本发明涉及一种在音频中嵌入和解出水印的方法和装置。本发明充分利用了不同扩频码之间的不相关性,采用了随机使用扩频码来嵌入水印帧,降低了各个混音音频中的各个水印分量之间的相互干扰,大大提高了水印解码的正确率。同时,考虑到使用所有扩频码进行相关检测会让计算量猛增,提出了一种新的帧结构,让计算量大大降低。另外,提出了一种多同步技术,这让各个水印分量都能在解码同时得到同步,解决了以往的同步技术只能让一个混音分量得到同步的问题。从而实现了能够抵御混音攻击的数字音频水印算法。
-
公开(公告)号:CN100514446C
公开(公告)日:2009-07-15
申请号:CN200410074445.0
申请日:2004-09-16
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
Abstract: 本发明公开了一种基于语音识别及语音分析的发音评估方法,包括以下步骤:选取输入的原始语音信号,采集并转换为数字信号,然后进行分帧处理;提取语音帧的特征参数;利用语音识别引擎对该输入语音进行识别,得到每个单词(字)或/及音节的分段信息,并计算出每个单词或单字的置信度;根据每个单词(字)或/及音节的置信度,对该输入语音中每个单词(字)或/音节的发音真实度进行评估。进一步,可以同时计算出每一语音频的时长、能量和频率信息,并与标准发音库对应的信息相比较,计算出每个单词(字)或/和音节的相似度,和置信度一起加权得到发音真实度。本发明可以评估的单位精确到每个字,每个音节,大大提高发音评估的精确度和效果。
-
公开(公告)号:CN101398754A
公开(公告)日:2009-04-01
申请号:CN200710122526.7
申请日:2007-09-26
Applicant: 中国科学院声学研究所
Abstract: 本发明提供一种嵌入式设备的交互系统,包括业务模块、管理模块,还包括FLASH播放器以及交互界面文件;其中,交互界面文件包括用来显示交互界面的界面文件,和用来控制所述界面文件所显示内容的配置文件;界面文件分为动态部分和静态部分,动态部分用于描述交互界面中动态改变的部分,静态部分用于描述交互界面中静态不变的部分。本发明的交互系统只需要通过修改配置文件和界面文件,就可以完成对交互界面的定制与修改,具有修改简便,易于实现的优点;交互系统中的界面文件采用常用的FLASH制作工具制作,具有制作方便,操作简单,易于增加各种特效的优点。
-
公开(公告)号:CN1317691C
公开(公告)日:2007-05-23
申请号:CN200410006564.2
申请日:2004-05-18
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L21/02
Abstract: 本发明公开一种自适应谷点降噪方法和系统,将二个无指向性传声器输出的一通道采样信号和二通道采样信号,分别减去经过延时的二通道采样信号和一通道采样信号,得到向前、向后两个指向性信号,然后分别这两路信号分解为多个向前和向后子带信号,在自适应滤波器上将相应频带的向后子带信号乘以自适应滤波系数,输出向后子带调整信号,再在加法器上将各频带的向前子带信号减去向后子带调整信号输出,最后由综合滤波器组将多个加法器的输出累加,输出处理完的信号。本发明通过在频率上分带,在几个噪声源分布在不同的频率段并在不同方位的情况下,不同频率段的谷点可以同时对准几个噪声源,确保输出信号中噪声得到抑制。
-
公开(公告)号:CN1892647A
公开(公告)日:2007-01-10
申请号:CN200510082715.7
申请日:2005-07-07
Applicant: 中国科学院声学研究所 , 北京中科信利通信技术有限公司
Abstract: 本发明公开了一种用于通过电话按键进行目录搜索的方法和系统。在第一方面,所述方法通过通信终端对用于语音交互应答系统的目录服务器进行目录搜索,通信终端具有数字按键键盘,通信终端和语音交互应答系统之间通过通信网络连接,语音交互应答系统和目录服务器相连,目录服务器存有多个中文或中英文目录,对所述目录建立中文汉字的拼音索引,数字按键和拼音索引的英文字母之间存在映射关系;该方法包括:通信终端接收通过数字按键输入的数字串;通信终端将该数字串通过语音交互应答系统提供给目录服务器;目录服务器根据映射关系和拼音索引,将数字串转换为所述多个目录中的一个。本发明能够让用户在交互式应答系统中快速找到所需的信息。
-
公开(公告)号:CN1284134C
公开(公告)日:2006-11-08
申请号:CN200410070139.X
申请日:2002-11-15
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
Abstract: 本发明公开一种语音识别系统,包括一模数变换单元、一特征提取单元、一解码运算单元及一声学模型,用于接收语音输入信号并得到相匹配的识别结果,其中:该模数变换单元将该语音输入信号转换为一数字信号;该特征提取单元将该数字信号进行分帧处理,提取语音特征参数得输入语音特征矢量序列;该解码运算单元对该特征矢量序列进行解码运算得到识别结果。该声学模型为采用本发明压缩方法得到的高斯码本。本发明的语音识别系统,可在保证语音系统识别性能的前提下,提高系统的识别速度。
-
公开(公告)号:CN1848829A
公开(公告)日:2006-10-18
申请号:CN200510064334.6
申请日:2005-04-14
Applicant: 北京中科信利技术有限公司 , 中国科学院声学研究所
IPC: H04L25/03
Abstract: 本发明涉及一种适应于短波窄带信道的自同步音频水印方法,水印嵌入时,将同步信息和进行了RS编码的水印信息转化为双向码基带信号,然后采用扩频序列嵌入的方法在时间上依次将同步信息和水印信息嵌入音频信号频谱中;水印提取时,使用通信中滑动相关的方法提取同步信息,完成帧同步和数据同步,然后对接收信号的频谱进行相关检测,提取水印信息。本发明利用同步信号定位音频帧的位置和数据起始,应用双向调制技术,RS纠错码技术,冗余嵌入,数据重组,和可信度度量等技术增强水印信号的鲁棒性。另外,本发明把同步信号完全嵌入到频域中,使得同步信号和水印信息一样具有很强的鲁棒性,在强噪声的情况下依然能够完成同步。
-
公开(公告)号:CN1212601C
公开(公告)日:2005-07-27
申请号:CN02146655.6
申请日:2002-11-01
Applicant: 中国科学院声学研究所 , 北京中科信利技术有限公司
IPC: G10L13/02
Abstract: 本发明公开了一种嵌入式语音合成方法及系统,用于手持数字移动通讯设备的操作系统,通过在该操作系统中加载文本分析模块、码字序列生成模块、语音解码模块输入模块和波形拼接合成模块,可以使输入的文本信息转换成数字语音信号输出。该方法和系统可以充分利用该设备本身的资源,从而大大降低语音合成系统所占用的系统资源。依据本发明的语音合成系统占用的总资源不到500K字节,计算复杂度小于5MIPS,能够运行在当前主流的手机之中。
-
-
-
-
-
-
-
-
-