-
公开(公告)号:CN113299315A
公开(公告)日:2021-08-24
申请号:CN202110852843.4
申请日:2021-07-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种无需原始数据存储的持续性学习生成语音特征的方法,包括:采集音频数据,提取音频声学特征,得到线性倒谱系数特征;应用所述线性倒谱系数特征对深度学习网络模型进行训练,得到源域模型;在源域模型的训练损失函数基础上加入了正则化损失,约束模型参数优化的方向,应用新采集的音频数据对所述源域模型进行模型参数更新,得到目标域模型。
-
公开(公告)号:CN113284508A
公开(公告)日:2021-08-20
申请号:CN202110827718.8
申请日:2021-07-21
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于层级区分的生成音频检测系统,包括:音频预处理模块、CQCC特征提取模块、LFCC特征提取模块、第一阶段轻量初步筛选模型和第二阶段深度鉴别模型;音频预处理模块对采集到的音视频数据进行数据预处理,得到长度不超过限定的音频片段;将音频片段分别输入CQCC特征提取模块和LFCC特征提取模块,得到CQCC特征和LFCC特征;将CQCC特征或者LFCC特征输入第一阶段轻量初步筛选模型进行第一阶段筛选,筛选出第一阶段真实语音和第一阶段生成语音;将第一阶段生成语音的CQCC特征或者LFCC特征输入所述第二阶段深度鉴别模型,鉴别出第二阶段真实语音和第二阶段生成语音,第二阶段生成语音确认为生成语音。
-
公开(公告)号:CN113284485A
公开(公告)日:2021-08-20
申请号:CN202110777611.7
申请日:2021-07-09
Applicant: 中国科学院自动化研究所
IPC: G10L15/06 , G10L15/02 , G10L15/183 , G10L15/26
Abstract: 本发明提供通用的统一中英混合文本生成和语音识别的端到端框架,包括:包括:声学编码器、音素编码器、判别器和解码器;所述音素编码器和所述判别器构成生成对抗网络,所述音素编码器作为所述生成对抗网络的生成器,所述判别器为所述生成对抗网络的判别器,所述声学编码器作为所述生成对抗网络的真实数据输入,以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示,所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示,再将所述解码表示输入到softmax函数得到概率最大的输出目标。
-
公开(公告)号:CN113270086A
公开(公告)日:2021-08-17
申请号:CN202110815743.4
申请日:2021-07-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种融合多模态语义不变性的语音识别文本增强系统,包括:声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对短时音频帧提取声学特征,将声学特征输入到声学降采样模块进行降采样,得到声学表示;将语音数据输入现有语音识别模块,得到输入文本数据,将输入文本数据输入到编码器,得到输入文本编码表示;将声学表示和所述输入文本编码表示输入到解码器融合,声学模态和文本模态的表示进行相似性约束,得到解码表示;该方法通过融合跨模态语义不变性约束损失,减少模型对数据的依赖,提高模型的性能,适用于中英混合语音识别。
-
公开(公告)号:CN108682417B
公开(公告)日:2020-05-19
申请号:CN201810455011.7
申请日:2018-05-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于电子行业信号处理技术领域,旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此,本发明提供了一种语音识别中的小数据语音声学建模方法,包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;利用融合特征进行训练,以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度。
-
公开(公告)号:CN106875942A
公开(公告)日:2017-06-20
申请号:CN201611232996.4
申请日:2016-12-28
Applicant: 中国科学院自动化研究所
IPC: G10L15/16 , G10L15/02 , G10L15/06 , G10L15/065 , G10L17/02
CPC classification number: G10L15/16 , G10L15/02 , G10L15/063 , G10L15/065 , G10L17/02
Abstract: 本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。通过本发明的方法,提高了带口音语音识别的准确率。
-
公开(公告)号:CN118298852B
公开(公告)日:2024-09-10
申请号:CN202410726562.8
申请日:2024-06-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于高频特征的区域生成音频检测与定位方法及装置,应用于音频处理领域。该方法包括:提取待检测音频中目标频率的信号,得到待检测信号;对待检测信号进行分帧处理,得到至少两个待检测帧;针对至少两个待检测帧中的每个待检测帧,将待检测帧分别与至少两个待检测帧中的其他待检测帧进行组合,生成至少一个待检测帧对;将至少一个待检测帧对输入训练好的音频检测与定位模型中,输出至少一个待检测帧对各自对应的相似度;根据至少一个待检测帧对各自对应的相似度,和至少两个待检测帧各自对应的帧时间,从待检测音频中检测和定位生成区段。本发明的方法能够从待检测音频中检测和定位生成区段,解决了难以定位生成区段的问题。
-
公开(公告)号:CN118366479A
公开(公告)日:2024-07-19
申请号:CN202410788551.2
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于持续强化学习的语音攻防博弈自反馈方法及装置,可以应用于人工智能技术领域。该方法包括:将从数据集中获取的样本数据输入到对抗样本生成子模型中,利用对抗样本生成策略对样本数据进行处理,生成语音样本;在语音样本通过质量评估的情况下,将语音样本输入到语音鉴别子模型中,输出对语音样本的鉴别结果;对比鉴别结果与语音样本的真实标签,得到对比结果,对比结果用于反馈调节对抗样本生成策略;在对比结果表征鉴别结果与语音样本的真实标签不同的情况下,将语音样本存储到增量样本集中,并利用持续学习子模型基于增量样本集对语音鉴别子模型进行增量训练。
-
公开(公告)号:CN113436629B
公开(公告)日:2024-06-04
申请号:CN202110997178.8
申请日:2021-08-27
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种语音控制方法、装置、电子设备及存储介质,所述语音控制方法,包括以下步骤:获取已知唤醒词的音节;确定与所述唤醒词对应的非唤醒词的音节;根据所述唤醒词的音节、所述非唤醒词的音节和预设的垃圾词信息构建唤醒词解码网络,以根据所述唤醒词解码网络对输入的语音进行解码,并根据解码结果确定是否执行唤醒操作,本申请在解码网络中引入非唤醒词的音节从而统一描述非唤醒词,能够降低非唤醒词引起的误唤醒率。
-
公开(公告)号:CN117292694A
公开(公告)日:2023-12-26
申请号:CN202311564716.X
申请日:2023-11-22
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于时不变编码的少令牌神经语音编解码方法和系统,应用于训练好的神经语音编解码模型,该神经语音编解码模型包括编码器、时不变提取器、量化器和解码器;基于所述编码器对待处理语音进行编码,获得编码器输出层的隐层表示及编码器中间层的中间层表示;基于所述时不变提取器对所述中间层表示进行时不变特征提取,获得时不变表示;基于所述量化器分别对所述隐层表示和时不变表示进行量化,获得帧级别语音令牌和时不变令牌;基于所述解码器对所述帧级别语音令牌和时不变令牌进行解码,获得重构后语音;即通过时不变提取器对语音信号的时不变信息进行单独编码,在更少的语音编码令牌数量时能够实现高质量语音重建。
-
-
-
-
-
-
-
-
-