-
公开(公告)号:CN113257248B
公开(公告)日:2021-10-15
申请号:CN202110675286.3
申请日:2021-06-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种流式和非流式混合语音识别系统,包括:流式编码器、联结时序分类解码器和注意力机制解码器;流式编码器采用基于局部自注意力机制的Transformer来进行构建;联结时序分类解码器包含一个线性映射层,负责将编码状态映射到预先设计好的词表空间,使编码状态映射表示的维度与词表空间的维度相同,然后通过Softmax计算预测到的标记,用于流式解码;注意力机制解码器采用Transformer解码器来构建,由前端卷积层和多层重复的单向Transformer编码层组成,最后一层为线性映射层,使编码状态映射表示的维度与词表空间的维度相同,并计算最终输出的概率。
-
公开(公告)号:CN110689879A
公开(公告)日:2020-01-14
申请号:CN201910958727.3
申请日:2019-10-10
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于电子信号处理技术领域,具体涉及一种端到端语音转写模型的训练方法、系统、装置,旨在解决端到端语音转写模型无法很好的学习语音数据的对齐信息的问题。本系统方法包括提取语音训练数据的特征,得到语音特征序列;通过GMM-HMM模型对语音特征序列进行强制对齐,得到对齐标注,并对各帧语音特征进行拼接;基于拼接后的语音特征序列和文本标注训练数据,对端到端语音转写模型进行训练,得到预设词表中每个词的概率分布及负对数损失值;获取对齐损失值;将对齐损失值和负对数损失值进行加权平均,得到联合损失值,并通过后向传播算法更新模型的参数;迭代训练模型。本发明能够准确的学习语音数据的对齐信息。
-
公开(公告)号:CN108682417A
公开(公告)日:2018-10-19
申请号:CN201810455011.7
申请日:2018-05-14
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于电子行业信号处理技术领域,旨在解决只具有少量标注数据的目标语种的声学模型判别性能低的问题。为此,本发明提供了一种语音识别中的小数据语音声学建模方法,包括:通过语种对抗判别器对多语种的声学特征进行对抗训练以建立多语种对抗的瓶颈网络模型;将目标语种的声学特征作为多语种对抗的瓶颈网络模型的输入以提取语种无关的瓶颈特征;将语种无关的瓶颈特征与目标语种的声学特征进行融合以获得融合特征;利用融合特征进行训练,以建立目标语种的声学模型。采用该方法有效地克服了现有技术中因瓶颈特征包含语种相关的信息带来的目标语种的识别性能提升不明显,甚至负迁移现象,从而提高目标语种的语音识别精度。
-
公开(公告)号:CN106531157A
公开(公告)日:2017-03-22
申请号:CN201610971766.3
申请日:2016-10-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种语音识别中的正则化口音自适应方法,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化目标函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。本发明中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。
-
公开(公告)号:CN118366478B
公开(公告)日:2024-10-11
申请号:CN202410788550.8
申请日:2024-06-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于音素间隔序列的生成音频鉴别与生成区域定位方法,可以应用于人工智能技术领域。该方法包括:对生成音频鉴别请求中待鉴别音频信号的音素进行标记,得到被标记音素;根据被标记音素的连续出现频率,构建待鉴别音频信号的初始音素间隔序列;基于生成音频鉴别请求中携带的生成音频鉴别方式,对初始音素间隔序列进行处理,得到目标音素间隔序列;将目标音素间隔序列输入到生成音频鉴别模型中,通过对提取到的多尺度动力学特征进行分析,输出待鉴别音频信号的真伪鉴别结果。该方法可以适用于生成音频的真假二值鉴别,得到生成音频的整体真伪结果,也适用于区域伪造检测和定位,得到属于真实音频以及属于生成音频的区域定位结果。
-
公开(公告)号:CN118053451B
公开(公告)日:2024-07-19
申请号:CN202410447623.7
申请日:2024-04-15
Applicant: 中国科学院自动化研究所
Abstract: 本发明实施例涉及一种基于多模态大模型的模仿音频鉴别方法、装置和设备,应用于训练好的多模态大模型,多模态大模型包括音频编码器、线性对齐层、预训练的大语言模型;通过将待鉴别音频输入到音频编码器中,获得音频特征;将音频特征输入到线性对齐层,获得对齐到文本模态的音频特征;将鉴伪音频的文本指令和文本模态的音频特征进行拼接,获得拼接特征;将拼接特征输入到预训练的大语言模型中,输出音频鉴别结果和鉴别原因;音频鉴别结果为真,表示音频是被模仿对象的真实音频;音频鉴别结果为假,表示音频是模仿对象针对被模仿对象所进行的模仿音频;鉴别原因是指做出所述音频鉴别结果的依据信息;实现了模仿音频的精确、快速检测。
-
公开(公告)号:CN116884391A
公开(公告)日:2023-10-13
申请号:CN202311144835.X
申请日:2023-09-06
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种基于扩散模型的多模态融合音频生成方法及装置,所述方法包括:响应于接收到用于生成音频的信息,确定与信息的类型对应的、预先训练好的编码器,其中,不同类型的信息分别对应的编码器通过对比联合训练得到;将用于生成音频的信息输入预先训练好的编码器,得到嵌入特征;将嵌入特征、迭代步数和高斯噪声输入预先训练好的扩散模型,生成与嵌入特征对应的音频,在本公开中,不同类型的信息分别对应的编码器通过对比联合训练得到,在有限的数据集中训练出的编码器,能够输出合理的模态融合信息,从而更加准确地生成音频。
-
公开(公告)号:CN116364055B
公开(公告)日:2023-09-01
申请号:CN202310634393.0
申请日:2023-05-31
Applicant: 中国科学院自动化研究所
IPC: G10L13/027 , G10L13/08 , G10L25/30
Abstract: 本发明实施例涉及一种基于预训练语言模型的语音生成方法、装置、设备及介质,属于语音合成领域,通过基于第一预训练语言模型对待生成语音的目标文本进行编码,获得语义令牌序列;基于第二预训练语言模型对基于自然语言描述的语音风格控制信息进行编码,获得风格令牌序列;基于第三预训练语言模型对所述语义令牌序列和所述风格令牌序列进行自回归,获得声学令牌序列;基于训练好的神经编解码器对所述声学令牌序列进行解码,生成所述目标文本对应的目标语音;通过各预训练语言模型生成语音,并通过自然语言便捷、精确的控制文本所要生成的语音风格,增加了语音风格控制的多样化,提高语音生成质量。
-
公开(公告)号:CN115938390B
公开(公告)日:2023-06-30
申请号:CN202310017442.6
申请日:2023-01-06
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种生成语音鉴别模型的连续学习方法、装置和电子设备,生成语音鉴别模型的连续学习方法包括:获取源数据集,根据源数据集,确定第一数据模型;获取目标数据集,根据目标数据集,对第一数据模型进行梯度修正,以得到第二数据模型;对第二数据模型进行正则化修正,以得到目标数据模型。
-
公开(公告)号:CN114495898B
公开(公告)日:2022-07-01
申请号:CN202210395964.5
申请日:2022-04-15
Applicant: 中国科学院自动化研究所
IPC: G10L13/02 , G10L13/027 , G10L13/08
Abstract: 本发明提出一种统一的语音合成与语音转换的训练方法和系统。其中,方法包括:将语音合成和语音转换的编码任务解耦成三个子任务,分别为内容信息的提取、说话人信息的提取和韵律信息的提取;所述内容信息是与说话人无关的语言信息;所述说话人信息包括:说话人的特征;所述韵律信息表示说话人如何说出内容信息,反映语音的节奏;将提取得到的所述内容信息、说话人信息和韵律信息输入解码任务,得到还原的语音信息。本发明提出的方案,将语音合成与语音转换模型进行了统一,避免了独立搭建的困难;使用无标注的语音提高语音合成与语音转换的性能。
-
-
-
-
-
-
-
-
-