-
公开(公告)号:CN114155875A
公开(公告)日:2022-03-08
申请号:CN202210120276.8
申请日:2022-02-09
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种语音场景篡改鉴别的方法、装置、电子设备及存储介质,所述语音场景篡改鉴别的方法,包括以下步骤:提取输入的待鉴别音频的对数功率谱的声学特征;将提取的待鉴别音频的对数功率谱的声学特征输入预先训练的语音场景篡改识别模型中,输出待鉴别音频场景是否被篡改的结果,其中,所述语音场景篡改识别模型由语音场景篡改后的音频与原始语音数据按照预设比例混合作为训练集训练得到的,本申请能够通过待鉴别音频的对数功率谱识别出语音的篡改,特别是能够应用于语音场景的篡改,从而应对语音场景篡改这一手段的危害。
-
公开(公告)号:CN113920989A
公开(公告)日:2022-01-11
申请号:CN202111516645.7
申请日:2021-12-13
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种语音识别与语音翻译端到端系统及电子设备,其中,系统包括:声学编码器、多任务解码器和语义不变性约束模块,同时完成识别系统与翻译系统这两个任务,另外根据不同任务的文本语义相同特点,对模型施加语义约束,学习高层次语义信息,语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题,同时模型的计算代价低,实时性很高;同时利用不同任务之间文本的语义一致性特点,对模型施加语义约束,学习高层次语义信息。
-
公开(公告)号:CN113808579A
公开(公告)日:2021-12-17
申请号:CN202111383856.8
申请日:2021-11-22
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种生成语音的检测方法、装置、电子设备及存储介质,上述方法包括:获取待检测语音,并提取所述待检测语音的第一声学特征和第二声学特征;将所述第一声学特征输入语音识别模型,输出所述第一声学特征对应的文本序列;分别通过词嵌入模型与语音嵌入模型提取所述文本序列的词向量和音向量;对所述词向量和所述音向量进行拼接处理,得到第一融合特征,并将所述第一融合特征输入韵律节奏预测模型,输出韵律节奏特征;对所述第二声学特征和所述韵律节奏特征进行所述拼接处理,得到第二融合特征,并将所述第二融合特征输入语音检测模型,输出语音检测结果。
-
公开(公告)号:CN113284485B
公开(公告)日:2021-11-09
申请号:CN202110777611.7
申请日:2021-07-09
Applicant: 中国科学院自动化研究所
IPC: G10L15/06 , G10L15/02 , G10L15/183 , G10L15/26
Abstract: 本发明提供通用的统一中英混合文本生成和语音识别的端到端系统,包括:声学编码器、音素编码器、判别器和解码器;所述音素编码器和所述判别器构成生成对抗网络,所述音素编码器作为所述生成对抗网络的生成器,所述判别器为所述生成对抗网络的判别器,所述声学编码器作为所述生成对抗网络的真实数据输入,以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示,所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示,再将所述解码表示输入到softmax函数得到概率最大的输出目标。
-
公开(公告)号:CN113555037A
公开(公告)日:2021-10-26
申请号:CN202111103012.3
申请日:2021-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种篡改音频的篡改区域的检测方法、装置及存储介质,上述方法包括:获取待检测信号,并提取所述待检测信号的声学特征;将所述声学特征输入篡改区域检测模型,输出每帧所述待检测信号的标签,其中,所述篡改区域检测模型已通过训练,学习并保存有所述声学特征和所述标签的对应关系,所述标签用于表示所述待检测信号中每一帧信号是否被篡改;通过平均平滑策略对所述篡改区域检测模型输出的连续多帧所述待检测信号的标签进行处理,得到所述待检测信号被篡改的起始位置和终止位置。采用上述技术手段,解决现有技术中,根据音频的局部信息检测音频的篡改区域时,现有技术对音频的篡改区域检测准确率低的问题。
-
公开(公告)号:CN113257248A
公开(公告)日:2021-08-13
申请号:CN202110675286.3
申请日:2021-06-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种流式和非流式混合语音识别系统,包括:流式编码器、联结时序分类解码器和注意力机制解码器;流式编码器采用基于局部自注意力机制的Transformer来进行构建;联结时序分类解码器包含一个线性映射层,负责将编码状态映射到预先设计好的词表空间,使编码状态映射表示的维度与词表空间的维度相同,然后通过Softmax计算预测到的标记,用于流式解码;注意力机制解码器采用Transformer解码器来构建,由前端卷积层和多层重复的单向Transformer编码层组成,最后一层为线性映射层,使编码状态映射表示的维度与词表空间的维度相同,并计算最终输出的概率。
-
公开(公告)号:CN113254670A
公开(公告)日:2021-08-13
申请号:CN202110665550.5
申请日:2021-06-16
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于力导向的知识图谱可视化方法,包括:知识图谱数据提取包括:知识图谱构建和知识图谱查询;构造图数据结构:对构建好的知识图谱查询得到的相关的节点和关系进行图数据结构格式转换;力导向算法布局:随机初始化所有节点在屏幕中的坐标;把节点作为电子,使节点彼此之间存在斥力;把关系作为弹簧,使节点彼此之间存在引力;在斥力和引力的作用下迭代n次,最终达到平衡状态,得到所有节点的稳定坐标;可视化呈现:根据所有节点的稳定坐标,分别绘制节点以及节点之间的连线,得到最终知识图谱;运算流程可视化交互:通过最终知识图谱,为每个节点和关系绑定监听事件,使用户能通过鼠标操作节点和关系。
-
公开(公告)号:CN113178199A
公开(公告)日:2021-07-27
申请号:CN202110727936.4
申请日:2021-06-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于相位偏移检测的数字音频篡改取证方法,包括:将待鉴别信号与时间标签做乘积,得到待鉴别信号的调制信号;再对所述待鉴别信号和所述调制信号进行短时傅里叶变换,得到鉴别信号功率谱和调制信号功率谱;应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征;对所述群延迟特征做均值计算,再应用均值计算结果做平滑计算,得到当前帧信号的相位信息;应用所述当前帧信号的相位信息计算动态阈值,在应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改。
-
公开(公告)号:CN106875942B
公开(公告)日:2021-01-22
申请号:CN201611232996.4
申请日:2016-12-28
Applicant: 中国科学院自动化研究所
IPC: G10L15/16 , G10L15/02 , G10L15/06 , G10L15/065 , G10L17/02
Abstract: 本发明属于语音识别技术领域,具体涉及一种基于口音瓶颈特征的声学模型自适应方法。为了能够实现针对不同口音的用户,进行个性化定制声学模型,本发明提供的方法包括下列步骤:S1基于第一深度神经网络,以多个口音音频数据的声纹拼接特征作为训练样本,得到深度口音瓶颈网络模型;S2、基于所述深度口音瓶颈网络,获取所述口音音频数据的口音拼接特征;S3、基于深度第二神经网络,以多个所述口音音频数据的所述口音拼接特征作为训练样本,得到口音独立的基线声学模型;S4、利用特定的口音音频数据的所述口音拼接特征对所述口音独立的基线声学模型的参数进行调整,生成口音依赖的声学模型。通过本发明的方法,提高了带口音语音识别的准确率。
-
公开(公告)号:CN106531157B
公开(公告)日:2019-10-22
申请号:CN201610971766.3
申请日:2016-10-28
Applicant: 中国科学院自动化研究所
Abstract: 本发明公开了一种语音识别中的正则化口音自适应方法,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化目标函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。本发明中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。
-
-
-
-
-
-
-
-
-