-
公开(公告)号:CN113555007B
公开(公告)日:2021-12-14
申请号:CN202111116267.3
申请日:2021-09-23
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种语音拼接点检测方法及存储介质,上述方法包括:获取待检测语音,并确定所述待检测语音的高频成分和低频成分;根据所述高频成分和所述低频成分提取所述待检测语音所对应的第一倒谱特征和第二倒谱特征;以帧为单位,拼接所述待检测语音中的每一帧语音中的第一倒谱特征和第二倒谱特征,得到参数序列;将所述参数序列输入神经网络模型,输出所述待检测语音所对应的特征序列,其中,所述神经网络模型已通过训练,学习并保存有参数序列与所述特征序列之间的对应关系;根据所述特征序列对所述待检测语音进行语音拼接点检测。采用上述技术手段,解决现有技术中,通过单一的声学特征对语音拼接点进行检测,语音拼接点检测的准确率低的问题。
-
公开(公告)号:CN113407660B
公开(公告)日:2021-12-14
申请号:CN202110934216.5
申请日:2021-08-16
Applicant: 中国科学院自动化研究所
IPC: G06F16/31 , G06F16/33 , G06F16/335 , G06F16/35 , G06F40/14 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供非结构化文本事件抽取方法,包括:通过利用多阶句法树和图神经网络对文本信息进行编码,得到更为丰富和表征能力更强的词特征向量,进而提升事件检测的能力;通过构建外部本体知识,融入到候选事件论元编码环节,增加论元词汇特征编码的差异性,从而提升事件论元识别准确率。
-
公开(公告)号:CN113724693A
公开(公告)日:2021-11-30
申请号:CN202111281413.8
申请日:2021-11-01
Applicant: 中国科学院自动化研究所
Abstract: 本公开涉及一种语音判别方法、装置、电子设备及存储介质,上述方法包括:获取待判别语音;提取所述待判别语音的声学特征和语言风格特征;对所述声学特征和所述语言风格特征进行语音拼接处理,得到融合特征;将所述融合特征输入语音判别器,以判别所述待判别语音是真实语音或是生成语音。采用上述技术手段,解决现有技术中,鉴别生成语音和真实语音的准确率低,以及鉴别生成语音和真实语音的方法不具有普适性的问题。
-
公开(公告)号:CN113362814B
公开(公告)日:2021-11-09
申请号:CN202110910114.X
申请日:2021-08-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种融合组合模型信息的语音鉴别模型压缩方法,包括:采集目标模型的训练数据;提取所述目标模型的训练数据的声学特征;从目标模型的训练数据中提取样本标签信息,作为硬标签信息;同时采用前向计算方法,得到组合模型的后验概率信息;将组合模型的后验概率信息与硬标签信息进行线性插值,得到组合模型的监督概率信息;利用组合模型的监督概率信息辅助目标模型进行训练,通过最小化目标模型和组合模型的概率分布距离,得到训练后的目标模型。
-
公开(公告)号:CN113284513B
公开(公告)日:2021-10-15
申请号:CN202110841276.2
申请日:2021-07-26
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于音素时长特征的虚假语音检测方法,包括:从音频训练数据中提取声学特征;利用音频训练数据对深度学习网络进行预训练,得到预训练深度学习网络;应用预训练深度学习网络的最后n层的隐含特征作为中间变量,提取音素时长特征向量;将所述声学特征和所述音素时长特征向量作为输入,输入到判别器进行训练;应用音频测试数据,重复步骤S1‑S3,得到测试数据的声学特征和音素时长特征向量,将测试数据的声学特征和音素时长特征向量输入到训练好的判别器,得测试语音的真伪检测结果。
-
公开(公告)号:CN113270086B
公开(公告)日:2021-10-15
申请号:CN202110815743.4
申请日:2021-07-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种融合多模态语义不变性的语音识别文本增强系统,包括:声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对短时音频帧提取声学特征,将声学特征输入到声学降采样模块进行降采样,得到声学表示;将语音数据输入现有语音识别模块,得到输入文本数据,将输入文本数据输入到编码器,得到输入文本编码表示;将声学表示和所述输入文本编码表示输入到解码器融合,声学模态和文本模态的表示进行相似性约束,得到解码表示;该方法通过融合跨模态语义不变性约束损失,减少模型对数据的依赖,提高模型的性能,适用于中英混合语音识别。
-
公开(公告)号:CN113488027A
公开(公告)日:2021-10-08
申请号:CN202111046475.0
申请日:2021-09-08
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供层级分类的生成音频溯源方法及存储介质、计算机设备,包括:提取训练音频的声学特征;将所述训练音频的声学特征输入二分类模型,进行二分类模型训练,得到训练后的二分类模型;将生成的训练音频依据其生成的方法打上不同标签,再将生成的训练音频的声学特征输入多分类模型进行训练,得到训练后的多分类模型;提取测试音频的声学特征,将所述测试音频的声学特征输入所述训练后的二分类模型,进行真实/生成语音的判别,如果判别为真实,则预测终止,如果判别为生成,则将生成的测试音频的声学特征输入所述训练后的多分类模型预测其生成来源类型。
-
公开(公告)号:CN113469153A
公开(公告)日:2021-10-01
申请号:CN202111033403.2
申请日:2021-09-03
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供了一种基于微表情、肢体动作和语音的多模态情感识别方法,包括:第一步输入受试者接收某种信号的刺激的面部视频,对微表情进行识别;第二步输入受试者接收某种信号的刺激的身体视频,对肢体动作进行识别;第三步输入受试者接收某种信号的刺激的音频信号,对语音情感进行识别。将步骤第一步中的微表情识别结果和步骤第二步中肢体动作识别结果和第三步中的语音情感识别结果相融合,判断当前受试者的连续情感状态。本方法通过微表情识别出的情感和肢体动作识别和语音情感识别结果情感相结合,更准确的预测出受试者的情感状态。本发明的有益效果是:相较于现有技术,本发明可以更加准确的识别出人的真实情感。
-
公开(公告)号:CN113449084A
公开(公告)日:2021-09-28
申请号:CN202111021201.6
申请日:2021-09-01
Applicant: 中国科学院自动化研究所
IPC: G06F16/33 , G06F16/35 , G06F40/279 , G06N3/04 , G06N3/08
Abstract: 本发明提供基于图卷积的关系抽取方法,包括:语言分析预处理:借助于自然语言分析工具将数据集中的原句进行分词和依存句法分析,得到原句的分词结果,并构建得到一棵表示原句中词之间语义依存关系的依存句法树,根据依存句法树中节点间的拓扑关系生成邻接矩阵;查询词向量:通过查询词向量表可将原句的每个词转换为其对应的词向量,得到了原句的向量化表示;图卷积神经网络提取特征:将邻接矩阵和每个词的向量化表示输入图卷积网络中,学习得到特征表示;关系分类:将特征表示进行拼接后送入学习神经网络中得到最终表示,再根据特征表示获得实体对在各关系上的概率分布,预测概率最大的关系即是模型预测句子中主语实体和宾语实体存在的关系类型。
-
公开(公告)号:CN108388554B
公开(公告)日:2021-09-28
申请号:CN201810008530.9
申请日:2018-01-04
Applicant: 中国科学院自动化研究所
IPC: G06F40/30 , G06F16/335 , G06F16/35 , G06Q30/02
Abstract: 本发明涉及自然语言处理领域,具体涉及一种基于协同过滤注意力机制的文本情感识别系统,目的在于提高情感识别的正确性。本发明的情感识别系统包括:文本预处理模块、文本向量化模块、用户兴趣分析模块、句子特征提取模块、文档特征提取模块和情感分类模块。文本预处理模块对待处理的文本进行预处理;文本向量化模块生成文本的词向量表示;用户兴趣分析模块根据用户对已知产品的评分数据提取出模型注意力机制;句子特征提取模块接收文本的词向量表示和注意力机制提取句子特征;文档特征提取模块接收句子特征和注意力机制提取文档特征;情感分类模块将文档特征输入分类器进行情感类型识别。因此,文本特征的描述更加准确,提高了情感识别的效果。
-
-
-
-
-
-
-
-
-