-
公开(公告)号:CN113032516B
公开(公告)日:2021-08-31
申请号:CN202110581624.7
申请日:2021-05-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/31 , G06F16/35 , G06F16/36 , G06F40/289 , G06F40/295 , G06K9/62
Abstract: 本发明提供基于近似本体匹配的知识图谱融合方法,包括:对待融合的知识图谱的集合进行初始化,构建倒排索引,依据所述倒排索引获取本体的共现情况,获取近似匹配本体,根据近似匹配本体提取候选实体对,在名称候选实体对集合和近似匹配本体集合中计算候选实体对在属性上的相似度,根据相似度向量的分量对候选实体初步判别,利用实体的文本特征对所述歧义实体和近义实体进行二次筛选;通过对于知识图谱的本体层进行粗筛,依据筛选结果对计算过程分块,达到缩减计算规模的目的。在各块内利用属性、名称、文本等特征计算实体相似度。
-
公开(公告)号:CN113299315A
公开(公告)日:2021-08-24
申请号:CN202110852843.4
申请日:2021-07-27
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种无需原始数据存储的持续性学习生成语音特征的方法,包括:采集音频数据,提取音频声学特征,得到线性倒谱系数特征;应用所述线性倒谱系数特征对深度学习网络模型进行训练,得到源域模型;在源域模型的训练损失函数基础上加入了正则化损失,约束模型参数优化的方向,应用新采集的音频数据对所述源域模型进行模型参数更新,得到目标域模型。
-
公开(公告)号:CN113284508A
公开(公告)日:2021-08-20
申请号:CN202110827718.8
申请日:2021-07-21
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供基于层级区分的生成音频检测系统,包括:音频预处理模块、CQCC特征提取模块、LFCC特征提取模块、第一阶段轻量初步筛选模型和第二阶段深度鉴别模型;音频预处理模块对采集到的音视频数据进行数据预处理,得到长度不超过限定的音频片段;将音频片段分别输入CQCC特征提取模块和LFCC特征提取模块,得到CQCC特征和LFCC特征;将CQCC特征或者LFCC特征输入第一阶段轻量初步筛选模型进行第一阶段筛选,筛选出第一阶段真实语音和第一阶段生成语音;将第一阶段生成语音的CQCC特征或者LFCC特征输入所述第二阶段深度鉴别模型,鉴别出第二阶段真实语音和第二阶段生成语音,第二阶段生成语音确认为生成语音。
-
公开(公告)号:CN113284485A
公开(公告)日:2021-08-20
申请号:CN202110777611.7
申请日:2021-07-09
Applicant: 中国科学院自动化研究所
IPC: G10L15/06 , G10L15/02 , G10L15/183 , G10L15/26
Abstract: 本发明提供通用的统一中英混合文本生成和语音识别的端到端框架,包括:包括:声学编码器、音素编码器、判别器和解码器;所述音素编码器和所述判别器构成生成对抗网络,所述音素编码器作为所述生成对抗网络的生成器,所述判别器为所述生成对抗网络的判别器,所述声学编码器作为所述生成对抗网络的真实数据输入,以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示,所述解码器将所述声学编码表示和所述音素编码表示融合,得到解码表示,再将所述解码表示输入到softmax函数得到概率最大的输出目标。
-
公开(公告)号:CN113270086A
公开(公告)日:2021-08-17
申请号:CN202110815743.4
申请日:2021-07-19
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种融合多模态语义不变性的语音识别文本增强系统,包括:声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器;声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧,对短时音频帧提取声学特征,将声学特征输入到声学降采样模块进行降采样,得到声学表示;将语音数据输入现有语音识别模块,得到输入文本数据,将输入文本数据输入到编码器,得到输入文本编码表示;将声学表示和所述输入文本编码表示输入到解码器融合,声学模态和文本模态的表示进行相似性约束,得到解码表示;该方法通过融合跨模态语义不变性约束损失,减少模型对数据的依赖,提高模型的性能,适用于中英混合语音识别。
-
公开(公告)号:CN112580617B
公开(公告)日:2021-06-18
申请号:CN202110222926.5
申请日:2021-03-01
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及自然场景下的表情识别方法和装置,具体方法包括:数据切分:将输入视频按指定帧率转化为视频帧序列,并进行人脸表情标注,得到视频帧标注序列;视频帧标注序列预处理:对视频帧标注序列进行消除光照、剔除非人脸的区域和消除头部姿态对人脸表情的影响,得到表情视频帧序列,对表情视频帧序列进行扩增,得到视频预处理帧序列;从视频预处理帧序列中提取表征面部外观和形状特征的定向梯度直方图特征、提取面部褶皱程度的二阶特征和使用深度神经网络提取像素级深度神经网络特征;再进行向量融合,得到用于训练的面部特征融合向量;将所述面部特征融合向量输入支持向量机做表情分类。
-
公开(公告)号:CN109346056B
公开(公告)日:2021-06-11
申请号:CN201811102108.6
申请日:2018-09-20
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及语音合成技术领域,具体涉及一种基于深度度量网络的语音合成方法及装置,旨在解决如何得到更为精确的目标代价以及品质更高的合成语音的技术问题。该方法包括将待测文本信息拆分为多个文本基元,提取文本基元的文本特征;从语料库中获取对应的多个候选基元,并提取每个候选基元对应的文本特征和声学特征;对文本基元的文本特征进行编码得到第一特征向量,对候选基元的文本特征和声学特征进行编码得到第二特征向量;计算文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,获取目标代价;利用语音合成系统根据目标代价对候选基元进行拼接合成语音。上述方法可以提升合成语音的品质。
-
公开(公告)号:CN112560830B
公开(公告)日:2021-05-25
申请号:CN202110214208.3
申请日:2021-02-26
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及多模态维度情感识别方法,包括:输入待测样本的音频、视频及对应的文本,得到帧级别的音频特征、帧级别的视频特征和帧级别的文本特征;利用时序卷积网络对帧级别的音频特征、帧级别的视频特征和帧级别的文本特征分别进行时序上下文建模,得到上下文音频特征、上下文视频特征和上下文文本特征;利用门控注意力机制对上下文音频特征、上下文视频特征和上下文文本特征进行加权融合,得到多模态特征;将多模态特征、上下文音频特征、上下文视频特征和上下文文本特征进行拼接,得到拼接特征,然后再次利用时序卷积网络对所述拼接特征进行时序上下文建模,得到上下文拼接特征;对上下文拼接特征进行回归预测,得到最终的维度情感预测结果。
-
公开(公告)号:CN112687390A
公开(公告)日:2021-04-20
申请号:CN202110270093.X
申请日:2021-03-12
Applicant: 中国科学院自动化研究所
Abstract: 本申请涉及一种基于混合网络和lp范数池化的抑郁状态检测方法及装置,包括:对长时语音的对数傅里叶幅值谱进行切割,得到由短时谱段构成的短时谱段集合;将短时谱段输入到卷积神经网络和长短期记忆网络中进行训练,得到空间特征和时序特征,并将空间特征和时序特征的拼接作为短时谱段的时空特征表示;得到所有短时谱段的时空特征表示,排列成矩阵的形式,计算其lp范数池化结果;将lp范数池化结果放入到套索回归框架下进行优化以找到适合于抑郁检测任务的范数池化类型和线性变换矩阵;利用优化结果对所有短时谱段进行特征选择,生成长时谱表示;将混合网络预测结果的中值和长时谱表示经过支持向量回归得到的结果取平均值作为最终的预测结果。
-
公开(公告)号:CN112668342A
公开(公告)日:2021-04-16
申请号:CN202110024800.7
申请日:2021-01-08
Applicant: 中国科学院自动化研究所
Abstract: 本申请实施例涉及一种基于孪生网络的远程监督关系抽取降噪系统,旨在旨在降低远程监督回标训练数据的噪声影响,同时减少训练数据损失的情况。该系统包括:文本分析模块,关系选择器训练模块,关系选择模块,噪声数据聚类模块,关系分类模块;所述文本分析模块用于接收远程监督回标文本数据,输出初始候选数据和初始高可信度数据;所述关系选择器训练模块用于利用标注好的文本数据训练出基于孪生网络的关系选择器;所述关系选择模块用于对初始候选数据和初始高可信度数据进行关系选择,输出噪声数据和新增高可信度数据;所述噪声聚类模块用于对噪声数据进行聚类分析,输出新增候选数据,所述关系分类模块用于输出最后的分类结果。
-
-
-
-
-
-
-
-
-