-
公开(公告)号:CN111128222B
公开(公告)日:2023-09-08
申请号:CN201811276692.7
申请日:2018-10-30
Applicant: 富士通株式会社
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明涉及一种语音分离方法,包括:使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算;对经第一卷积运算的数据执行降采样;使用激活函数处理经降采样后的数据;对经激活函数处理后的数据进行第二卷积运算;通过应用至少一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应关系;根据对应关系提取与讲话人对应的数据;使用全连接层处理所提取的数据;对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成对应于讲话人的语音数据。
-
公开(公告)号:CN109872725A
公开(公告)日:2019-06-11
申请号:CN201711267389.6
申请日:2017-12-05
Applicant: 富士通株式会社
Abstract: 本申请公开了一种多视角向量处理方法和设备。多视角向量x用于表征包含至少两个不可分立的视角的信息的对象。该方法包括:建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声∈;训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数;以及匹配步骤,利用所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数,计算两个多视角向量的各个视角分量相同和不同的似然性分量,对所计算的似然性分量进行预处理以获得近似似然性,并且依据所述近似似然性来判断两个多视角向量是否匹配。
-
公开(公告)号:CN112447187B
公开(公告)日:2024-09-06
申请号:CN201910822623.X
申请日:2019-09-02
Applicant: 富士通株式会社
IPC: G10L25/30 , G06N3/0455 , G06N3/0464 , G10L15/22
Abstract: 公开了一种声音事件的识别装置,包括:编码器,其配置成将其中含有多个声音事件的声音信号转换为低维空间中的特征;以及检测器,其配置成将所述特征映射为每个声音事件的后验概率,其中,所述检测器对所述特征执行多次空洞卷积运算。根据本公开的识别装置通过端到端方式来更有效地进行自动声音事件检测。
-
公开(公告)号:CN114170643A
公开(公告)日:2022-03-11
申请号:CN202010948016.0
申请日:2020-09-10
Applicant: 富士通株式会社
Abstract: 本公开涉及一种图像处理装置、图像处理方法和机器可读存储介质。图像处理装置包括:信息获取单元,其将输入的图像划分为多个区域,并且获取关于多个区域中的面部动作单元的信息;动作单元特征提取单元,其基于所获取的关于面部动作单元的信息来对面部动作单元的区域提取动作单元特征;全局面部特征提取单元,其基于所获取的关于面部动作单元的信息提取全局面部特征;以及分类单元,其基于动作单元特征和全局面部特征两者来对面部动作单元进行分类。该图像处理装置可以通过检测与面部的每个局部区域相对应的面部动作单元的出现来识别微表情。
-
公开(公告)号:CN113674757A
公开(公告)日:2021-11-19
申请号:CN202010402648.7
申请日:2020-05-13
Applicant: 富士通株式会社
Abstract: 本申请公开一种信息处理装置和信息处理方法。该信息处理装置包括:基础特征提取单元,被配置成提取声音的基础特征;多尺度特征提取单元,被配置成基于通过所述基础特征提取单元所提取的所述基础特征,提取所述声音的多尺度特征;初级分类单元,被配置成基于通过所述基础特征提取单元所提取的所述基础特征对所述声音进行初级分类,以获得初级分类结果;次级分类单元,被配置成基于所述声音的所述初级分类结果和所述多尺度特征对所述声音进行次级分类,以获得次级分类结果;以及分类结果融合单元,被配置成对所述声音的初级分类结果和次级分类结果进行融合,以获得所述声音的最终分类结果。
-
公开(公告)号:CN111554316A
公开(公告)日:2020-08-18
申请号:CN201910066430.6
申请日:2019-01-24
Applicant: 富士通株式会社
IPC: G10L21/0272 , G10L15/06 , G10L25/51 , G10L25/60
Abstract: 公开了一种语音处理装置,包括:生成器,其被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音;以及判别器,其被配置成区分所述分离的单一语音是否是所述原始单一语音,其中,对所述生成器和所述判别器进行训练,直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。根据本公开的装置不仅旨在最大化信号与失真比来获得更好的语音质量,其还将语音分离和提高语音质量集成到单个模型中。此外,根据本公开的装置通过这个过程执行生成性对抗训练,这使得分离的语音与真实的语音难以区分。
-
公开(公告)号:CN111524536A
公开(公告)日:2020-08-11
申请号:CN201910104232.4
申请日:2019-02-01
Applicant: 富士通株式会社
Abstract: 本公开提供了信号处理方法和信息处理设备。信息处理设备包括处理器,所述处理器被配置为:对根据声音信号获得的时频域信号按照频率方向上的多个子带进行划分,以获得与各个子带对应的子带信号;将所获得的子带信号输入到预先训练好的分类模型中;以及利用分类模型确定声音信号中所包括的声音事件的类别,其中,分类模型包括分别与各个子带相对应的多个子带模型,每个子带模型根据通过训练获得的、相对应的子带对声音事件分类的影响而对所输入的子带信号施加权重,并根据被施加权重后的子带信号输出关于声音事件的初步分类结果,以及其中,分类模型根据多个子带模型的初步分类结果输出关于声音事件的最终分类结果。
-
公开(公告)号:CN109872725B
公开(公告)日:2022-10-18
申请号:CN201711267389.6
申请日:2017-12-05
Applicant: 富士通株式会社
Abstract: 本申请公开了一种多视角向量处理方法和设备。多视角向量x用于表征包含至少两个不可分立的视角的信息的对象。该方法包括:建模步骤,建立该多视角向量的模型,使得其至少包含以下分量:所述多视角向量的总体均值μ;所述多视角向量的每一个视角的分量;以及噪声∈;训练步骤,利用所述多视角向量x的训练数据获得所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数;以及匹配步骤,利用所述总体均值μ、每一个视角的分量的参数和所述噪声∈的参数,计算两个多视角向量的各个视角分量相同和不同的似然性分量,对所计算的似然性分量进行预处理以获得近似似然性,并且依据所述近似似然性来判断两个多视角向量是否匹配。
-
公开(公告)号:CN113450775A
公开(公告)日:2021-09-28
申请号:CN202010161930.0
申请日:2020-03-10
Applicant: 富士通株式会社
Abstract: 本公开内容涉及模型训练装置、模型训练方法及存储介质。根据一个实施例,该模型训练装置包括:提取单元,被配置成提取样本特征;第一训练单元,被配置成使用第一声音事件样本集训练单声音事件检测模型;检测单元,被配置成针对第二声音事件样本集中的每个第二声音事件样本,通过使用训练过的单声音事件检测模型,基于第二样本特征检测第二声音事件样本来确定相应检测结果;第二训练单元,被配置成使用第一样本特征、第二样本特征及相应检测结果训练多声音事件检测模型。本公开内容的方法、装置和存储介质至少能有助于实现以下效果之一:使对多声音事件检测模型的训练变得容易,以及有利于得到具有期望的准确度的多声音事件检测模型。
-
公开(公告)号:CN111696572A
公开(公告)日:2020-09-22
申请号:CN201910188493.9
申请日:2019-03-13
Applicant: 富士通株式会社
IPC: G10L21/0272 , G10L25/30
Abstract: 公开了一种语音分离装置、方法及介质,所述语音分离装置包括:预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。
-
-
-
-
-
-
-
-
-