-
公开(公告)号:CN108268948A
公开(公告)日:2018-07-10
申请号:CN201710001199.3
申请日:2017-01-03
Applicant: 富士通株式会社
Abstract: 本发明涉及数据处理装置和数据处理方法。根据本发明的数据处理装置包括:提取单元,用于从多个训练音频数据中的每个训练音频数据提取训练音频数据的i向量;划分单元,用于将i向量划分为多个簇,并计算每个簇的簇心;计算单元,用于计算每个训练音频数据的i向量与每个簇的簇心之间的距离;以及训练单元,用于训练深度神经网络DNN模型,其中,训练单元将每个训练音频数据的i向量与每个簇的簇心之间的距离作为DNN模型的输出真值。使用根据本发明的数据处理装置和数据处理方法,可以训练DNN模型以输出音频数据的i向量与每个簇心之间的距离,从而减小在音频数据注册和识别过程中产生的计算量,同时能够得到更加充分的标签信息。
-
公开(公告)号:CN106557809A
公开(公告)日:2017-04-05
申请号:CN201510641501.2
申请日:2015-09-30
Applicant: 富士通株式会社
Abstract: 公开了一种神经网络系统及对该神经网络系统进行训练的方法。该神经网络系统包括:两列或更多列的串联连接的神经网络模块,其中,所述两列或更多列中的至少一列中的至少一个神经网络模块不但连接到其所属的列的上层神经网络模块而且连接到至少一个其他列的上层神经网络模块。根据本公开的实施例,该神经网络系统不仅通过列集成方法串联连接不同神经网络模块,而且可以进一步连接不同列的神经网络模块,使得不同神经网络模块优势互补,从而实现更高的性能。
-
公开(公告)号:CN105630739A
公开(公告)日:2016-06-01
申请号:CN201410601799.X
申请日:2014-10-31
Applicant: 富士通株式会社
IPC: G06F17/15
Abstract: 本发明涉及一种用于执行随机梯度下降的装置和方法。该装置包括:初始化单元,被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度;迭代单元,被配置为随机选取与训练集中的特定样本相关的分量损失函数来进行迭代,以根据所述通用常量和所述预定精度更新每次迭代的中间解,使得所述中间解更接近真实解;输出单元,被配置为在执行完所有迭代之后,输出所有中间解的加权平均作为最终解。
-
公开(公告)号:CN104978963A
公开(公告)日:2015-10-14
申请号:CN201410138192.2
申请日:2014-04-08
Applicant: 富士通株式会社
IPC: G10L15/183
Abstract: 本发明实施例提供一种语音识别装置、方法和电子设备,该装置包括:识别单元,其用于对语音进行识别,以获得候选关键词;解码单元,其结合语义信息,对所述语音中包含识别出所述候选关键词的语音的语音进行解码,以生成与所述包含识别出所述候选关键词的语音的语音对应的词语网格;计算单元,其根据所述词语网格,计算所述候选关键词的置信度;判断单元,其根据所述置信度,判断是否将所述候选关键词确定为关键词。根据本发明的实施例,能够结合语义信息,进行关键词识别,解决了相似发音导致的误识别问题。
-
公开(公告)号:CN113392967B
公开(公告)日:2024-11-08
申请号:CN202010165937.X
申请日:2020-03-11
Applicant: 富士通株式会社
IPC: G06N3/094 , G06F18/214 , G06N3/0475 , G06N3/045
Abstract: 公开了领域对抗神经网络的训练方法。该领域对抗神经网络包括:特征提取单元,其针对已标注的源数据提取第一特征,并且针对未标注的目标数据提取第二特征;标签预测单元,其基于第一特征来预测源数据的标签,并且基于第二特征来预测目标数据的标签;判别单元,其基于第一特征和第二特征来判别输入的数据是源数据还是目标数据。该训练方法包括:基于标签预测单元的输出来构建第一损失函数,其中,该第一损失函数是与源数据有关的预测损失;通过利用源数据和目标数据之间的联合概率密度比对第一损失函数加权而获得第二损失函数;利用第一损失函数和第二损失函数来训练标签预测单元和特征提取单元。
-
公开(公告)号:CN112447187B
公开(公告)日:2024-09-06
申请号:CN201910822623.X
申请日:2019-09-02
Applicant: 富士通株式会社
IPC: G10L25/30 , G06N3/0455 , G06N3/0464 , G10L15/22
Abstract: 公开了一种声音事件的识别装置,包括:编码器,其配置成将其中含有多个声音事件的声音信号转换为低维空间中的特征;以及检测器,其配置成将所述特征映射为每个声音事件的后验概率,其中,所述检测器对所述特征执行多次空洞卷积运算。根据本公开的识别装置通过端到端方式来更有效地进行自动声音事件检测。
-
公开(公告)号:CN112464966B
公开(公告)日:2024-07-02
申请号:CN201910842524.8
申请日:2019-09-06
Applicant: 富士通株式会社
IPC: G06F18/241
Abstract: 本公开提供了鲁棒性估计方法、数据处理方法和信息处理设备。鲁棒性估计方法用于估计基于训练数据集通过训练预先获得的分类模型的鲁棒性,并且包括:针对训练数据集中的每个训练样本,确定目标数据集中与该训练样本的样本相似度在预定阈值范围内的目标样本,并计算分类模型对于该训练样本的分类结果与分类模型对于所确定的目标样本的分类结果之间的分类相似度;以及基于训练数据集中各个训练样本的分类结果与目标数据集中相对应的目标样本的分类结果之间的分类相似度,确定分类模型对目标数据集的分类鲁棒性。
-
公开(公告)号:CN110349585B
公开(公告)日:2023-05-05
申请号:CN201810301678.1
申请日:2018-04-04
Applicant: 富士通株式会社
Abstract: 提供了语音认证方法和信息处理设备。信息处理设备包括处理器,处理器被配置为:从预定元素集中随机选择至少一个元素;得到被测用户对所选元素的语音输入;将被测用户对每个所选元素的语音输入输入到预训练的神经网络模型,并提取该神经网络模型的一个层的输出数据,作为能够表征被测用户身份以及该元素的综合特征;将所获得的被测用户的关于每个所选元素的综合特征与基于特定用户对该元素的语音输入利用预训练的神经网络模型获得的综合特征进行比较,以至少部分地基于综合特征比较的结果判断被测用户是否为特定用户,其中,预训练的神经网络模型是利用训练语音数据通过以识别说话人身份和预定元素集中的元素作为联合任务进行训练而获得的。
-
公开(公告)号:CN115705745A
公开(公告)日:2023-02-17
申请号:CN202110769261.X
申请日:2021-07-07
Applicant: 富士通株式会社
IPC: G06V40/16 , G06V10/778 , G06V10/82 , G06N3/0464
Abstract: 本公开涉及信息处理装置和信息处理方法。根据本公开的信息处理装置用于训练人脸活动单元识别模型。该信息处理装置包括:第一训练单元,被配置成使用第一样本数据进行训练以获得第一识别模型;以及第二训练单元,被配置成对第二样本数据进行上采样处理,并且使用经上采样的第二样本数据对第一识别模型进行进一步训练以获得人脸活动单元识别模型,其中,第一样本数据和第二样本数据中的每个表示人脸活动单元并且包括正标签样本数据和负标签样本数据,以及第一样本数据的出现频率高于第二样本数据的出现频率。根据本公开的信息处理技术,能够在保持高频类人脸活动单元的检测性能的同时,提高低频类人脸活动单元识别的性能。
-
公开(公告)号:CN114255488A
公开(公告)日:2022-03-29
申请号:CN202010947694.5
申请日:2020-09-10
Applicant: 富士通株式会社
Abstract: 本公开涉及一种图像处理装置、图像处理方法和机器可读存储介质。图像处理装置包括:信息获取单元,将输入图像划分为多个区域且获取关于多个区域中的面部动作单元的信息;动作单元特征提取单元,基于关于面部动作单元的信息对动作单元的区域提取动作单元特征;第一计算单元,计算每个动作单元的动作单元特征与各个动作单元的动作单元特征的相似度;第二计算单元,基于相似度计算的结果重新计算每个动作单元的动作单元特征;全局面部特征提取单元,基于关于面部动作单元的信息提取全局面部特征;以及分类单元,基于重新计算的动作单元特征和全局面部特征对面部动作单元分类。图像处理装置可以基于动作单元关系学习进行自动微面部表情识别。
-
-
-
-
-
-
-
-
-