-
公开(公告)号:CN113450775A
公开(公告)日:2021-09-28
申请号:CN202010161930.0
申请日:2020-03-10
Applicant: 富士通株式会社
Abstract: 本公开内容涉及模型训练装置、模型训练方法及存储介质。根据一个实施例,该模型训练装置包括:提取单元,被配置成提取样本特征;第一训练单元,被配置成使用第一声音事件样本集训练单声音事件检测模型;检测单元,被配置成针对第二声音事件样本集中的每个第二声音事件样本,通过使用训练过的单声音事件检测模型,基于第二样本特征检测第二声音事件样本来确定相应检测结果;第二训练单元,被配置成使用第一样本特征、第二样本特征及相应检测结果训练多声音事件检测模型。本公开内容的方法、装置和存储介质至少能有助于实现以下效果之一:使对多声音事件检测模型的训练变得容易,以及有利于得到具有期望的准确度的多声音事件检测模型。
-
公开(公告)号:CN112819020A
公开(公告)日:2021-05-18
申请号:CN201911119156.0
申请日:2019-11-15
Applicant: 富士通株式会社
Abstract: 公开了一种训练分类模型的方法和装置及分类方法。训练分类模型的方法包括:使用第一样本集和第二样本集对分类模型进行训练,以计算分类模型的分类损失;提取第一样本集和第二样本集中的每个样本的权重向量和特征向量;计算第一样本集中的所有样本的权重向量的平均权重向量和第一样本集中的所有样本的特征向量的平均特征向量;基于第二样本集中的每个样本的权重向量与平均权重向量之间的差来计算权重损失,并且基于第二样本集中的每个样本的特征向量与平均特征向量之间的差来计算特征损失;基于特征损失和权重损失中的至少一个和分类损失来计算分类模型的总损失;以及基于总损失来调整分类模型的参数,直到满足预定条件,以获得经训练的分类模型。
-
公开(公告)号:CN111696572A
公开(公告)日:2020-09-22
申请号:CN201910188493.9
申请日:2019-03-13
Applicant: 富士通株式会社
IPC: G10L21/0272 , G10L25/30
Abstract: 公开了一种语音分离装置、方法及介质,所述语音分离装置包括:预处理单元,其对包含预定数目的语音信号混合而成的混合语音信号进行预处理以得到混合表达;多分支网络,其具有多个分支,每个分支使用不同的感受野处理所述混合表达以获取不同时间尺度的信息;分支权重网络,其基于所述混合语音信号为所述多分支网络中的每个分支的结果分配权重,其中,所述多分支网络基于获取的不同时间尺度的信息和为每个分支的结果分配的权重得到估计特征;掩模生成单元,其基于所述估计特征针对所述预定数目的语音中的每一个生成掩模;以及分离单元,其基于所述掩模和所述混合表达生成分离的语音信号。
-
-
公开(公告)号:CN111582009A
公开(公告)日:2020-08-25
申请号:CN201910124176.0
申请日:2019-02-19
Applicant: 富士通株式会社
Abstract: 公开了一种训练分类模型的装置和方法及利用分类模型分类的装置。训练分类模型的装置包括:特征提取单元,被配置成针对第一预定数量的训练集中的每个训练集分别设置特征提取层,并且提取样本图像的特征,至少两个训练集至少部分重叠;特征融合单元,被配置成针对训练集分别设置特征融合层,并且对样本图像的所提取出的特征进行融合;以及损失确定单元,被配置成针对每个训练集分别设置损失确定层,并且基于样本图像的融合后的特征来计算样本图像的损失函数,并基于损失函数来训练分类模型,其中,第一预定数量的训练集共享针对每个训练集分别设置的特征融合层和特征提取层中的至少一个层。
-
公开(公告)号:CN107273899B
公开(公告)日:2020-08-14
申请号:CN201610213567.6
申请日:2016-04-07
Applicant: 富士通株式会社
Abstract: 本发明公开了一种对象分类方法和对象分类设备。该方法包括:获得包含对象的输入图像中的每一个块的特征向量;基于预定义的字典,构建与每一个块的特征向量对应的稀疏向量,所述稀疏向量的非零元素的分布表明对应块是否属于对象所在的区域;合并属于对象所在区域的块对应的稀疏向量,以得到表明对象所在区域的合并向量;以及根据所述合并向量,确定对象的种类。
-
公开(公告)号:CN111128222A
公开(公告)日:2020-05-08
申请号:CN201811276692.7
申请日:2018-10-30
Applicant: 富士通株式会社
IPC: G10L21/0272 , G10L25/30
Abstract: 本发明涉及一种语音分离方法,包括:使用基于核的至少一个卷积滤波器对语音数据进行第一卷积运算;对经第一卷积运算的数据执行降采样;使用激活函数处理经降采样后的数据;对经激活函数处理后的数据进行第二卷积运算;通过应用至少一个深度神经网络模型识别经第二卷积运算后的数据与讲话人间的对应关系;根据对应关系提取与讲话人对应的数据;使用全连接层处理所提取的数据;对经全连接层处理的数据分别进行第二卷积运算的逆运算和第一卷积运算的逆运算以生成对应于讲话人的语音数据。
-
-
公开(公告)号:CN105095215B
公开(公告)日:2019-05-10
申请号:CN201410163389.1
申请日:2014-04-22
Applicant: 富士通株式会社
IPC: G06F16/9535 , G06F16/583
Abstract: 本发明实施例提供一种信息获取装置、方法以及服务器,该装置包括:训练单元,训练数据库中的多个数据库图像,获得有关聚类频率的索引;接收单元,接收待识别图像;第一提取单元,提取待识别图像的特征;第一计算单元,根据提取的特征计算待识别图像的聚类频率分布;第二计算单元,根据聚类频率分布以及索引,计算待识别图像与数据库图像的聚类频率分布的距离;识别单元,根据该距离识别出与待识别图像相似的图像,并获得待识别图像的相关信息;发送单元,发送待识别图像的相关信息。通过将地点的图像作为待识别图像进行识别并获取相关信息,不需要知晓关于地点的关键词,就能够快速且准确的获取与该地点相关的信息。
-
公开(公告)号:CN106548466B
公开(公告)日:2019-03-29
申请号:CN201510591091.5
申请日:2015-09-16
Applicant: 富士通株式会社
IPC: G06T5/50
Abstract: 本发明公开了一种三维重建对象的方法和设备。该三维重建对象的方法包括:获得三维空间中体素的初始局部截断有向距离函数TSDF值;求解最优化问题,以得到体素的一个全局TSDF值;以及基于所得到的全局TSDF值,三维重建所述对象;其中,在所述最优化问题中,一个体素的全局TSDF值基于该体素的最终局部TSDF值得到,一个体素的最终局部TSDF值等于该体素经刚性变换对应的体素的初始局部TSDF值,变量是体素的全局TSDF值和刚性变换的参数,代价函数与下列因素相关:体素的全局TSDF值与该体素经刚性变换对应的体素的初始局部TSDF值的差的平方和。
-
-
-
-
-
-
-
-
-