-
公开(公告)号:CN110223700A
公开(公告)日:2019-09-10
申请号:CN201910043264.8
申请日:2019-01-17
Applicant: 株式会社日立制作所
Abstract: 目的是提供对于任意的人物根据声音和并不一定在讲话中被摄像的人物的图像进行讲话者推定的讲话者推定方法及讲话者推定装置。一种根据声音和图像推定讲话者的讲话者推定方法,具有:输入声音的步骤;从输入的声音中提取表示音质的特征量的步骤;输入图像的步骤;根据输入的图像进行各人物的人物区域的检测的步骤;根据检测出的各个人物区域推定表示音质的特征量的步骤;在没有检测到人物的情况下进行变更以输入来自其他的位置或角度的图像的步骤;计算从声音中提取的表示音质的特征量和根据图像的人物区域推定出的表示音质的特征量的类似度的步骤;以及根据该计算出的类似度推定讲话者的步骤。