-
公开(公告)号:CN110444220B
公开(公告)日:2023-02-10
申请号:CN201910705872.0
申请日:2019-08-01
Applicant: 浙江大学
IPC: G10L21/02 , G10L21/0216 , G10L21/0224 , G10L21/0232 , G10L21/028 , G10L21/055 , G10L25/45 , G10L25/57 , G10L15/22 , G10L15/24 , H04N7/14 , H04N7/18
Abstract: 本发明公开了一种多模态远程语音感知方法及装置。所述感知方法包括:利用矩形麦克风阵列和摄像头,采集语音和视频信号。对目标语音信号利用波束形成进行初步到达角估计,以获得粗略的声源方位。利用声源方位初步信息,驾驶摄像头正对声源方向。基于初始视频数据建立背景模型,进行前景检测和背景更新。将前景对应的高精度方位参数传输给波束形成模块,波束形成在该方位的输出,即增强的语音信号。
-
公开(公告)号:CN110444220A
公开(公告)日:2019-11-12
申请号:CN201910705872.0
申请日:2019-08-01
Applicant: 浙江大学
IPC: G10L21/02 , G10L21/0216 , G10L21/0224 , G10L21/0232 , G10L21/028 , G10L21/055 , G10L25/45 , G10L25/57 , G10L15/22 , G10L15/24 , H04N7/14 , H04N7/18
Abstract: 本发明公开了一种多模态远程语音感知方法及装置。所述感知方法包括:利用矩形麦克风阵列和摄像头,采集语音和视频信号。对目标语音信号利用波束形成进行初步到达角估计,以获得粗略的声源方位。利用声源方位初步信息,驾驶摄像头正对声源方向。基于初始视频数据建立背景模型,进行前景检测和背景更新。将前景对应的高精度方位参数传输给波束形成模块,波束形成在该方位的输出,即增强的语音信号。
-