-
公开(公告)号:CN107862060A
公开(公告)日:2018-03-30
申请号:CN201711126940.5
申请日:2017-11-15
Applicant: 吉林大学
CPC classification number: G06F17/2785 , G06F17/30743 , G10L17/02
Abstract: 本发明公开了一种追踪目标人的语义识别装置,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;麦克风阵列模块采集来自外界声场的多路音频信号并进行语音增强处理,处理后的音频信号只增强了外界声场中特定位置声源的音频信号;说话人辨识模块提取麦克风阵列模块采集的声纹特征,与目标人的声纹模型进行匹配,判断通过麦克风阵列模块增强处理后的特定声源信号是否来自于目标人;语义匹配模块识别音频中的语义信息并以一定形式输出。本发明配置了声纹提取模块和声源定位模块,可以在噪杂的外界声场中定位到目标人的声源位置,并通过音频数据缓存区和语义匹配模块将目标人的语音信号转换为目标人语义。
-
公开(公告)号:CN107333120B
公开(公告)日:2020-08-04
申请号:CN201710684083.4
申请日:2017-08-11
Applicant: 吉林大学
IPC: H04N13/204 , H04S5/00 , H04W4/02 , H04N7/15 , H04N5/232 , G10L25/24 , G10L21/0208 , G10L21/02 , G10L21/0216
Abstract: 本发明公开了一种基于麦克风阵列和立体视觉的集成传感器,包括硬件系统和控制系统;硬件系统包括麦克风阵列、立体视觉装置,麦克风阵列负责接收环境中声音信息并生成多路模拟音频;立体视觉装置负责采集环境图像。控制系统工作包括音频工作区、视频工作区和视频音频合成工作区,音频处理区负责音频去噪和声源定位、声源追踪(通过音频处理);视频处理区负责定位、追踪目标声源,即通过图像处理和图像识别对目标声源进行校准定位和精准追踪;视频音频合成区负责对音频信号增强(提高音频信号信噪比)和获取并输出视频音频信号的融合信号。
-
公开(公告)号:CN107862060B
公开(公告)日:2021-03-23
申请号:CN201711126940.5
申请日:2017-11-15
Applicant: 吉林大学
IPC: G06F40/30 , G06F16/683 , G10L17/02
Abstract: 本发明公开了一种追踪目标人的语义识别装置,包括麦克风阵列模块、说话人辨识模块、存储模块、音频数据缓存区以及语义匹配模块;麦克风阵列模块采集来自外界声场的多路音频信号并进行语音增强处理,处理后的音频信号只增强了外界声场中特定位置声源的音频信号;说话人辨识模块提取麦克风阵列模块采集的声纹特征,与目标人的声纹模型进行匹配,判断通过麦克风阵列模块增强处理后的特定声源信号是否来自于目标人;语义匹配模块识别音频中的语义信息并以一定形式输出。本发明配置了声纹提取模块和声源定位模块,可以在噪杂的外界声场中定位到目标人的声源位置,并通过音频数据缓存区和语义匹配模块将目标人的语音信号转换为目标人语义。
-
公开(公告)号:CN107333120A
公开(公告)日:2017-11-07
申请号:CN201710684083.4
申请日:2017-08-11
Applicant: 吉林大学
CPC classification number: H04N5/23229 , G10L21/02 , G10L21/0208 , G10L25/24 , H04N7/15 , H04N13/204 , H04S5/005 , H04W4/02
Abstract: 本发明公开了一种基于麦克风阵列和立体视觉的集成传感器,包括硬件系统和控制系统;硬件系统包括麦克风阵列、立体视觉装置,麦克风阵列负责接收环境中声音信息并生成多路模拟音频;立体视觉装置负责采集环境图像。控制系统工作包括音频工作区、视频工作区和视频音频合成工作区,音频处理区负责音频去噪和声源定位、声源追踪(通过音频处理);视频处理区负责定位、追踪目标声源,即通过图像处理和图像识别对目标声源进行校准定位和精准追踪;视频音频合成区负责对音频信号增强(提高音频信号信噪比)和获取并输出视频音频信号的融合信号。
-
-
-