-
公开(公告)号:CN115620356A
公开(公告)日:2023-01-17
申请号:CN202211019716.7
申请日:2022-08-24
Applicant: 之江实验室
IPC: G06V40/16 , G06V40/20 , G06V20/40 , G06V10/82 , G06F18/25 , G06N3/0464 , G06N3/047 , G06N3/08 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/22 , G10L25/03 , G10L25/24
Abstract: 本发明属于视听处理、机器学习技术领域,公开了一种基于音频和面部输入的受话方检测框架和方法,前端包括音频流编码器和视频流编码器;后端包括交叉注意力模块;双线性融合模块以及自注意力模块;本发明框架输入可变长度的音频和面部区域信息,并通过联合分析音频和面部特征,预测每帧中的受话方。它使用在人对人和人对机器人混合设置中记录的数据集。因此,所述框架可应用并适用于机器人,以区分机器人是否为受话方。使得机器人具有智能视听感知能力,提高了机器人智能化程度。