Patent search ap:("之江实验室") AND inv:"李想" Page 1

1.

发明公开
一种多人机交互场景下说话对象检测装置及方法审中-实审

公开(公告)号：CN115376187A

公开(公告)日：2022-11-22

申请号：CN202210966740.5

申请日：2022-08-12

Applicant: 之江实验室

Inventor： 林哲远 , 宛敏红 , 朱世强 , 黄敏 , 李想 , 王文

IPC: G06V40/16 , G06V10/82 , G06N3/08 , G06V10/80 , G10L17/06 , H04N5/92

Abstract: 本发明属于计算机技术领域，公开了一种多人机交互场景下说话对象检测装置及方法，包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块；本发明实时地采集带时间戳的彩色图像和带时间戳的音频信息；实时地通过音频帧数据进行语音识别，生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息，并在连续的图像帧中识别跟踪同一个人物；通过人脸序列数据信息与音频帧数据信息识别人群中的说话者；通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息，检测说话者的说话对象是否是机器人。提升了机器人的人机交互过程中对交互的理解能力与人机交互体验。

2.

发明公开
一种基于音频和面部输入的受话方检测框架和方法审中-实审

公开(公告)号：CN115620356A

公开(公告)日：2023-01-17

申请号：CN202211019716.7

申请日：2022-08-24

Applicant: 之江实验室

Inventor： 李想 , 顾建军 , 朱世强 , 宋伟 , 吴洪 , 林哲远 , 黄敏 , 汪雯 , 瑞嘉

IPC: G06V40/16 , G06V40/20 , G06V20/40 , G06V10/82 , G06F18/25 , G06N3/0464 , G06N3/047 , G06N3/08 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/22 , G10L25/03 , G10L25/24

Abstract: 本发明属于视听处理、机器学习技术领域，公开了一种基于音频和面部输入的受话方检测框架和方法，前端包括音频流编码器和视频流编码器；后端包括交叉注意力模块；双线性融合模块以及自注意力模块；本发明框架输入可变长度的音频和面部区域信息，并通过联合分析音频和面部特征，预测每帧中的受话方。它使用在人对人和人对机器人混合设置中记录的数据集。因此，所述框架可应用并适用于机器人，以区分机器人是否为受话方。使得机器人具有智能视听感知能力，提高了机器人智能化程度。

Patent Agency Ranking