一种多人机交互场景下说话对象检测装置及方法

    公开(公告)号:CN115376187A

    公开(公告)日:2022-11-22

    申请号:CN202210966740.5

    申请日:2022-08-12

    Abstract: 本发明属于计算机技术领域,公开了一种多人机交互场景下说话对象检测装置及方法,包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块;本发明实时地采集带时间戳的彩色图像和带时间戳的音频信息;实时地通过音频帧数据进行语音识别,生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息,并在连续的图像帧中识别跟踪同一个人物;通过人脸序列数据信息与音频帧数据信息识别人群中的说话者;通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人。提升了机器人的人机交互过程中对交互的理解能力与人机交互体验。

Patent Agency Ranking