基于上下文多尺度时空图学习的说话者检测方法与装置

    公开(公告)号:CN119169495A

    公开(公告)日:2024-12-20

    申请号:CN202411129094.2

    申请日:2024-08-16

    Applicant: 武汉大学

    Inventor: 罗勇 李永乾

    Abstract: 本申请公开了基于上下文多尺度时空图学习的说话者检测方法、装置、存储介质及电子设备。该方法包括:获取视频数据,从视频数据中提取多个视频帧数据;对多个视频帧数据分别进行特征提取,得到面部表情特征、音频特征与身体语言特征;基于所述面部表情特征、所述音频特征与所述身体语言特征构建多模态动态空间‑时间图;其中,所述多模态动态空间‑时间图包括多幅图快照,所述图快照包括多个节点;将所述图快照输入到图神经网络中,得到所述图快照中每个节点的分类结果;根据所述分类结果,得到所述视频数据中的候选人的说话状态。本申请在处理复杂场景下表现出了更高的准确性和鲁棒性,为活动说话者检测领域带来了重要的技术进步和应用前景。

Patent Agency Ranking