Patent search ap:("武汉大学") AND inv:"李永乾" Page 1

1.

发明公开
基于上下文多尺度时空图学习的说话者检测方法与装置审中-实审

公开(公告)号：CN119169495A

公开(公告)日：2024-12-20

申请号：CN202411129094.2

申请日：2024-08-16

Applicant: 武汉大学

Inventor： 罗勇 , 李永乾

IPC: G06V20/40 , G06V40/16 , G06V40/20 , G06V10/82 , G06N3/042 , G10L25/30

Abstract: 本申请公开了基于上下文多尺度时空图学习的说话者检测方法、装置、存储介质及电子设备。该方法包括：获取视频数据，从视频数据中提取多个视频帧数据；对多个视频帧数据分别进行特征提取，得到面部表情特征、音频特征与身体语言特征；基于所述面部表情特征、所述音频特征与所述身体语言特征构建多模态动态空间‑时间图；其中，所述多模态动态空间‑时间图包括多幅图快照，所述图快照包括多个节点；将所述图快照输入到图神经网络中，得到所述图快照中每个节点的分类结果；根据所述分类结果，得到所述视频数据中的候选人的说话状态。本申请在处理复杂场景下表现出了更高的准确性和鲁棒性，为活动说话者检测领域带来了重要的技术进步和应用前景。

Patent Agency Ranking