一种基于音视频多模态的特定人物深度伪造检测方法

    公开(公告)号:CN115661889A

    公开(公告)日:2023-01-31

    申请号:CN202211185641.X

    申请日:2022-09-27

    Abstract: 本发明公开一种基于音视频多模态的特定人物深度伪造检测方法,属于安全与数字图像取证领域,采用音视频多模态融合的算法,并结合唇读方法基于时序捕捉人脸的动态特征。本发明的步骤有:(1)提取人物音视频与唇读特征;(2)融合唇部与时序特征为面部语义特征;(3)融合面部语义特征与音频特征进入神经网络;(3)融合特征在分类器中进行真假脸的检测。本发明方法以融合音视频多模态的神经网络模型为基础,针对特定政治人物的AI换脸检测进行创新设计,满足对于指定人物检测高准确率的要求。同时,本发明方法通过提取面部时序信息捕捉人脸动态特征,参考时间维度不同人脸的平移旋转等动作,弥补了原本仅限于参考图像内容本身的特征的局限,极大提高了假脸检测的准确性。

Patent Agency Ranking