-
公开(公告)号:CN116522212B
公开(公告)日:2023-09-26
申请号:CN202310815657.2
申请日:2023-07-05
Applicant: 清华大学
IPC: G06F18/24 , G06N3/045 , G06N3/0455 , G06N3/048 , G06N3/08 , G06V10/44 , G06V10/764 , G06V10/82 , G06F16/33 , G06F16/35 , G06F16/75 , G06F16/783 , G06F18/25
Abstract: 本公开涉及一种基于图像文本融合的谎言检测方法、装置、设备及介质,上述谎言检测方法包括:对待测用户的视频数据进行帧采样和语音转换文本处理,得到多个视频帧图像和文本;基于预训练好的时空Transformer模型,对上述多个视频帧图像进行特征提取,得到包含时空融合维度的视觉图像特征;基于预训练好的文本特征提取模型,对上述文本进行特征提取,得到文本特征;基于预训练好的特征融合模型,将上述视觉图像特征和上述文本特征进行融合,得到融合特征;将上述融合特征输入至预训练好的分类模型中,输出得到上述待测用户的谎言检测结果。该方法有助于提升谎言检测的准确度,相较于三种模态或更多模态而言有效降低谎言检测过程中的复杂度。
-
公开(公告)号:CN116522212A
公开(公告)日:2023-08-01
申请号:CN202310815657.2
申请日:2023-07-05
Applicant: 清华大学
IPC: G06F18/24 , G06N3/045 , G06N3/0455 , G06N3/048 , G06N3/08 , G06V10/44 , G06V10/764 , G06V10/82 , G06F16/33 , G06F16/35 , G06F16/75 , G06F16/783 , G06F18/25
Abstract: 本公开涉及一种基于图像文本融合的谎言检测方法、装置、设备及介质,上述谎言检测方法包括:对待测用户的视频数据进行帧采样和语音转换文本处理,得到多个视频帧图像和文本;基于预训练好的时空Transformer模型,对上述多个视频帧图像进行特征提取,得到包含时空融合维度的视觉图像特征;基于预训练好的文本特征提取模型,对上述文本进行特征提取,得到文本特征;基于预训练好的特征融合模型,将上述视觉图像特征和上述文本特征进行融合,得到融合特征;将上述融合特征输入至预训练好的分类模型中,输出得到上述待测用户的谎言检测结果。该方法有助于提升谎言检测的准确度,相较于三种模态或更多模态而言有效降低谎言检测过程中的复杂度。
-
公开(公告)号:CN117473397B
公开(公告)日:2024-03-19
申请号:CN202311785908.3
申请日:2023-12-25
Applicant: 清华大学
IPC: G06F18/241 , G06F18/214 , G06F18/25 , G06V10/44 , G06V20/40 , G10L25/63 , G10L25/30
Abstract: 本发明提出一种基于扩散模型数据增强的情感识别方法和系统。其中,方法包括:从视频中提取音频数据的语谱图,将语谱图输入基于深度学习的音频情感特征生成模型,生成音频情感特征;再将视频帧输入基于深度学习的视频情感特征生成模型,提取图像特征;然后对图像特征进行归一化,得到视频情感特征;应用音频情感特征和视频情感特征作为输入,训练基于深度学习的扩散模型;应用训练好的扩散模型进行数据增强,生成扩展数据集;应用扩展数据集训练基于深度学习的情感识别模型;将训练好的情感识别模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。本发明提出的方案能够提升模型的泛化性能,从而提高实际情感识别的效果。
-
公开(公告)号:CN117473397A
公开(公告)日:2024-01-30
申请号:CN202311785908.3
申请日:2023-12-25
Applicant: 清华大学
IPC: G06F18/241 , G06F18/214 , G06F18/25 , G06V10/44 , G06V20/40 , G10L25/63 , G10L25/30
Abstract: 本发明提出一种基于扩散模型数据增强的情感识别方法和系统。其中,方法包括:从视频中提取音频数据的语谱图,将语谱图输入基于深度学习的音频情感特征生成模型,生成音频情感特征;再将视频帧输入基于深度学习的视频情感特征生成模型,提取图像特征;然后对图像特征进行归一化,得到视频情感特征;应用音频情感特征和视频情感特征作为输入,训练基于深度学习的扩散模型;应用训练好的扩散模型进行数据增强,生成扩展数据集;应用扩展数据集训练基于深度学习的情感识别模型;将训练好的情感识别模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。本发明提出的方案能够提升模型的泛化性能,从而提高实际情感识别的效果。
-
-
-