-
公开(公告)号:CN117765590A
公开(公告)日:2024-03-26
申请号:CN202311785920.4
申请日:2023-12-22
Applicant: 华中科技大学
IPC: G06V40/16 , G06V10/80 , G06V10/82 , G06V10/26 , G06V10/764 , G06V20/70 , G06N3/045 , G06N3/084 , G06N3/092
Abstract: 本发明公开一种基于Transformer的面部注视估计方法:(1)训练基于朴素视觉Transformer的强化融合的注视估计算法模型,包括:(1.1)对原始数据集中的所有图片的面部特征区域进行识别和标注,以进行数据清理并得到带有统一高精度标注的标准数据集,标签为实例级别的包围框的左上及右下顶点;(1.2)构建基于朴素视觉Transformer的强化融合的面部注视特征提取架构,利用多重面部注视特征编码及特征间长距离建模提取及融合特征语义信息;(1.3)利用上述提取出的强化语义信息融合的面部注视特征进行注视估计;(2)利用上述训练好的模型进行注视估计。本发明通过对突出面部局部特征信息和全局特征信息间的强化融合,更完整且精确的提取面部特征信息以进行注视估计。