-
公开(公告)号:CN118887582A
公开(公告)日:2024-11-01
申请号:CN202410920987.2
申请日:2024-07-10
Applicant: 重庆邮电大学
IPC: G06V20/40 , G06V10/764 , G06V10/40 , G06V10/74
Abstract: 本发明属于视频图像处理技术领域,具体涉及一种基于视觉证据的视频描述物体幻觉修正方法;包括:获取待视频描述的视频并对其进行特征提取,得到最终视频特征;采用GPT‑2模型对最终视频特征进行处理,得到视频的候选描述词;根据候选描述词得到候选视频描述文本;采用幻觉诊断模块对待描述的视频和视频描述文本进行处理,得到幻觉分类结果;采用场景图生成模型从待视频描述的视频中提取视觉关键信息,根据视觉关键信息得到结构化视觉证据;根据视频候选描述词和结构化视觉证据对幻觉分类结果中被判断为物体幻觉的词进行修正,得到高质量的视频描述文本;本发明能更好描述视觉内容中的真实物体,生成高质量的视频描述文本。