-
公开(公告)号:CN118590665A
公开(公告)日:2024-09-03
申请号:CN202410831266.4
申请日:2024-06-26
Applicant: 北京工业大学
IPC: H04N19/587 , H04N19/51 , H04N19/167
Abstract: 本发明公开了一种基于事件相机重建参考的多模态视频插帧方法,首先通过事件生成模型从高速视频中生成事件流并与帧在时间尺度上对齐,保证训练过程中能够在任意时刻进行视频内插帧。事件流被处理为体素以及事件关注掩码,体素被输入参考帧重建网络生成参考帧。经过事件关注掩码策略处理的参考帧和视频帧一起输入基于参考帧的合成网络进行双向对齐,从而合成粗插入帧。最后将粗插入帧、事件体素以及两个视频关键帧一起被输入插入帧细化网络来生成清晰的插入帧。本发明利用基于事件的参考直接合成中间帧,避免了显式运动估计的必要性,从而大大增强了处理运动遮挡的能力。
-
公开(公告)号:CN118823342A
公开(公告)日:2024-10-22
申请号:CN202410831267.9
申请日:2024-06-26
Applicant: 北京工业大学
IPC: G06V10/26 , G06V10/764 , G06V10/82 , G06V10/62 , G06V10/56 , G06N3/045 , G06N3/0499 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于大模型适配的多模态语义分割方法,首先对于每一对的输入数据,以RGB数据的曝光时间戳为基准,以不同的时间尺度划分事件信息,随后将事件处理为体素,和视频帧分别输入多时空尺度事件嵌入模块与SAM主干,然后将经过多时空尺度事件嵌入模块提取的时间特征输入SAM事件适配器中,与SAM中的图像信息进行交互,得到富含高质量运动信息的特征。最后特征将被输入简单的语义分割头来生成语义分割结果。本发明是端到端的,整体可以直接进行训练,之后可以使用训练的模型来处理事件‑RGB场景下的语义分割问题。本发明解决了由于RGB信息在极端场景下信息丢失的问题,并达到了比以往工作更优秀的语义分割结果。
-