-
公开(公告)号:CN118521774A
公开(公告)日:2024-08-20
申请号:CN202410803402.9
申请日:2024-06-20
Applicant: 北京航空航天大学
IPC: G06V10/25 , G06V10/20 , G06V10/34 , G06V10/40 , G06V10/764 , G06V10/766 , G06V10/762 , G06V10/74
Abstract: 本发明公开了一种基于架构无关损失的长尾目标检测方法。本发明考虑高维目标值,即目标的中心点坐标、边界框的宽高比、尺寸、边界框旋转角的长尾分布,而不仅是尺寸的长尾分布。本发明采用的网络结构设计合理,将目标检测的回归分支面临的目标位置及边界框具有长尾分布的问题考虑在内,补充了现有的长尾目标检测方法仅考虑类别的长尾分布的分析过程,提出的回归损失加权模块与网络架构无关,具有良好的迁移性。
-
公开(公告)号:CN118741263A
公开(公告)日:2024-10-01
申请号:CN202410952868.5
申请日:2024-07-16
Applicant: 北京航空航天大学
IPC: H04N21/81 , H04N21/854 , H04N21/44 , G06N3/096 , G06N3/0464 , G06N3/0455
Abstract: 本发明提供了一种基于潜在一致性模型的视频生成方法及装置,包括:获取待处理视频的信息和文本描述;对所述待处理视频第一帧进行时空条件处理,采用图像生成中的一致性蒸馏策略,结合所述时空条件处理,对现有的潜在扩散模型进行优化,对所述处理后的信息与文本描述进行潜在一致性模型训练;其中,所述潜在一致性模型训练执行前向扩散操作,生成噪声视频;将所述生成的噪声视频输入到学生模型和教师模型中,以预测去噪后的视频,最终生成视频。本发明能够有效减少视频生成过程中对大量采样步骤的需求,并保持视频在空间和运动方面的一致性,从而确保高质量视频的高效合成。
-