-
公开(公告)号:CN118692066A
公开(公告)日:2024-09-24
申请号:CN202410640322.6
申请日:2024-05-22
Applicant: 西安电子科技大学
Abstract: 本发明公开了一种高效快照压缩视频字幕生成方法,包括以下步骤:S1,获取训练数据:所述训练数据包含MSR‑VTT数据集和MSVD数据集;S2,构建深度网络模型:所述深度网络模型由教师模型和学生模型构成;S3,将训练数据输入到构建的所述教师网络模型和学生网络模型中进行训练,通过计算两个网络模型的误差值对两个网络模型的网络参数进行迭代更新,得到训练好的深度网络模型;S4,将待测试视频输入到训练好的学生网络模型中,输出图像编码,然后以逐字自回归的方式生成预测的字幕。本发明所提出的字幕生成方法在软件处理阶段不需要重构,运行速度快,处理效率高,所生成的字幕效果好。
-
公开(公告)号:CN119131477A
公开(公告)日:2024-12-13
申请号:CN202411175556.4
申请日:2024-08-26
Applicant: 西安电子科技大学
Abstract: 本发明公开了一种基于多模态知识蒸馏传输的SAR图像分类方法,涉及土地覆盖分类技术领域。本发明的基于多模态知识蒸馏传输的SAR图像分类方法,构建了一个包括教师模型和学生模型的多模态知识蒸馏模型,利用训练完成的学生模型对待测SAR图像进行分类识别。在模型在训练过程中,基于知识蒸馏传输的光学‑SAR知识迁移策略实现了不同模态图像之间以及图像文本模态之间的知识迁移,可以从遥感光学图像的教师模型中提取多级语义特征辅助SAR图像的学生模型的学习,并且以最优传输方法进行图像语义和多标签文本语义的对齐,克服了光学和SAR图像在不同环境条件下识别能力的不足,有效地提高了SAR图像多标签地物类型判别的精度。
-