-
公开(公告)号:CN118235173A
公开(公告)日:2024-06-21
申请号:CN202280072787.5
申请日:2022-09-15
Applicant: 微软技术许可有限责任公司
Abstract: 提供了用于对计算机视觉基础模型进行预训练的示例。一种代表性方法包括根据弱标记数据来整理图像‑文本对的预训练数据库。对来自图像‑文本对的文本描述的语言进行编码。使用具有移位窗口和卷积嵌入的分层视觉变换器对图像‑文本对的图像进行编码。经由统一图像‑文本对比学习、基于编码后的图像和编码后的语言来对计算机视觉基础模型进行预训练。