-
公开(公告)号:CN117099136A
公开(公告)日:2023-11-21
申请号:CN202280025449.6
申请日:2022-03-17
Applicant: 微软技术许可有限责任公司
IPC: G06V10/82
Abstract: 用于对象检测的系统和方法生成与图像数据相对应的特征金字塔,并且将特征金字塔重新缩放到与特征金字塔的中值级别相对应的尺度,其中重新缩放后的特征金字塔是四维(4D)张量。4D张量被重塑为三维(3D)张量,三维(3D)张量具有包括与3D张量的不同维度相对应的尺度特征、空间特征和任务特征的单独视角。3D张量与多个注意力层一起被使用以更新与图像数据相关联的多个特征图。使用更新后的多个特征图来对图像数据执行对象检测。
-
公开(公告)号:CN118235173A
公开(公告)日:2024-06-21
申请号:CN202280072787.5
申请日:2022-09-15
Applicant: 微软技术许可有限责任公司
Abstract: 提供了用于对计算机视觉基础模型进行预训练的示例。一种代表性方法包括根据弱标记数据来整理图像‑文本对的预训练数据库。对来自图像‑文本对的文本描述的语言进行编码。使用具有移位窗口和卷积嵌入的分层视觉变换器对图像‑文本对的图像进行编码。经由统一图像‑文本对比学习、基于编码后的图像和编码后的语言来对计算机视觉基础模型进行预训练。
-