一种考虑空间位置的视觉大模型预训练方法

    公开(公告)号:CN118072082A

    公开(公告)日:2024-05-24

    申请号:CN202410126969.7

    申请日:2024-01-30

    Abstract: 本发明涉及人工智能图像视觉算法开发技术领域,尤其涉及一种考虑空间位置的视觉大模型预训练方法,包括:S1:输入大量图像数据,将所述图像数据分割成若干子区块并将所属子区块进行顺序编码来构建自监督标签;S2:将所述子区块打散,并将所述打散的子区块输入VI T模型进行特征提取;S3:在所述所述VI T模型的输出端将每个所述子区块映射到16*16长度的一维向量;S4:对输出的每个所述一维向量输入Softmax函数转成概率分布;S5:将所述自监督标签和所述概率分布输入交叉熵构建训练损失函数。通过设计以图像空间位置联系进行网络监督监督的预训练方式,提取图像通用语义信息,提升下游图像分类、检测精度。

Patent Agency Ranking