-
公开(公告)号:CN117557803A
公开(公告)日:2024-02-13
申请号:CN202311326846.X
申请日:2023-10-13
Applicant: 中国科学院信息工程研究所
IPC: G06V10/44 , G06V10/82 , G06F40/30 , G06F40/242 , G06N3/0464 , G06N3/045 , G06N3/0895
Abstract: 本发明涉及一种基于跨模态结构一致性和预训练技术的视觉语言对齐方法和系统。该方法包括:采用视觉预训练编码器和语言预训练编码器分别获取图像目标表示和对应的文本单词表示,构建视觉向量表示空间和语言向量表示空间;基于视觉语言共线关系的结构一致性,分阶段由粗到细地将视觉向量表示空间映射到语言向量表示空间,从而将图像目标表示与相应的文本单词表示进行对齐。本发明从人类的认知角度的多模态共现结构一致性出发,分三阶段从粗到细将视觉表示对齐到了上下文一致的语言表示,最终得到一个简单的线性映射层,可以很容易地和各种视觉语言结合,将视觉表示对齐到相应的语言表示,提升了模型细粒度关联视觉语言信息的能力。
-
公开(公告)号:CN117609597A
公开(公告)日:2024-02-27
申请号:CN202311151092.9
申请日:2023-09-07
Applicant: 中国科学院信息工程研究所
IPC: G06F16/9535 , G06F18/25 , G06F18/214 , G06N3/0455 , G06N3/0895 , G06Q30/0601
Abstract: 本发明提出了基于VLP输入端细粒度对齐的跨模态赞助搜索方法及系统,涉及跨模态数据搜索领域,由商品目标表示构建视觉向量表示空间,由商品描述单词嵌入构建语言单词向量表示空间,通过线性映射对齐这两个空间;基于前述线性映射构建对齐模块VALSE并进行对抗训练、结构粗略调整和语义监督的精细调整;构建Vin‑VALSE模型,参数初始化后利用训练好的VALSE替换该模型的线性映射层,然后利用跨模态赞助搜索训练数据进行微调;利用微调完成后的Vin‑VALSE对用户查询输入的文本信息进行处理,找出对应的商品信息。本发明旨在改进电商平台中商品和用户查询之间的匹配效率和准确性,尤其是在数据稀缺的条件下。
-