-
公开(公告)号:CN119322859B
公开(公告)日:2025-05-13
申请号:CN202411874910.2
申请日:2024-12-19
Applicant: 浙江工商大学
IPC: G06F16/432 , G06F16/483 , G06F40/284 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0464 , G06N3/094 , G06N3/096
Abstract: 本发明公开了一种基于语义解耦和动态参数生成的跨语言跨模态检索方法,该方法引入语义解耦模块和动态适配器模块,语义解耦模块将一个句子解耦成语义相关特征和语义无关特征,根据这两个信息,能让模型对处理同个语义但是有不同表述方式的句子也能有较好的表现。动态适配器模块将语义解耦模块的输出通过低秩分解的方式融合到适配器中,将语义相关信息和语义无关信息进行融合,来提高跨语言跨模态检索能力。
-
公开(公告)号:CN119322859A
公开(公告)日:2025-01-17
申请号:CN202411874910.2
申请日:2024-12-19
Applicant: 浙江工商大学
IPC: G06F16/432 , G06F16/483 , G06F40/284 , G06F40/30 , G06F18/25 , G06N3/045 , G06N3/0464 , G06N3/094 , G06N3/096
Abstract: 本发明公开了一种基于语义解耦和动态参数生成的跨语言跨模态检索方法,该方法引入语义解耦模块和动态适配器模块,语义解耦模块将一个句子解耦成语义相关特征和语义无关特征,根据这两个信息,能让模型对处理同个语义但是有不同表述方式的句子也能有较好的表现。动态适配器模块将语义解耦模块的输出通过低秩分解的方式融合到适配器中,将语义相关信息和语义无关信息进行融合,来提高跨语言跨模态检索能力。
-
公开(公告)号:CN118939859A
公开(公告)日:2024-11-12
申请号:CN202410927779.5
申请日:2024-07-11
Applicant: 浙江工商大学
IPC: G06F16/9532 , G06F16/332 , G06F16/33 , G06F16/532 , G06F40/16 , G06F40/30 , G06N3/045
Abstract: 本发明公开了一种基于两种级别的可适应参数生成跨语言跨模态检索方法,该方法分为两个阶段,第一个阶段旨在源语言和目标语言之间的对齐实现跨语言的迁移,第二阶段旨在目标语言和图像之间的对齐,实现跨模态的对齐。在第一阶段中,对文本编码器层参数进行了冻结,并在目标语言分支的每一层的文本编码器层的后面添加了共享适配器模块、句子级别适配器模块和token级别适配器模块,然后分别经过这三个模块之后按照权重相加,得到这一层的输出。本发明使用新颖的自适应参数生成适配器结构,利用两种级别文本信息和共享文本信息进行跨语言跨模态检索。
-
公开(公告)号:CN119603502A
公开(公告)日:2025-03-11
申请号:CN202411727463.8
申请日:2024-11-28
IPC: H04N21/44 , H04N21/854
Abstract: 本发明公开了一种基于关系感知的视频时序定位方法及装置,本发明首先利用预训练的视频编码器和文本编码器对视频和文本进行特征提取,并将其映射到公共特征空间。随后,通过模态内的信息交互生成富含上下文的特征序列。接着,通过单词级特征融合模块进行模态间信息交互。在此基础上,使用前景帧探测器和关系信号生成器,分别计算视频与文本之间的细粒度和粗粒度相关性分数。接着,多粒度判别器将这两类相关性进行综合,生成多粒度相关性分数,用于提供相关性反馈。最后通过关系感知的片段预测头,在视频时序定位的过程中引入相关反馈,使模型能够应对视频中可能不存在相关片段的情况。
-
公开(公告)号:CN115438220A
公开(公告)日:2022-12-06
申请号:CN202211014330.7
申请日:2022-08-23
Applicant: 浙江工商大学
IPC: G06F16/732 , G06F16/783 , G06F16/9532 , G06V10/74 , G06V10/77 , G06V10/82 , G06V20/70
Abstract: 本发明公开了一种噪音鲁棒学习的跨语言跨模态检索方法及装置,通过借助机器翻译来构造伪平行句子对来实现零样本跨语言迁移。由于机器翻译得到结果并不总是完美的,它通常包含大量的噪声。为了缓解这个问题,首先引入了一个多视角自蒸馏损失来学习噪声鲁棒的目标语言特征,它通过利用cross‑attention模块从基于相似度和基于特征的两个视角来生成软伪目标;其次,利用回译来提高模型对源语言的鲁棒性;最后,将得到的视频特征与噪声鲁棒的文本特征映射到一个跨语言跨模态共同空间中进行匹配,从而实现目标语言文本到视频的跨模态检索。本发明实现了在目标语言上的准确检索。
-
-
-
-