-
公开(公告)号:CN118551844A
公开(公告)日:2024-08-27
申请号:CN202410740106.9
申请日:2024-06-07
Applicant: 西北工业大学
IPC: G06N5/04 , G06N3/0455 , G06N3/0895 , G06N5/022 , G06V10/74
Abstract: 本发明提供了一种基于自主指令生成调优的多模态推理模型自进化方法,涉及语言图像多模态融合领域,通过计算图像指令对应得分,增强了指令微调数据与图像之间的内容相关性,通过对比学习的框架,进一步提升了多模态推理模型的指令微调数据生成能力。本发明有效地提高了多模态推理模型生成数据的质量,通过进一步利用该数据微调多模态推理模型自身,实现了多模态推理模型的自进化。
-
公开(公告)号:CN118094414A
公开(公告)日:2024-05-28
申请号:CN202410503898.8
申请日:2024-04-25
Applicant: 西北工业大学
IPC: G06F18/2431 , G06F18/214 , G06F18/22 , G06V10/74 , G06V10/764
Abstract: 本发明提供了一种基于多模态参数扩展的多任务持续进化学习方法,在视觉模态方面设计轻量级的可学习视觉提示用于学习将全任务空间分解为离散的各任务子空间,保留不同领域的专业知识。同时,在文本模态采用语义级别的参数微调技术,通过引入外部的可学习模块动态调整文本特征,避免专业知识和通用知识间的相互干扰。借助视觉‑语言模态的同时参数扩展,能够极大程度保留预训练中的通用知识以及不同领域的专业知识。此外,本发明对损失函数采用动态调整策略,更好地辅助与促进多模态参数扩展更新,实现对新知识获取和旧知识保留的平衡。同时,本发明设计自适应参数扩展模块压缩算法,能够进一步避免参数量随任务数量持续增长的问题。
-
公开(公告)号:CN115496991A
公开(公告)日:2022-12-20
申请号:CN202211009462.0
申请日:2022-08-22
Applicant: 西北工业大学
Abstract: 本发明涉及一种基于多尺度跨模态特征融合的指代表达理解方法,基于语言图像多模态融合领域。在跨模态特征融合过程中结合了线性特征调制和视觉引导语言注意力模块进行特征融合,同时该模型利用了语言进行选择和筛选多尺度网格级特征,从低级和高级融合特征中自适应地选择关键线索,并通过动态路由在跨尺度信息之间建立关系。实验结果表明,新的模型架构在多个基准测试中达到了新的最先进水平,并为REC研究提供了新的见解和方向。
-
公开(公告)号:CN114241191A
公开(公告)日:2022-03-25
申请号:CN202111557573.0
申请日:2021-12-19
Applicant: 西北工业大学
Abstract: 本发明公开了一种基于跨模态自注意力的无候选框指代表达理解方法,该方法无需预先提取候选区域,能够更加高效准确的完成指代表达理解任务。本发明的技术方案如下:第一部分为对语言及图像信息的提取和编码过程,采用YOLOv3卷积神经网络对图片信息进行特征提取,采用BERT预训练模型对语言信息进行特征提取;第二部分为基于多头注意力机制的跨模态特征加强过程,采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化;第三部分为基于多头自注意力机制的跨模态特征融合过程,利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合;第四部分为目标的定位过程,采用无锚方法,实现对目标的定位。
-
公开(公告)号:CN118918318A
公开(公告)日:2024-11-08
申请号:CN202411053464.9
申请日:2024-08-02
Applicant: 西北工业大学
IPC: G06V10/25 , G06V20/70 , G06V10/40 , G06V10/82 , G06F40/186 , G06F40/284 , G06N3/045
Abstract: 本发明公开了一种基于数据生成调优与权重自主进化的指代表达理解方法,第一部分为初始指代表达数据生成模块,第二部分为带有负例的上下文构建模块,第三部分为上下文指代表达数据生成模块。第四部分为语言主干网络,第五部分为语言自适应权重生成器,第六部分为视觉主干网络,第七部分为指代表达理解预测模块。
-
公开(公告)号:CN118799576A
公开(公告)日:2024-10-18
申请号:CN202410939780.X
申请日:2024-07-15
Applicant: 西北工业大学
IPC: G06V10/26 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06V10/80 , G06V10/82 , G06F18/213 , G06F18/25
Abstract: 本发明公开了一种基于模态融合和自进化微调的信息驱动目标分割方法,首先,引入了一个不需要预训练的模态融合适配器,集成到预训练模型的原始架构中,促进视觉语言编码器之间的交互。模态融合适配器有两个定制模块:(1)空间先验模块,用于捕获中间层特征图的局部语义(空间先验);(2)多模态注意力模块,促进视觉语言模态之间的信息交互。其次,设计了一个轻量级的任务特定解码器用于信息驱动的目标分割,以进一步对齐视觉和语言特征。本发明可以无缝集成到任何预训练的器视觉‑语言模型中增强并与它们的中间特征交互,并能够在只更新1.61%到3.38%的参数的情况下,实现与现有完全微调方法相当的性能。
-
公开(公告)号:CN118658103A
公开(公告)日:2024-09-17
申请号:CN202410930630.2
申请日:2024-07-11
Applicant: 西北工业大学
IPC: G06V20/40 , G06F40/205 , G06F40/284 , G06N3/0455 , G06N3/0464 , G06N3/082 , G06N3/084 , G06V10/77 , G06V10/80
Abstract: 本发明公开了一种自进化视频对象信息驱动目标分割框架构建方法,首先提取视觉和语言特征,然后进行语言查询与动态核生成,接下来构建跨模态特征金字塔网络,最后进行实例序列分割处理。本发明通过整合先进的计算机视觉技术和自然语言处理技术,提供了一种从语言描述到视频对象分割的端到端解决方案,不仅提高了处理效率,还增强了分割精度,尤其适用于实时视频分析应用,如智能监控、交互式媒体编辑等。
-
公开(公告)号:CN115082704B
公开(公告)日:2024-03-05
申请号:CN202210278509.7
申请日:2022-03-16
Applicant: 西北工业大学
IPC: G06V10/62 , G06V10/75 , G06V10/80 , G06V10/82 , G06F16/33 , G06F16/36 , G06F40/242 , G06F40/289 , G06N3/045 , G06N3/0464
Abstract: 本发明涉及一种基于相关性滤波的文本行人重识别方法,属于计算机视觉技术领域。包含三个部分,第一部分为提取行人图像特征和文本特征过程;第二部分为基于去噪滤波器来提取图像和关键词候选区域并进行全局特征的对齐;第三部分为基于字典滤波器的图像和文本的局部特征匹配过程,最终实现基于文本的行人重识别。本发明有效提取了行人图像和文本描述中的关键信息,同时自适应的进行局部特征的对齐,摆脱了对预处理方法的依赖,满足实时处理的需求。
-
-
-
-
-
-
-