一种基于多模态参数扩展的多任务持续进化学习方法

    公开(公告)号:CN118094414A

    公开(公告)日:2024-05-28

    申请号:CN202410503898.8

    申请日:2024-04-25

    Abstract: 本发明提供了一种基于多模态参数扩展的多任务持续进化学习方法,在视觉模态方面设计轻量级的可学习视觉提示用于学习将全任务空间分解为离散的各任务子空间,保留不同领域的专业知识。同时,在文本模态采用语义级别的参数微调技术,通过引入外部的可学习模块动态调整文本特征,避免专业知识和通用知识间的相互干扰。借助视觉‑语言模态的同时参数扩展,能够极大程度保留预训练中的通用知识以及不同领域的专业知识。此外,本发明对损失函数采用动态调整策略,更好地辅助与促进多模态参数扩展更新,实现对新知识获取和旧知识保留的平衡。同时,本发明设计自适应参数扩展模块压缩算法,能够进一步避免参数量随任务数量持续增长的问题。

    基于多尺度跨模态特征融合的指代表达理解方法

    公开(公告)号:CN115496991A

    公开(公告)日:2022-12-20

    申请号:CN202211009462.0

    申请日:2022-08-22

    Abstract: 本发明涉及一种基于多尺度跨模态特征融合的指代表达理解方法,基于语言图像多模态融合领域。在跨模态特征融合过程中结合了线性特征调制和视觉引导语言注意力模块进行特征融合,同时该模型利用了语言进行选择和筛选多尺度网格级特征,从低级和高级融合特征中自适应地选择关键线索,并通过动态路由在跨尺度信息之间建立关系。实验结果表明,新的模型架构在多个基准测试中达到了新的最先进水平,并为REC研究提供了新的见解和方向。

    一种基于跨模态自注意力的无候选框指代表达理解方法

    公开(公告)号:CN114241191A

    公开(公告)日:2022-03-25

    申请号:CN202111557573.0

    申请日:2021-12-19

    Abstract: 本发明公开了一种基于跨模态自注意力的无候选框指代表达理解方法,该方法无需预先提取候选区域,能够更加高效准确的完成指代表达理解任务。本发明的技术方案如下:第一部分为对语言及图像信息的提取和编码过程,采用YOLOv3卷积神经网络对图片信息进行特征提取,采用BERT预训练模型对语言信息进行特征提取;第二部分为基于多头注意力机制的跨模态特征加强过程,采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化;第三部分为基于多头自注意力机制的跨模态特征融合过程,利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合;第四部分为目标的定位过程,采用无锚方法,实现对目标的定位。

    基于模态融合和自进化微调的信息驱动目标分割方法

    公开(公告)号:CN118799576A

    公开(公告)日:2024-10-18

    申请号:CN202410939780.X

    申请日:2024-07-15

    Abstract: 本发明公开了一种基于模态融合和自进化微调的信息驱动目标分割方法,首先,引入了一个不需要预训练的模态融合适配器,集成到预训练模型的原始架构中,促进视觉语言编码器之间的交互。模态融合适配器有两个定制模块:(1)空间先验模块,用于捕获中间层特征图的局部语义(空间先验);(2)多模态注意力模块,促进视觉语言模态之间的信息交互。其次,设计了一个轻量级的任务特定解码器用于信息驱动的目标分割,以进一步对齐视觉和语言特征。本发明可以无缝集成到任何预训练的器视觉‑语言模型中增强并与它们的中间特征交互,并能够在只更新1.61%到3.38%的参数的情况下,实现与现有完全微调方法相当的性能。

Patent Agency Ranking