基于空间感知网络的三维指向性目标分割方法

    公开(公告)号:CN118365659B

    公开(公告)日:2024-11-01

    申请号:CN202410796369.1

    申请日:2024-06-20

    Applicant: 厦门大学

    Abstract: 本发明任务的本质在于超点特征与文本特征的跨模态对齐,由此提出了文本驱动的定位模块(TLM);同时,设计了规则引导的弱监督(RWS)策略以精确地监督目标实例的定位以及挑选最合适的单词特征来获取最终目标掩码。在此,本发明公开了一种基于空间感知网络的三维指向性目标分割方法,提出用于端到端三维指向性目标分割的规则导向的空间感知网络(RG‑SAN),RG‑SAN由TLM和RWS策略这两个主要组件组成:由TLM定位所有实例,并迭代地改进它们的位置,以确保位置精度的持续提高;RWS策略则利用依存树规则,精确地指导核心实例的定位。这种集中的监督显著提高了对文本中空间歧义的处理能力。

    面向局部视觉建模的图像描述生成方法

    公开(公告)号:CN115964530A

    公开(公告)日:2023-04-14

    申请号:CN202310040601.4

    申请日:2023-01-13

    Applicant: 厦门大学

    Abstract: 面向局部视觉建模的图像描述生成方法,涉及图像描述生成方法。包括:1)模型输入特征在编码器模块通过多头自注意力模块细化特征提取;2)用局部敏感性注意力获取到的注意力权重矩阵对多头自注意力模块输出的特征进行重新加权,将相邻网格之间的依赖关系细化;3)用前馈神经网络实现通道域的互动,建立通道域上视觉特征的联系;4)用空间偏移操作将网格与其相邻的网格对齐,获取偏移后的特征表示;5)将偏移后的特征表示聚合后使用多层感知机实现视觉特征在通道域和空间域的互动;6)融合后的特征输出加权后与顶层编码器的输出加总,得到输入解码器的融合特征表示。提高局部视觉信息的标注质量,性能优异。

    一种通过混合扩散监督进行多模态到3D对象的生成方法

    公开(公告)号:CN119625216A

    公开(公告)日:2025-03-14

    申请号:CN202411674597.8

    申请日:2024-11-21

    Applicant: 厦门大学

    Abstract: 本发明公开了一种通过混合扩散监督进行多模态到3D对象的生成方法,包括以下步骤:S1、采用模态相似度损失对齐模态提示与渲染图像的编码,将多种模态的语意信息更好地注入到3D对象的生成过程当中,用于使生成的3D对象更加贴合各个模态提示的要求;S2、采用混合扩散监督利用2D扩散模型以及3D扩散模型的先验知识,通过结合两种预训练扩散模型的优势,用于提高3D对象的生成效果和一致性:S3、利用三阶段优化方法,通过在每个阶段结合混合扩散监督,生成3D对象;该方法通过采用模态相似度损失、混合扩散监督和三阶段优化方法,可有效提高3D对象的生成质量,具有显著的实用价值和应用前景。

    多模态大语言模型的免训练视觉提示方法、电子设备和存储介质

    公开(公告)号:CN119090003A

    公开(公告)日:2024-12-06

    申请号:CN202411002420.3

    申请日:2024-07-25

    Applicant: 厦门大学

    Abstract: 本发明公开一种多模态大语言模型的免训练视觉提示方法、电子设备和存储介质,无需训练即可将视觉提示集成到多模态大语言模型中。首先,对于给定图像和文本,图像通过视觉编码器和多层感知机得到视觉特征,文本通过文本编码器得到文本特征,同时定义一个与视觉特征相同尺寸的可学习潜在变量;接着,将潜在变量与视觉特征相结合,并与文本特征一起通过大语言模型部分计算得到多个注意力权重矩阵,这些矩阵经过平均池化处理以形成最终的注意力权重矩阵;根据输入的视觉提示,使用相应的能量函数计算并更新潜在变量的值,此过程重复多次以优化潜在变量;最终,更新后潜在变量与视觉特征相结合,并与文本特征一起通过大语言模型产生模型响应。

    一种基于链式感知的指向性3D实例分割方法

    公开(公告)号:CN117593527B

    公开(公告)日:2024-05-24

    申请号:CN202410073323.7

    申请日:2024-01-18

    Applicant: 厦门大学

    Abstract: 本发明提供了3D实例分割技术领域的一种基于链式感知的指向性3D实例分割方法,包括:步骤S1、基于物体感知模块、关系推理模块以及跨模态交互模块构建一链式感知模型;步骤S2、获取待分割的3D实例的文本表述,通过物体感知模块识别文本表述中提到的物体;步骤S3、通过关系推理模块分别从3D实例以及文本表述中提取空间信息和关系词,并对空间信息和关系词进行关系推理,得到各物体之间的第一关联关系;步骤S4、通过跨模态交互模块从3D实例提取实例特征,并挖掘实例特征与文本表述之间的第二关联关系;步骤S5、基于第一关联关系以及第二关联关系,对文本表述指向的3D实例进行分割。本发明的优点在于:极大的提升了3D实例分割精度。

    一种基于文本信息的指向性3D实例分割方法

    公开(公告)号:CN117634486A

    公开(公告)日:2024-03-01

    申请号:CN202410112132.7

    申请日:2024-01-26

    Applicant: 厦门大学

    Abstract: 本发明提供了3D实例分割技术领域的一种基于文本信息的指向性3D实例分割方法,包括:步骤S1、创建3D实例分割模型,获取描述文本以及3D实例;步骤S2、提取3D实例的点云特征,提取描述文本的文本特征;步骤S3、对点云特征以及文本特征进行融合得到融合特征,将融合特征结合3D实例的空间位置信息构建跨模态的场景图;步骤S4、提取描述文本的第一相对位置信息,提取3D实例之间的第二相对位置信息,将第一相对位置信息以及第二相对位置信息融合进场景图;步骤S5、计算场景图与描述文本的相似度得分,计算3D实例分割模型的预测特征与描述文本的匹配得分,基于相似度得分、匹配得分对3D实例进行分割。本发明的优点:极大的提升了3D指向性实例分割精度。

    一种基于语义引导的特征选择的图像描述方法

    公开(公告)号:CN115982629A

    公开(公告)日:2023-04-18

    申请号:CN202310098344.X

    申请日:2023-02-10

    Applicant: 厦门大学

    Abstract: 一种基于语义引导的特征选择的图像描述方法,涉及人工智能技术。针对使用网格特征的方法导致的特征零散化的缺点,步骤:1)采用卷积神经网络提取图像的网格特征;2)使用传统的自注意力编码器强化图像的网格特征;3)将步骤2)提取的网格特征通过空间关系和通道关系可感知的特征挑选层进行特征挑选;4)将步骤3)挑选得到的图像网格特征进行平均池化操作得到全局特征;5)对步骤4)的得到的全局特征进行多标签分类,判断图像中的物体是否出现在对应的描述语句中;6)将步骤4)输出的视觉特征输入到解码器中,生成图像的描述语句;7)结合分类损失和图像描述生成损失定义损失函数。充分利用文本概念,将细粒度的语义知识纳入选择过程。

    基于轨迹的目标精细控制的2D图像生成的分层引导方法

    公开(公告)号:CN119648568A

    公开(公告)日:2025-03-18

    申请号:CN202411786947.X

    申请日:2024-12-06

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,涉及图像生成技术领域。所述方法通过设计分层引导机制计算Unet模型部分的中间层和上采样层的交叉注意力图的控制损失、抑制损失和修补损失,并根据分层引导设计的能量函数计算损失再梯度回传更新潜在特征,从而在低分辩下结合控制损失与抑制损失的实现目标有效的布局控制,在中和高分辨率下结合控制损失与修补损失去确保目标形状控制。本发明提供的一种基于轨迹的目标精细控制的2D图像生成的分层引导方法,解决了基于轨迹的图像生成模型的不能够稳定控制布局和不能对目标精细控制的缺陷,同时不需要额外训练。

    一种图像增强提示解码网络的三维指向性目标分割方法

    公开(公告)号:CN119625011A

    公开(公告)日:2025-03-14

    申请号:CN202411674588.9

    申请日:2024-11-21

    Applicant: 厦门大学

    Abstract: 本发明公开了一种图像增强提示解码网络的三维指向性目标分割方法,包括以下步骤:S1、特征提取;S2、多视角语义嵌入策略和查询生成;S3、提示感知解码器;S4、训练损失:训练损失包括基础损失、概率损失和对比学习损失;本发明以自上而下的方法利用多视角图像和任务驱动的信息来释放模型的推理能力;MSE使用CLIP提取二维图像特征,然后与三维点云特征融合,以显著增强视觉特征;PAD使用任务驱动的提示信号来指导解码过程,通过任务驱动提示模块,生成了强调每个查询与文本的相关性的提示,有效地将任务特定的信息注入到模型中,并显著降低了学习的复杂性。

    基于多模态文本增强的跨域人脸防伪造检测方法及装置

    公开(公告)号:CN119441939A

    公开(公告)日:2025-02-14

    申请号:CN202411518245.3

    申请日:2024-10-29

    Applicant: 厦门大学

    Abstract: 本发明公开了一种基于多模态文本增强的跨域人脸防伪造检测方法及装置,涉及网络信息安全技术领域,方法包括:将两类描述文本输入预训练的文本编码器提取代表真实/欺骗的文本类别特征,将图像输入预训练的视觉编码器提取视觉特征;在文本编码器的每一层添加可训练的文本提示,在视觉编码器的每一层添加可训练的视觉提示,视觉编码器的每一层视觉提示由当前层的文本提示经过全连接层转换得到;将PFT模块及TIM模块嵌入到文本编码器和视觉编码器每一层的中间层实现特征交互融合,获取文本类别特征与视觉特征之间的余弦相似度及掩膜,进行人脸真假类别。本发明基于PFT模块及TIM模块,使得模态特征交互在特征提取的过程中同时完成,提升了跨域检测性能。

Patent Agency Ranking