利用文本到图像扩散模型实现短语级定位的方法

    公开(公告)号:CN118247799B

    公开(公告)日:2024-09-06

    申请号:CN202410661746.0

    申请日:2024-05-27

    Applicant: 厦门大学

    Abstract: 本发明公开一种利用文本到图像扩散模型实现短语级定位的方法,基于PNG任务,引入DiffPNG框架,将PNG任务视为一个定位‑分割‑细化的解决范式,DiffPNG框架主要包括特征提取器、LSP模块、主语词聚焦的特征聚合器和SMR模块;具体执行以下步骤:特征提取器获取图像潜在噪声表示和文本特征编码并输入扩散模型;LSP模块在逆扩散过程中利用交叉注意力来识别每个实例的位置并获得高置信度的像素点作为锚点,对锚点使用自注意力进行聚合并生成分割掩码;主语词聚焦的特征聚合器基于相似性进行自适应特征聚合,使用点乘法计算PNG基准数据集的名词短语中每个词特征与最后一个词特征之间的成对相似度;SMR模块筛选出由SAM生成的候选掩码与分割掩码合并,生成最终的输出结果。

    基于空间感知网络的三维指向性目标分割方法

    公开(公告)号:CN118365659A

    公开(公告)日:2024-07-19

    申请号:CN202410796369.1

    申请日:2024-06-20

    Applicant: 厦门大学

    Abstract: 本发明任务的本质在于超点特征与文本特征的跨模态对齐,由此提出了文本驱动的定位模块(TLM);同时,设计了规则引导的弱监督(RWS)策略以精确地监督目标实例的定位以及挑选最合适的单词特征来获取最终目标掩码。在此,本发明公开了一种基于空间感知网络的三维指向性目标分割方法,提出用于端到端三维指向性目标分割的规则导向的空间感知网络(RG‑SAN),RG‑SAN由TLM和RWS策略这两个主要组件组成:由TLM定位所有实例,并迭代地改进它们的位置,以确保位置精度的持续提高;RWS策略则利用依存树规则,精确地指导核心实例的定位。这种集中的监督显著提高了对文本中空间歧义的处理能力。

    一种面向指向性目标分割的半监督学习方法

    公开(公告)号:CN117975241A

    公开(公告)日:2024-05-03

    申请号:CN202410370335.6

    申请日:2024-03-29

    Applicant: 厦门大学

    Abstract: 本发明提供一种面向指向性目标分割的半监督学习方法,包括:将RES的三个主流数据集分别拆分为有标数据和无标数据,有标数据包含图文对和分割的真实掩码,无标数据只包含图文对;利用SAM离线地构建了一个分割掩码候选库,分割掩码候选库包含了对无标数据中无标图片的多尺度候选分割;在预热阶段:使用带标签的数据对预训练模型进行训练,训练结束后保存模型参数赋值给教师和学生模型;在师生迭代互相学习阶段:将无标图像输入教师模型得到伪标签,从分割掩码候选库中获取与伪标签最匹配的分割掩码替换伪标签,得到优化后的伪标签,以监督学生的训练;同时,有标数据继续有监督学习。本发明有效提高伪标签掩码质量,同时提高未标注数据的利用率。

    基于文本的人物检索的双向一对多嵌入对齐方法

    公开(公告)号:CN116304145A

    公开(公告)日:2023-06-23

    申请号:CN202310298214.0

    申请日:2023-03-24

    Abstract: 基于文本的人物检索的双向一对多嵌入对齐方法,涉及人物检索方法。1)使用预训练好的ResNet‑50主干网络提取图片特征,使用预训练好的BERT及可训练的Bi‑LSTM模型提取获取全局的视觉与文本特征;2)将视觉特征V均匀分割成K个不重叠部分,采用单词注意模块获得K个不同的文本特征,获取视觉局部特征与文本局部特征;3)建立非局部模块,基于余弦相似性得到非局部的视觉特征和语言特征;4)建立一种全新的双向一对多嵌入范式,具体分为双向嵌入和一对多嵌入两块功能;5)采用身份损失和复合排序损失,两者相加构造整体损失函数进行优化。模型能确定优化方向,同时解决图文对一对多的匹配问题。

    基于样本自适应语义引导的自注意力机制的图像描述方法

    公开(公告)号:CN113837233A

    公开(公告)日:2021-12-24

    申请号:CN202111005897.3

    申请日:2021-08-30

    Applicant: 厦门大学

    Abstract: 基于样本自适应语义引导的自注意力机制的图像描述方法,属于人工智能技术领域。针对传统采用自注意力机制的方法对于每个样本参数固定的缺点,包括以下步骤:1)采用目标检测器提取待描述图像的若干个候选区对应的特征;2)采用语义概念检测器针对待描述图像提取若干个语义概念;3)将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化;4)利用步骤3)强化过后的语义概念特征和一个参数生成网络,生成一个的自注意网络的参数;5)将步骤3)强化过的视觉特征输入到生成的自注意力网络中,通过语义生成的自注意力网络来实现更好的视觉表达;6)将步骤5)输出的视觉特征输入到解码器中,生成图像的描述语句,并定义损失函数。

    一种弱监督设置下的三维指向性目标分割方法

    公开(公告)号:CN119649030A

    公开(公告)日:2025-03-18

    申请号:CN202411786945.0

    申请日:2024-12-06

    Applicant: 厦门大学

    Abstract: 本发明公开了一种弱监督设置下的三维指向性目标分割方法,涉及三维指向性目标分割技术领域。所述方法包括:实例提取过程:获取点云场景以及文本描述,提取场景中的3D实例,表示为实例掩码以及类别分数预测;多专家挖掘过程:通过多个专家模型从完整上下文、属性和类别三个维度的语义线索中提取信息,并分别计算目标的语义分布;多专家聚合过程:根据当前样本的特点,自动为来自更准确专家模型的输入分布赋予更大的权重,突出目标实例的同时排除干扰信息。本发明提供的一种弱监督设置下的三维指向性目标分割方法,只提供三维点云数据以及对应的指向性描述,而不提供掩码注释,从而无需耗费时间精力进行掩码注释。

    一种面向开集的人物交互检测方法

    公开(公告)号:CN118351566A

    公开(公告)日:2024-07-16

    申请号:CN202410326072.9

    申请日:2024-03-21

    Applicant: 厦门大学

    Abstract: 本发明提供了人工智能技术领域的一种面向开集的人物交互检测方法,包括:步骤S1、获取人物图像以及候选文本集合,检测人物图像中的目标,输出目标的标签以及框坐标,将候选文本集合提取为文本嵌入;步骤S2、对人物图像进行编码,提取人物图像的全局视觉特征,基于全局视觉特征以及框坐标得到各目标的局部视觉特征;步骤S3、基于全局视觉特征以及局部视觉特征,从人物图像中提取目标至下而上的视觉特征;步骤S4、对视觉特征以及文本嵌入进行对齐训练,得到第一特征;步骤S5、对人物的动作进行对齐训练,得到第二特征;步骤S6、对第一特征、第二特征进行融合得到人物交互特征。本发明的优点在于:极大的提升了面向开集的人物交互检测精度。

    评估和分析大型视觉语言模型中关系幻觉的方法及装置

    公开(公告)号:CN118312644A

    公开(公告)日:2024-07-09

    申请号:CN202410343867.0

    申请日:2024-03-25

    Applicant: 厦门大学

    Abstract: 本发明公开了一种评估和分析大型视觉语言模型中关系幻觉的方法及装置,涉及大型视觉语言模型技术领域。通过构建一种新的关系幻觉基准,专门用于评估大型视觉语言模型中的关系幻觉。该基准包括图像级问题和实例级问题,图像级问题用于评估图像中关系的存在,而实例级问题则用于评估局部视觉理解。问题的生成过程包括:解析所有的COCO字幕,以创建一个全面的关系集;将nocaps字幕提供的字幕解析后与关系集对齐,以建立一组关系种子;基于nocaps字幕、关系种子和边界框创建提示,然后利用大型语言模型LLM自动生成图像级和实例级问题。本发明通过大型语言模型LLM生成的生成图像级和实例级问题,从而可帮助评估和分析大型视觉语言模型的关系幻觉。

    利用文本到图像扩散模型实现短语级定位的方法

    公开(公告)号:CN118247799A

    公开(公告)日:2024-06-25

    申请号:CN202410661746.0

    申请日:2024-05-27

    Applicant: 厦门大学

    Abstract: 本发明公开一种利用文本到图像扩散模型实现短语级定位的方法,基于PNG任务,引入DiffPNG框架,将PNG任务视为一个定位‑分割‑细化的解决范式,DiffPNG框架主要包括特征提取器、LSP模块、主语词聚焦的特征聚合器和SMR模块;具体执行以下步骤:特征提取器获取图像潜在噪声表示和文本特征编码并输入扩散模型;LSP模块在逆扩散过程中利用交叉注意力来识别每个实例的位置并获得高置信度的像素点作为锚点,对锚点使用自注意力进行聚合并生成分割掩码;主语词聚焦的特征聚合器基于相似性进行自适应特征聚合,使用点乘法计算PNG基准数据集的名词短语中每个词特征与最后一个词特征之间的成对相似度;SMR模块筛选出由SAM生成的候选掩码与分割掩码合并,生成最终的输出结果。

    一种基于文本信息的指向性3D实例分割方法

    公开(公告)号:CN117634486B

    公开(公告)日:2024-05-31

    申请号:CN202410112132.7

    申请日:2024-01-26

    Applicant: 厦门大学

    Abstract: 本发明提供了3D实例分割技术领域的一种基于文本信息的指向性3D实例分割方法,包括:步骤S1、创建3D实例分割模型,获取描述文本以及3D实例;步骤S2、提取3D实例的点云特征,提取描述文本的文本特征;步骤S3、对点云特征以及文本特征进行融合得到融合特征,将融合特征结合3D实例的空间位置信息构建跨模态的场景图;步骤S4、提取描述文本的第一相对位置信息,提取3D实例之间的第二相对位置信息,将第一相对位置信息以及第二相对位置信息融合进场景图;步骤S5、计算场景图与描述文本的相似度得分,计算3D实例分割模型的预测特征与描述文本的匹配得分,基于相似度得分、匹配得分对3D实例进行分割。本发明的优点:极大的提升了3D指向性实例分割精度。

Patent Agency Ranking