基于文本和视觉上下文关系时间融合的视频文本检索方法

    公开(公告)号:CN117407561A

    公开(公告)日:2024-01-16

    申请号:CN202311261929.5

    申请日:2023-09-27

    Applicant: 厦门大学

    Abstract: 基于文本和视觉上下文关系时间融合的视频文本检索方法,涉及视频文本检索。使用预训练模型CLIP的文本编码器和视觉编码器提取文本特征和帧级别视觉特征;使用时间编码器对加入时间位置信息的帧级别视觉信息编码;使用文本上下文注意力TCA根据每个帧和文本的相似度估计每个帧的注意力权重;使用视觉上下文注意力VCA根据视觉上下文关系过滤无关的帧;使用文本上下文相似度和视觉上下文相似度的均值作为检索目标的相似度,根据得到的相似度计算损失函数。相比平均池化,基于文本和视觉上下文计算每个帧权重的方法更有利于排除不必要的帧,实现有效的时间融合。通过TCA和VCA的联合作用更好地理解文本和视觉之间关系,提高检索精度。

    基于动态文本引导的文本驱动3D风格化方法

    公开(公告)号:CN116704090A

    公开(公告)日:2023-09-05

    申请号:CN202310669840.6

    申请日:2023-06-07

    Applicant: 厦门大学

    Abstract: 基于动态文本引导的文本驱动3D风格化方法,涉及3D风格化方法。1)用文本引导的动态注意力模块来提高文本提示对目标纹理的引导效果;2)用动态通道和空间注意力获得对目标文本敏感的顶点特征;3)使用两个多层感知机分别提取颜色和位置特征,并使用可微渲染器对mesh进行渲染;4)提出标准的文本到mesh的数据集MIT‑30;5)提出两个自动评估指标。通过在顶点属性预测的神经网络中加入文本驱动的动态注意力机制,生成更好的风格化3D产品,提高模型的收敛速度。提出数据集MIT‑30给不同的文本驱动的3D风格化工作提供更方便的研究对象。提出两个评估指标,对文本驱动的3D风格化方法公平和全面的比较。

    面向局部视觉建模的图像描述生成方法

    公开(公告)号:CN115964530A

    公开(公告)日:2023-04-14

    申请号:CN202310040601.4

    申请日:2023-01-13

    Applicant: 厦门大学

    Abstract: 面向局部视觉建模的图像描述生成方法,涉及图像描述生成方法。包括:1)模型输入特征在编码器模块通过多头自注意力模块细化特征提取;2)用局部敏感性注意力获取到的注意力权重矩阵对多头自注意力模块输出的特征进行重新加权,将相邻网格之间的依赖关系细化;3)用前馈神经网络实现通道域的互动,建立通道域上视觉特征的联系;4)用空间偏移操作将网格与其相邻的网格对齐,获取偏移后的特征表示;5)将偏移后的特征表示聚合后使用多层感知机实现视觉特征在通道域和空间域的互动;6)融合后的特征输出加权后与顶层编码器的输出加总,得到输入解码器的融合特征表示。提高局部视觉信息的标注质量,性能优异。

Patent Agency Ranking