-
公开(公告)号:CN117808826A
公开(公告)日:2024-04-02
申请号:CN202311691446.9
申请日:2023-12-11
Applicant: 厦门大学
Abstract: 基于多尺度特征交互和自适应旋转动态卷积的指向性遥感图像分割方法。由于遥感图像大幅度尺度变化、目标以多角度出现等特性,传统指向性图像分割方法在遥感图像上的表现受限。提供一种针对遥感图像的指向性图像分割方法:1)使用预训练好的语言模型BERT和视觉模型Swin‑Transformer获得语言特征和初始视觉特征;2)使用尺度内特征交互模块对细粒度的局部视觉特征建模;3)使用跨层多尺度注意力对不同粒度的视觉特征融合交互;4)基于尺度间充分交互后的特征提取角度信息,用根据角度动态重采样卷积核权重的自适应旋转动态卷积方法解码特征得预测分割掩码;5)提出使用半自动方法标注的新指向性遥感图像分割数据集。
-
公开(公告)号:CN117593469A
公开(公告)日:2024-02-23
申请号:CN202410063924.X
申请日:2024-01-17
Applicant: 厦门大学
Abstract: 本发明提供了3D内容生成技术领域的一种3D内容创建方法,包括如下步骤:步骤S1、将DMTet作为3D表示,基于所述3D表示构建几何模型,通过优化所述DMTet来学习几何模型的几何特征;步骤S2、利用双向反射率分布函数预测3D对象材料,基于所述3D对象材料构建外观模型,通过优化所述双向反射率分布函数来学习外观模型的外观特征;步骤S3、预先训练一文本到2D的扩散模型,将摄像机信息动态结合到所述扩散模型中;步骤S4、所述扩散模型基于几何特征以及外观特征渲染一mask图像,获取所述扩散模型的注意力图,将所述注意力图与mask图像进行对齐,进而创建3D内容。本发明的优点在于:极大的提升了3D内容创建的质量。
-
公开(公告)号:CN113837233B
公开(公告)日:2023-11-17
申请号:CN202111005897.3
申请日:2021-08-30
Applicant: 厦门大学
IPC: G06V10/764 , G06V10/82 , G06V10/25 , G06N3/0455 , G06N3/0464 , G06N3/0895 , G06F40/284 , G06F40/30
Abstract: 基于样本自适应语义引导的自注意力机制的图像描述方法,属于人工智能技术领域。针对传统采用自注意力机制的方法对于每个样本参数固定的缺点,包括以下步骤:1)采用目标检测器提取待描述图像的若干个候选区对应的特征;2)采用语义概念检测器针对待描述图像提取若干个语义概念;3)将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化;4)利用步骤3)强化过后的语义概念特征和一个参数生成网络,生成一个的自注意网络的参数;5)将步骤3)强化过的视觉特征输入到生成的自注意力网络中,通过语义生成的自注意力网络来实现更好的视觉表达;6)将步骤5)输出的视觉特征输入到解码器中,生成图像的描述语句,并定义损失函数。
-
公开(公告)号:CN116050409A
公开(公告)日:2023-05-02
申请号:CN202310130117.0
申请日:2023-02-17
Applicant: 厦门大学
IPC: G06F40/289 , G06F40/284 , G06N3/08 , G06N3/0464
Abstract: 统一级联的全景叙事检测与分割方法,涉及全景叙事检测与分割。1)多模态编码;2)多模态交互;3)坐标引导聚合CGA;4)质心驱使定位BDL;5)训练损失。采用基于动态内核的方式构建统一的框架,为每个名词短语构建一个可学习的内核,预测其对应的掩码和边界框。针对预测冲突问题,提出两种新的级联模块来连续处理分割和检测,以实现跨任务对齐,即坐标引导聚合CGA模块和质心驱动定位BDL模块,利用分割掩码的质心作为锚点,将分割和检测串联连接,使两个任务自然对齐。两个模块的联合相互促进各自性能,即掩码的位置信息向前驱动BDL模块产生准确的方框,BDL模块的反向引导促进CGA模块在训练过程中区分不同实例的能力。
-
公开(公告)号:CN112819013A
公开(公告)日:2021-05-18
申请号:CN202110128194.3
申请日:2021-01-29
Applicant: 厦门大学
Abstract: 基于层内层间联合全局表示的图像描述方法,涉及人工智能。步骤1,采用目标检测器提取待描述图像的若干个候选区及各候选区对应的特征;步骤2,将步骤1提取的特征输入训练好的神经网络,从而输出待描述图像的描述结果。利用Transformer结构的特点,显式建模层内‑层间联合全局特征,有效利用图片的全局特征,减少图像描述任务间存在的物体缺失和关系偏置,提升生成句子的准确性和全面性;具有很强的迁移性,能适用于任何一个基于Transformer结构的图像描述模型,改进模型性能;解决图像描述的目标缺失和关系偏置问题,拓展复杂多模态推理,自动生成描述,可应用在图像检索、盲人导航、医疗报告自动生成和早教领域。
-
-
-
-