-
公开(公告)号:CN116012585A
公开(公告)日:2023-04-25
申请号:CN202310018185.8
申请日:2023-01-06
Applicant: 厦门大学
IPC: G06V10/26 , G06V10/82 , G06N3/08 , G06V10/25 , G06N3/0464
Abstract: 一种基于类别核化动态卷积的实例分割方法,涉及计算机视觉中的图像检测和分割。设计一种分类核化动态CANDY卷积,结合RoI信息、类别信息和位置信息来生成用于分割的动态核。生成实例分割框架CANDY‑Mask,增强对前景对象的判别能力。在MS‑COCO数据集上实验验证CANDY‑Mask性能。创新点内容:1)多级金字塔特征集成。通过多次卷积操作将具有特征金字塔网络层融合成一个基于像素位置的统一特征图。2)类别感知内核生成。利用类别信息解决“类不可分现象”并嵌入基于实例的位置信息。3)动态卷积操作。将统一的全局特征与局部信息和实例位置相结合,融合基于局部的细节信息和基于全局的感受视野特征。
-
公开(公告)号:CN113837190A
公开(公告)日:2021-12-24
申请号:CN202111005862.X
申请日:2021-08-30
Applicant: 厦门大学
Abstract: 一种基于Transformer的端到端实例分割方法,涉及计算机视觉中的图像检测和分割领域。1)利用卷积网络和具有特征金字塔网络将图像生成特征金字塔;2)利用RoIAlign裁剪并对齐来自金字塔的特征图,提取RoI感兴趣特征区域;3)通过具有动态注意力的Transformers编码器将图像特征和RoI特征图融合到预测头中;4)由预测头输出实例的边界框,低维掩码特征,目标类别;5)反复迭代查询框,并更新预测头输出。在端到端实例分割中使用Transformers,可预测低维掩码特征而不是高维掩码,这不仅简化训练并激发掩码二分匹配代价的设计。可并行检测并分割实例,准确性和运行性能优。
-
公开(公告)号:CN110334363A
公开(公告)日:2019-10-15
申请号:CN201910630989.7
申请日:2019-07-12
Applicant: 厦门大学
Abstract: 一种基于混合编码器的描述子翻译及相似度度量方法,涉及图像检索和描述子翻译。从用于训练的图像集中提取不同的手工或基于学习的多种描述子,以准备描述子翻译器的训练集,利用两两成对的特征对混合自编码器进行训练;训练从源特征到目标特征的映射的混合编码器,采用重构与翻译两路辅助训练解码器,编码器特有,解码器共享,得到翻译损失与重构损失;利用翻译损失与重构损失来度量两种描述子之间的相似度;对于待翻译的描述子,输入到相应的翻译器中,然后根据训练得到的翻译器对进行描述子翻译,所得结果置信度由相似度来衡量。突破基于不同描述子的检索系统间的检索壁垒,为不同系统间提供一个中转平台,便捷高效。
-
公开(公告)号:CN119963749A
公开(公告)日:2025-05-09
申请号:CN202510447570.3
申请日:2025-04-10
Applicant: 厦门大学
Abstract: 本发明公开了一种基于稀疏视角三维重建和动态对齐的三维分割方法及系统,涉及三维目标分割技术领域,方法包括:图片预处理;将预处理后的图片以两个视图图片为一组输入图片组,输入神经网络MASt3R中,得到每组输入图片组在同一个相机坐标系下的点云数据;遍历每组输入图片组对应的点云,基于动态全局对齐策略学习到每个视图映射到世界坐标系的变换矩阵;基于用户提示以及SAM2获取所有视角的二维分割掩码,通过学习到的矩阵将二维分割掩码对齐到世界坐标系。本发明基于神经网络MASt3R提出一种基于二维视图的前馈式三维分割模型,可以实现任意场景下的实时交互式三维分割,既保证性能又显著提升效率。
-
-
-