多模态模型表征优化的开放词汇分割方法及系统

    公开(公告)号:CN118823350A

    公开(公告)日:2024-10-22

    申请号:CN202410957456.0

    申请日:2024-07-17

    Abstract: 本发明提供一种多模态模型表征优化的开放词汇分割方法及系统,属于计算机视觉技术领域,获取待分割的图像数据;利用预先训练好的多模态模型,对获取的图像进行处理,得到分割结果。本发明更好地优化了多模态任务中的视觉‑文本表征,使得同类视觉‑文本表征空间进行有效对齐;提出掩码敏感型损失在参数微调过程中约束分类得分和掩码质量保持一致,从而赋予视觉编码器局部感知能力,提升了模型在细粒度下游任务中的效果;引入了原预训练特征作为表征补偿,保证了在优化过程中预训练视觉‑语言模型的零样本能力;将文本表征和视觉表征进行交互,使得文本表征可以对于不同输入图像进行自适应增强,可有效提升开放词汇分割中视觉‑文本的对齐属性。

    面向人机协同的多视角视频流CT违禁品检测方法及系统

    公开(公告)号:CN118736193A

    公开(公告)日:2024-10-01

    申请号:CN202410753831.X

    申请日:2024-06-12

    Abstract: 本发明提供一种面向人机协同的多视角视频流CT违禁品检测方法及系统,属于CT违禁品检测技术领域,获取待检测的并行多视图渲染视频流;利用预先训练好的违禁品检测模型对获取的待检测的并行多视图渲染视频流进行处理,得到多视图的违禁品识别结果;将多视图的检测结果与给定的视角信息进行融合,完成三维体素数据的违禁品位置和类别信息的识别。本发明视频流的检测方式可以满足民航安检场景下高吞吐率的查验需求;设计高效的与设备厂商无关的数据采集方案,将三维数据和标签信息映射到不同尺度,不同角度的二维数据和标签信息,大幅降低了人工标注难度,多视角的自动化操作流程可以满足无死角的自动化查验,充分挖掘了双能三维CT图像的特点。

    基于图像级后验指导和知识解耦的图像增量语义分割方法

    公开(公告)号:CN119131385A

    公开(公告)日:2024-12-13

    申请号:CN202411152388.7

    申请日:2024-08-21

    Inventor: 魏云超 方岩 余萧

    Abstract: 本发明提供了一种基于图像级后验指导和知识解耦的图像增量语义分割方法。该方法包括:图像级后验指导分支利用动态平均池化、多层感知机对原始图像数据的特征图进行处理,得到图像级的类别信息;永久学习分支利用卷积层和上采样层对特征图进行处理,得到永久学习分支的分割结果;临时学习分支利用增量学习头学习当前增量阶段特征图中存在的类别知识,得到临时学习分支的分割结果;将永久学习分支和临时学习分支的分割结果进行整合,得到聚合的中间预测结果;利用图像级的类别信息对聚合的中间预测结果进行优化,得到增量语义分割结果。本发明方法将复杂的图像类别知识解耦为永久的静态概念和临时的动态概念,有效提升了模型对抗语义偏移的能力。

    一种基于像素擦除技术的弱监督视频实例分割方法

    公开(公告)号:CN116246201A

    公开(公告)日:2023-06-09

    申请号:CN202310042768.4

    申请日:2023-01-28

    Abstract: 本发明提供了一种基于像素擦除技术的弱监督视频实例分割方法。该方法包括:对输入的原始视频数据和图片数据进行标注;将标注好的视频数据和图片数据输入到视频实例分割VIS网络中,VIS网络对视频数据和图片数据进行联合训练,产生视频数据的实例掩码标注,输出更新后的视频数据;对更新后的视频数据进行像素擦除,将经过像素擦除的视频数据和图像数据输入到训练好的VIS网络中,VIS网络对视频数据和图片数据进行自监督联合训练,输出原始视频数据的类别、实例ID以及掩码预测结果。本发明在不需要任何人工标注的视频实例掩码前提下,可取得与最先进的全监督VIS工作相当甚至更优的效果。本发明的像素擦除方法可应用到其他弱监督分割任务中。

    一种基于Transformer分割网络和正则化训练的图像分割方法

    公开(公告)号:CN116168197A

    公开(公告)日:2023-05-26

    申请号:CN202310042766.5

    申请日:2023-01-28

    Abstract: 本发明提供的一种基于Transformer分割网络和正则化训练的图像分割方法。该方法包括:通过骨干网络对原始图像进行渐进式特征提取,生成特征图;通过金字塔特征提取结构的多级特征提取层对特征图进行优化重构,通过Transformer解码器以金字塔特征提取结构输出的高维特征作为输入,通过对特征图进行优化和压缩,得到特征向量;将特征向量与金字塔特征提取结构输出的特征图进行矩阵运算,得到与原始图像大小一致的初步掩码预测图像,利用正则化训练方法对初步掩码预测图像进行质量优化训练,获取掩码图像;利用掩码图像对原始图像进行图像分割处理。本发明中图像特征被端到端地采样和优化,依托于Transformer网络的正则化训练方法使图像分割掩码的质量和鲁棒性得到明显的提升。

    面向复杂目标的交互友好分割方法及系统

    公开(公告)号:CN119991725A

    公开(公告)日:2025-05-13

    申请号:CN202510048445.5

    申请日:2025-01-13

    Abstract: 本发明提供一种面向复杂目标的交互友好分割方法及系统,属于计算机视觉技术领域,获取待分割的图像;利用预先训练好的面向复杂目标的交互友好分割模型,对获取的待分割图像进行处理,得到目标分割结果。本发明通过引入噪声容忍点击,允许用户在目标附近进行模糊定位,而无需精确点击,从而显著降低交互难度和时间成本,同时增强复杂目标分割任务中的用户友好性。采用两阶段工作流:第一阶段生成前景‑背景‑不确定区域(FBU)图,快速感知目标区域;第二阶段通过高分辨率细化网络对不确定区域进行精确分类。结合网格注意力和邻域注意力机制,既保留了超高分辨率图像的细节信息,又有效降低了计算复杂度。

    基于语义增强和协同保留的文生图扩散模型概念擦除方法

    公开(公告)号:CN119474852A

    公开(公告)日:2025-02-18

    申请号:CN202411350269.2

    申请日:2024-09-26

    Abstract: 本发明提供了一种基于语义增强和协同保留的文生图扩散模型概念擦除方法。该方法包括:定义需要擦除的目标概念,基于预训练的扩散模型初始化擦除模型,利用目标概念对初始化的擦除模型进行预热训练,得到预热后的擦除模型;通过预定义模板库中的词嵌入,使用预热后的擦除模型生成能够触发目标概念的攻击性提示;利用攻击性提示通过擦除模型内部的自我检查和自我擦除机制,对预热后的擦除模型进行更新,得到更新后的擦除模型;通过全局语义关系对齐和局部预测噪声保持,优化更新后的擦除模型对非目标概念的生成能力。本发明通过语义增强擦除机制,有效地将概念词的擦除从单一词汇扩展到整个概念域,从而显著提升了模型在不同情境下的泛化能力。

Patent Agency Ranking