-
公开(公告)号:CN119152208A
公开(公告)日:2024-12-17
申请号:CN202411228773.5
申请日:2024-09-03
Applicant: 鹏城实验室
IPC: G06V10/26 , G06V10/30 , G06V10/44 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/0464
Abstract: 本申请公开了一种前景分割方法、装置、设备及存储介质,涉及图像技术领域,所述方法包括:将各样本训练图像的中间态掩码输入至待训练分割模型中的对齐条件提取网络,确定多个对齐条件表征,上述网络由图像嵌入模块、中间态掩码对齐模块以及多阶级联编码模块组成;将各样本训练图像的多个对齐条件表征输入至待训练分割模型中的双向级联融合去噪网络进行去噪,得到目标前景分割模型,去噪网络包括下采样单元和上采样单元,下采样单元中包含级联流和融合流;将待分割前景图像输入至目标前景分割模型,得到分割掩码。通过上述方式,使目标前景分割模型具有卓越的性能和跨任务的泛化能力,保证了在前景分割任务中能够同时保证精确性和泛化性的困境。
-
公开(公告)号:CN118297987A
公开(公告)日:2024-07-05
申请号:CN202410388539.2
申请日:2024-04-01
Applicant: 鹏城实验室
IPC: G06T7/246 , G06V20/70 , G06V10/82 , G06V10/764 , G06N3/0464 , G06N3/0455 , G06N3/096
Abstract: 本发明公开了一种目标跟踪方法、装置、设备及存储介质,该方法包括:将目标模板图像、搜索区域图像、自然语言描述输入视觉语义互惠学习网络模型中,根据线性映射层和注意力编码器对目标模板图像、搜索区域图像和自然语言描述进行特征处理,根据视觉语义级联编码器进行特征对齐,对对齐后的语义视觉对中搜索区域的视觉特征进行目标预测及跟踪。由于本发明在视觉语义互惠学习网络模型中添加了视觉语义级联编码器对视觉特征和语义特征进行对齐,能够进行语义特征和视觉特征之间的渐进式互惠学习,生成对齐完好的多模态特征,从而能够消除语义歧义并迁移知识。根据对齐后的语义视觉对进行目标预测,从而能够实现高精度高鲁棒性的视觉语言跟踪。
-
公开(公告)号:CN113780241A
公开(公告)日:2021-12-10
申请号:CN202111150096.6
申请日:2021-09-29
Abstract: 本公开的实施例公开了一种显著物体检测的加速方法。该方法的一具体实施方式包括:利用摄像机采集待检测图像;将待检测图像输入至编码器进行图像编码,得到编码图像特征;将编码图像特征输入至预先训练的互补三边解码器,得到解码图像;将解码图像发送至显示终端以供显示。该实施方式在参数量更少、速度更快的情况下仍然取得了具有竞争性的性能。这证明了本公开的优越性和高效性,在效率和性能之间取得了很好的平衡。
-
公开(公告)号:CN119006825A
公开(公告)日:2024-11-22
申请号:CN202411151992.8
申请日:2024-08-21
Applicant: 鹏城实验室
Abstract: 本申请公开了一种基于自我修正机制的视频目标分割方法、装置、设备及存储介质,涉及视频处理技术领域,所述方法包括:通过目标分割网络根据当前视频帧特征和区域记忆特征得到语义增强特征;根据目标记忆特征对语义增强特征进行多维度修正,得到修正区域特征,从而得到当前视频帧的当前预测掩码;根据当前预测掩码、历史预测掩码、目标记忆特征以及当前视频帧特征进行时序修正,得到目标对象的预测运动线索。通过上述方式,通过在快速获取目标对象的运动线索和外观线索的同时完成对这两种线索的自我修正,修正后的外观线索可以有效提升分割准确度而修正后的运动线索可以有效提升分割效率,从而实现在各种视频场景中高效鲁棒地分割视频目标。
-
公开(公告)号:CN113780241B
公开(公告)日:2024-02-06
申请号:CN202111150096.6
申请日:2021-09-29
IPC: G06V10/25 , G06T9/00 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本公开的实施例公开了一种显著物体检测的加速方法。该方法的一具体实施方式包括:利用摄像机采集待检测图像;将待检测图像输入至编码器进行图像编码,得到编码图像特征;将编码图像特征输入至预先训练的互补三边解码器,得到解码图像;将解码图像发送至显示终端以供显示。该实施方式在参数量更少、速度更快的情况下仍然取得了具有竞争性的性能。这证明了本公开的优越性和高效性,在效率和性能之间取得了很好的平衡。
-
公开(公告)号:CN117392385A
公开(公告)日:2024-01-12
申请号:CN202311309866.6
申请日:2023-10-10
IPC: G06V10/26 , G06V10/80 , G06V10/25 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/0985
Abstract: 本公开的实施例公开了一种伪装目标的多频率解析方法、装置、设备及存储介质。该方法的一具体实施方式包括:获取RGB输入图像,使用不同的架构来编码并提取有辨识性的频率表征;使用频率表征推理模块,聚合频率表征;通过解码器融合层级表征并获取最终预测结果。该实施方式提高了对于伪装目标的检测能力。
-
公开(公告)号:CN119152511A
公开(公告)日:2024-12-17
申请号:CN202411228771.6
申请日:2024-09-03
Applicant: 鹏城实验室
IPC: G06V30/148 , G06V30/19 , G06N3/0895
Abstract: 本申请公开了一种文本引导的伪装实例分割方法、装置、设备及存储介质,涉及图像技术领域,方法包括:根据各样本伪装实例的前景文本提示和各样本伪装实例的伪装区域,生成各样本伪装实例的伪标签,并通过各样本伪装实例的伪标签得到多个样本训练图像,样本伪装实例位于样本伪装图像中;根据伪装度量器评估各样本训练图像的伪装程度;根据伪装调度器、各样本训练图像的伪装程度以及各样本训练图像得到多个训练批次及各训练批次的训练信息,从而对实例分割模型进行训练,得到目标分割模型;通过目标分割模型对目标伪装图像进行分割。通过上述方式,显著提高了模型在处理伪装实例分割任务时的准确性、鲁棒性以及泛化能力,减少了对标注数据的依赖。
-
公开(公告)号:CN119006826A
公开(公告)日:2024-11-22
申请号:CN202411152736.0
申请日:2024-08-21
Applicant: 鹏城实验室
Abstract: 本申请公开了一种基于对比学习的前景物体分割方法、装置、设备及存储介质,涉及视频处理技术领域,所述方法包括:通过目标分割网络生成当前视频帧的当前预测掩码;通过目标判别网络得到当前视频帧的全局特征向量;根据全局特征向量和初始特征向量,结合相似度阈值确定特征更新方式;根据特征更新方式和当前预测掩码对记忆特征进行更新,根据更新后的记忆特征对目标视频中后续的各视频帧进行目标物体分割,直至各视频帧的物体分割完成。通过上述方式,在统一的分割框架内判别前景物体的变化状态,捕捉前景物体在变化过程中的关键特征,动态地调节记忆网络中存储的记忆特征,从而提高了各种场景下对视频前景物体序列分割的精准性和鲁棒性。
-
公开(公告)号:CN119006794A
公开(公告)日:2024-11-22
申请号:CN202411152741.1
申请日:2024-08-21
Applicant: 鹏城实验室
Abstract: 本申请公开了一种联合跟踪评估的三边互补对象检测方法、装置、设备及存储介质,涉及视频处理技术领域,所述方法包括:通过检测分支根据预测边界框得到当前视频帧的当前视频帧特征,预测边界框是跟踪分支根据上一视频帧的历史提取特征及对应的模板特征输出的;通过评估分支对当前视频帧的当前预测掩码进行质量评估,并根据联合评估结果和评估质量阈值确定特征更新结果,基于该结果对记忆特征和当前视频帧对应的模板特征进行更新,得到更新后的记忆特征和更新后的模板特征,从而对目标视频中后续的各视频帧进行目标对象检测。通过上述方式,将检测分支、跟踪分支以及评估分支作为整体架构,有效提升了检测效率,且保证了较高的检测准确度。
-
公开(公告)号:CN118229734A
公开(公告)日:2024-06-21
申请号:CN202410402430.X
申请日:2024-04-03
Applicant: 鹏城实验室
IPC: G06T7/246 , G06V20/40 , G06V20/70 , G06V10/80 , G06V10/82 , G06V10/25 , G06V10/764 , G06N3/045 , G06N3/0464
Abstract: 本发明公开了一种目标跟踪方法、装置、设备及存储介质,该方法包括:获取采样视频中的初始语言信息和区域信息,区域信息包括初始目标模板和当前搜索区域信息;将初始语言信息和区域信息输入至渐进式联合视觉语言注意力网络模型,获得搜索区域的目标中心和边界框信息,渐进式联合视觉语言注意力网络模型包括线性映射层、联合视觉语言编码层和目标预测头,每个联合视觉语言编码层包括注意力编码层、视觉语言对齐层和视觉语言修正层。由于本发明渐进式联合视觉语言注意力网络模型中每个联合视觉语言编码层包括注意力编码层、视觉语言对齐层和视觉语言修正层,实现了对语言特征和视觉特征的渐进式联合编码,提高了视觉语言跟踪的精确度和鲁棒性。
-
-
-
-
-
-
-
-
-