-
公开(公告)号:CN117095163A
公开(公告)日:2023-11-21
申请号:CN202310941607.9
申请日:2023-07-28
Applicant: 中国科学院自动化研究所 , 北京工业大学
Abstract: 本发明提供一种基于元对齐与元掩码的小样本图像语义分割方法和装置,其中方法包括:确定查询图像、支持图像,以及支持图像的像素类别信息,查询图像和支持图像的图像类别相同;基于像素类别信息,对支持图像的支持特征和查询图像的查询特征进行原型对齐,得到原型对齐特征;基于支持特征和查询特征之间的相关性,对支持特征和所述查询特征进行特征对齐,得到对齐特征;基于原型对齐特征和所述对齐特征,对查询图像进行语义分割,得到查询图像的语义分割结果,克服了传统方案中小样本语义分割中类内偏差严重,以致语义分割的准确性低下的缺陷,利用支持图像和查询图像之间的语义一致性信息有效缓解了类内偏差,提升了语义分割的准确性和精确度。
-
公开(公告)号:CN116861978A
公开(公告)日:2023-10-10
申请号:CN202310748273.3
申请日:2023-06-21
Applicant: 中国科学院自动化研究所 , 中国科学院大学
Abstract: 本发明提供一种脉冲神经网络训练方法、装置、电子设备及存储介质,其中方法包括:构建输入脉冲序列和输出脉冲序列之间的关系;基于关系得到稳定脉冲输入流、稳定脉冲输出流和平均脉冲电量;脉冲编码器将样本数据转换为样本脉冲序列编码;将样本脉冲序列编码输入至脉冲神经网络进行前向传播,得到每一层的输入与输出和前向传播的输出;基于前向传播的输出与真实标签,确定全局误差;基于梯度和稳定脉冲输出流,得到稳定脉冲输出流的梯度;基于稳定脉冲输出流的梯度,确定反向传播梯度;进行梯度反传,直至全局误差小于预设阈值,由此,能够越过时间维度上的误差反传过程,从而减小训练开销,并且在极大降低训练开销的同时获得表现优异的模型。
-
公开(公告)号:CN115063789B
公开(公告)日:2023-08-04
申请号:CN202210574052.4
申请日:2022-05-24
Applicant: 中国科学院自动化研究所
IPC: G06V20/64 , G06V10/774 , G06V10/82 , G06V10/74 , G06V10/40
Abstract: 本发明提供一种基于关键点匹配的3D目标检测方法及装置,其中方法包括:对二维图像进行目标检测,得到二维图像所包含目标的各关键点的二维坐标和三维坐标;基于各关键点的二维坐标和三维坐标,确定目标的各二维边和各三维边;对目标进行深度估计,得到各二维边和各三维边对应的候选深度;基于目标的各二维边的边特征和各三维边的边特征之间的差异,确定各二维边与各三维边之间的相似度;基于各二维边和各三维边对应的候选深度,以及各二维边与各三维边之间的相似度,确定目标的目标深度;基于目标的目标深度,进行3D目标检测。在此基础上,将得到的目标深度应用于目标检测,能够保证目标检测的可靠性和准确性。
-
公开(公告)号:CN114596876B
公开(公告)日:2023-04-07
申请号:CN202210073239.6
申请日:2022-01-21
Applicant: 中国科学院自动化研究所
IPC: G10L21/0272 , G10L21/0308 , G06N3/08 , G06N3/0464 , H04N21/233 , H04N21/439
Abstract: 本发明提供一种声源分离方法及装置,所述方法包括:获取视频帧图像中的视觉引导特征;将第一混叠多声源声谱图和所述视觉引导特征输入训练好的预测编码循环卷积神经网络模型,获取第一掩膜图;根据所述第一混叠多声源声谱图和所述第一掩膜图,获取分离的声音信号。本发明通过将视觉引导特征和混叠多声源声谱图输入训练好的预测编码循环卷积神经网络模型预测各声音分量的掩膜图,然后利用掩膜图和混叠多声源声谱图获取分离的声音信号,实现声谱图和视觉引导特征在同一网络模型中进行处理,网络模型规模小,且视觉特征和声音特征能够渐进式的有效融合,提高了声源分离的精度。
-
公开(公告)号:CN114743041A
公开(公告)日:2022-07-12
申请号:CN202210225051.9
申请日:2022-03-09
Applicant: 中国科学院自动化研究所
IPC: G06V10/764 , G06V10/774 , G06V10/74 , G06K9/62 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种预训练模型抽选框架的构建方法及装置,该方法包括:选取图像数据集和自监督对比学习框架;根据图像数据集和自监督对比学习框架对构建的超网预训练模型进行训练,得到训练好的超网预训练模型;选取下游迁移任务和下游迁移数据集;在基于自监督对比学习框架获取的采样空间中筛选符合预设条件的第一模型,基于下游迁移任务和下游迁移数据集计算第一模型与训练好的超网预训练模型的相似度;基于相似度的计算结果,确定与训练好的超网预训练模型共享权重的目标预训练模型,得到预训练模型抽选框架。该方法可以实现高效的下游任务定制化抽取,抽取出的模型具有极佳的泛化能力。
-
公开(公告)号:CN114663347A
公开(公告)日:2022-06-24
申请号:CN202210116791.9
申请日:2022-02-07
Applicant: 中国科学院自动化研究所
Abstract: 本申请提供一种无监督的物体实例检测方法及装置。所述方法包括:将待检测图像输入训练好的深度神经网络模型,根据训练好的深度神经网络模型中的亲和度函数,获取待检测图像的各像素间的亲和度矩阵;根据亲和度矩阵,对待检测图像进行物体检测,获取待检测图像中的各物体实例;其中,亲和度函数用于确定像素点之间的亲和度,由视频帧序列中图像帧对应的目标深度图的目标场景流作为监督信号,输入深度神经网络模型中训练得到。本申请实施例提供的无监督的物体实例检测方法可以解决在复杂场景下的物体检测问题,提高复杂场景下的物体检测的准确性。
-
公开(公告)号:CN114596876A
公开(公告)日:2022-06-07
申请号:CN202210073239.6
申请日:2022-01-21
Applicant: 中国科学院自动化研究所
IPC: G10L21/0272 , G10L21/0308 , G06N3/08 , G06N3/04 , H04N21/233 , H04N21/439
Abstract: 本发明提供一种声源分离方法及装置,所述方法包括:获取视频帧图像中的视觉引导特征;将第一混叠多声源声谱图和所述视觉引导特征输入训练好的预测编码循环卷积神经网络模型,获取第一掩膜图;根据所述第一混叠多声源声谱图和所述第一掩膜图,获取分离的声音信号。本发明通过将视觉引导特征和混叠多声源声谱图输入训练好的预测编码循环卷积神经网络模型预测各声音分量的掩膜图,然后利用掩膜图和混叠多声源声谱图获取分离的声音信号,实现声谱图和视觉引导特征在同一网络模型中进行处理,网络模型规模小,且视觉特征和声音特征能够渐进式的有效融合,提高了声源分离的精度。
-
公开(公告)号:CN113792751A
公开(公告)日:2021-12-14
申请号:CN202110860109.2
申请日:2021-07-28
Applicant: 中国科学院自动化研究所
IPC: G06K9/62
Abstract: 本发明提供一种跨域行为识别方法、装置、设备及可读存储介质,涉及视觉识别技术领域,该方法包括以下步骤;将待预测数据输入至行为识别模型中,得到行为识别模型输出的视频动作识别结果;其中,行为识别模型通过对融合训练集和源域训练集训练得到,融合训练集为根据同类预测结果融合和比例渐进融合原则将目标域融合数据与源域训练集进行融合得到,目标域融合数据为根据预测结果和预测结果对应的置信度得分从目标域训练集选取得到,预测结果和置信度得分由将目标域训练集输入至预训练行为识别模型中得到,预训练行为识别模型通过对源域训练集进行训练得到,本发明能兼容域之间的差异,具有通用性并且兼顾了精确度的要求。
-
公开(公告)号:CN113221903B
公开(公告)日:2021-10-15
申请号:CN202110511242.7
申请日:2021-05-11
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种跨域自适应语义分割方法及系统,所述方法包括获取不同域训练数据集;对训练数据集进行迭代训练,建立熵值预测模型:根据熵值预测模型,计算目标域数据的熵值;对各熵值进行多元高斯拟合,通过最大期望算法,得到两个峰值的高斯分布;根据所述高斯分布,确定伪标签;根据伪标签,重新训练目标域数据,构造语义分割模型;基于所述语义分割模型,对待处理数据进行语义分割。本发明通过对不同域训练数据集进行迭代训练,建立熵值预测模型,进而计算熵值,通过多元高斯拟合,最大期望算法,得到高斯分布,确定目标域数据的伪标签,排除手工阈值的干扰,以便于准确构造基于伪标签的语义分割模型,从而实现对待处理数据的自动语义分割。
-
公开(公告)号:CN113158909A
公开(公告)日:2021-07-23
申请号:CN202110447553.1
申请日:2021-04-25
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉领域,具体涉及一种基于多目标跟踪的行为识别轻量化方法、系统、设备,旨在解决现有行为识别方法无法直接识别多目标视频数据中每个个体行为的问题。本发明方法包括:获取输入视频中t时刻的图像帧,作为输入图像;获取多个检测目标分别对应的检测框作为目标检测框;并提取各目标检测框的特征,作为第一特征;利用卡尔曼滤波算法预测t‑1时刻各追踪到的目标在t时刻图像帧中对应的检测框,并提取各检测框的特征,作为第二特征;将第一特征、第二特征进行匹配,获得视频中每个目标的跟踪序列;对各目标的跟踪序列,通过预构建的行为分类模型获取其对应的行为分类结果。本发明实现了多目标视频数据中每个个体行为的识别。
-
-
-
-
-
-
-
-
-