-
公开(公告)号:CN1691054A
公开(公告)日:2005-11-02
申请号:CN200410035084.9
申请日:2004-04-23
Applicant: 中国科学院自动化研究所
Abstract: 一种基于内容的图像识别方法,包括步骤:首先对图像进行网格划分;然后以网格各节点为初始位置进行区域生长来获取图像中各节点周围的肤色信息;利用网格单元区域和各节点的相互投票的机制确定图像中的兴趣点和兴趣区域;在兴趣区域和兴趣点的基础上,利用点的运动提取图像中人体躯干的轮廓;最后,提取轮廓信息和轮廓内部中的局部信息生成特征向量对图像进行识别和性质判断。本发明突破了诸如色彩直方图匹配、小波变换轮廓匹配、肤色纹理描述、图像中心矩匹配等现有敏感图像识别技术速度慢、效率低、设备依赖性强等方面的难题,解决了三点式泳装图像,裸体图像和人脸图像的分类,使敏感图像识别技术得到了进一步的扩展并开拓了广阔的应用前景。
-
公开(公告)号:CN1508756A
公开(公告)日:2004-06-30
申请号:CN02157115.5
申请日:2002-12-17
Applicant: 中国科学院自动化研究所
IPC: G06T7/60
Abstract: 一种基于人体局部和形体信息的敏感图像识别方法,包括步骤:对静态敏感图像进行划分;确定区域几何点;采用生长点的自主抖动确定生长点所属区域的图像局部特征;进行图像性质判断。本发明是一种新型的敏感图像识别技术,突破了诸如色彩直方图匹配、小波变换轮廓匹配、肤色纹理描述、图像中心矩匹配等国际现有敏感图像识别技术速度慢、效率低、设备依赖性强等方面的难题,具有广阔的应用前景。
-
公开(公告)号:CN119580333B
公开(公告)日:2025-05-02
申请号:CN202510127478.9
申请日:2025-01-27
Applicant: 中国科学院自动化研究所
Abstract: 本公开关于人脸图像鉴伪模型的训练方法、人脸图像鉴伪方法和装置,包括:提取训练样本图像中多个类型的指定特征;将多个类型的指定特征进行拼接;将指定拼接特征分别输入多个特征提取模块;利用每个特征提取模块输出的模型提取特征进行融合;将融合特征输入全连接层以预测训练样本图像的真伪;基于真实类别标签、预测结果和融合特征,计算损失;通过根据损失调整每个特征提取模块的参数。这样,通过预先从不同角度设计有针对性的指定特征,可以实现提高特征提取的全面性和丰富性。另外,还可以通过综合不同特征提取模块的优势来提高特征表示的鲁棒性和多样性,从而可以更好地应对复杂和多变的鉴伪场景。
-
公开(公告)号:CN119399029B
公开(公告)日:2025-04-08
申请号:CN202510013541.6
申请日:2025-01-06
Applicant: 中国科学院自动化研究所
IPC: G06T3/4053 , G06N3/084 , G06N3/0895
Abstract: 本发明公开了一种基于解耦对比学习的隐式图像退化估计方法,属于图像盲超分辨率技术领域,所述方法采样具有相同退化信息的不同LR图像中的图块来构建正样本集合,在数据层面保障了内容、纹理等任务无关信息不会影响退化特征学习,同时,通过不断地循环配对采样图块来实现数据扩增;在训练过程中引入特征增强策略增加相同退化类型的正样本数量,从而在训练过程中进一步扩展每个退化类别的样本多样性,以保障网络更充分的学习退化信息。将利用本发明训练的隐式图像退化估计器应用于基于隐式退化特征引导的盲图像超分辨率网络,可以有效提升LR图像的退化信息建模质量,进而改善LR图像到HR图像的重建效果。
-
公开(公告)号:CN119339100A
公开(公告)日:2025-01-21
申请号:CN202411371157.5
申请日:2024-09-29
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06V10/44 , G06V10/764 , G06V10/80 , G06N3/045 , G06N3/0464 , G06N3/049
Abstract: 本发明涉及神经网络技术领域,公开了一种基于SNN信息补充的图像识别方法、装置、设备及介质,该方法包括:获取目标图像,并输入图像识别模型中的脉冲神经网络和卷积神经网络,进行特征提取并前向传播;在每个对应处理阶段,对脉冲神经网络和卷积神经网络中当前处理阶段各自对应的输入特征进行处理,得到第一特征和第二特征,将其合并为第三特征,将第三特征和第二特征分别输出至脉冲神经网络和卷积神经网络的下一处理阶段;当脉冲神经网络的最后的处理阶段得到目标特征后,通过其全连接层基于目标特征确定目标图像的分类结果,本发明通过卷积神经网络为脉冲神经网络每个阶段提取的特征提供补充特征,从而提高脉冲神经网络的图像处理性能。
-
公开(公告)号:CN119169045A
公开(公告)日:2024-12-20
申请号:CN202411283206.X
申请日:2024-09-12
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
Abstract: 本公开提供一种基于类脑脉冲的光流估计方法、装置、介质和计算机设备。光流估计方法包括:获取事件相机数据和帧相机数据;通过脉冲神经网络从事件相机数据提取第一特征;通过卷积神经网络从帧相机数据提取第二特征;拼接第一特征和第二特征,以获得第三特征并且利用残差网络对第三特征进行转换,以获得转换特征;利用光流细化网络对转换特征、脉冲神经网络的除了输出层之外的至少一层提取的特征和卷积神经网络的除了输出层之外的至少一层提取的特征进行光流细化,以生成光流场。
-
公开(公告)号:CN118520153B
公开(公告)日:2024-12-06
申请号:CN202410972733.5
申请日:2024-07-19
Applicant: 中国科学院自动化研究所
IPC: G06F16/903 , G06N3/0455 , G06N3/08
Abstract: 本发明提供一种NFT跨模态检索方法、装置及存储介质,涉及电数字数据处理技术领域,所述方法包括:获取用于检索的语义信息;将所述语义信息输入至NFT跨模态检索模型中,基于置信累加两阶段搜索算法获取与语义信息最为匹配的NFT检索结果,所述NFT跨模态检索模型是基于动态组件差分训练得到的。本发明提供的NFT跨模态检索方法、装置及存储介质,可以根据动态组件差分训练得到NFT跨模态检索模型,然后根据NFT跨模态检索模型通过置信累加两阶段搜索算法,从而能够根据用户输入的语义信息输出与之最为匹配的检索结果,可以提高NFT图像的检索精度。
-
公开(公告)号:CN118378153B
公开(公告)日:2024-12-06
申请号:CN202410834192.X
申请日:2024-06-26
Applicant: 中国科学院自动化研究所 , 人民中科(北京)智能技术有限公司
IPC: G06F18/241 , G06N3/0464 , G06N3/049
Abstract: 本发明提供一种地面材质识别方法、装置、电子设备及存储介质,涉及数据处理技术领域,所述方法包括:采集待识别地面材质引气的压力变化时序数据,将预处理后的压力变化时序数据输入训练好的1D‑SNN模型进行地面材质识别,得到识别结果;其中,1D‑SNN模型是基于1D‑CNN和脉冲神经元构建的,1D‑CNN用于提取压力变化时序数据的局部时序特征,脉冲神经元用于提取压力变化时序数据的全局时序特征。本发明在面对地面材质的多样性和环境的复杂性时,有效提升地面材质识别的准确性和稳定性,进而增强智能车辆的适应性和安全驾驶能力。
-
公开(公告)号:CN118133241B
公开(公告)日:2024-09-13
申请号:CN202410552190.1
申请日:2024-05-07
Applicant: 中国科学院自动化研究所
IPC: G06F18/27 , G06F18/213 , G06N3/0455 , G06N3/0895 , G06N3/096
Abstract: 本发明涉及多模态技术领域,提供一种多模态预训练模型的训练方法、装置、设备和存储介质,包括:构建多模态预训练模型,包括视觉编码器、多语言编码器以及英文解码器;基于图像‑英文文本数据获取第一损失函数;基于多语言文本‑英文文本数据获取第二损失函数;基于目标文本‑图像数据应用于视觉编码器与多语言编码器进行对比学习获取第三损失函数;基于目标文本‑图像数据的相似度矩阵获取强负样本数据,基于强负样本数据与正样本数据应用于英文解码器获取第四损失函数;基于第一损失函数、第二损失函数、第三损失函数以及第四损失函数,得到训练好的多模态预训练模型。本发明既有效缓解对多语言‑图像数据的依赖,又直接有效的利用视觉特征。
-
公开(公告)号:CN118410210A
公开(公告)日:2024-07-30
申请号:CN202410845065.X
申请日:2024-06-27
Applicant: 中国科学院自动化研究所
IPC: G06F16/783 , G06N20/00
Abstract: 本发明涉及机器学习技术领域,提供一种基于事件感知的跨模态视频文本检索模型的训练方法,方法包括:获取样本视频和初始检索模型,样本视频包含各视频帧的帧描述;提取各视频帧的帧特征和样本视频的视频特征;基于各视频帧的帧特征和各帧描述的帧文本特征进行事件内容对齐确定事件内容感知损失;基于视频特征和样本视频的整体文本特征进行事件时序对齐,确定事件时序感知损失;基于事件内容感知损失和事件时序感知损失,得到跨模态视频文本检索模型。本发明提供的方法,通过进行视频帧粒度的事件内容对齐和视频粒度的事件时序对齐,使得跨模态视频文本检索模型的事件理解能力大大提升,进而提升跨模态视频文本检索能力和鲁棒性。
-
-
-
-
-
-
-
-
-