-
公开(公告)号:CN1168044C
公开(公告)日:2004-09-22
申请号:CN01144157.7
申请日:2001-12-13
Applicant: 中国科学院自动化研究所
CPC classification number: G06K9/00348
Abstract: 一种基于步态的远距离身份识别方法,包括训练和识别两个过程,所述的训练过程包括步骤:获取训练步态序列;空间轮廓分割;形状距离信号提取;主成分分析;个性化体格特征提取,提取可视的个性化特征作为附加特征,用于步态分类的最终校验;获得已训练的步态数据库。利用统计主元分析方法,本发明实现了一个基于步态行为的远距离身份识别系统。改进的背景减除方法被提出用于从背景中提取步态运动;具有时空变化的运动轮廓经过特征空间变换来实现步态特征的提取;识别过程采用时空相关匹配或者最近邻规则,一些与个人形体和体格有关的个性化特征亦被选择用于最终判决的校验。
-
公开(公告)号:CN119378644A
公开(公告)日:2025-01-28
申请号:CN202411229642.9
申请日:2024-09-03
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于CTTA框架的自动驾驶模型更新方法及装置,所述方法包括:基于贝叶斯神经网络结构和自动驾驶源数据构建自动驾驶模型;基于所述自动驾驶模型构建变分式平均教师模型,所述变分式平均教师模型包括学生模型和教师模型;基于变分推断更新所述学生模型,并基于指数移动平均方法更新所述教师模型。本发明提供的基于CTTA框架的自动驾驶模型更新方法及装置,构建了一种快速贝叶斯模型构建方法,将预先训练好的确定性CNN模型转换为BNN。同时构建了一种变分式平均教师结构,不仅能在分布变化下提高预测准确性,还能提供可靠的不确定性估计。
-
公开(公告)号:CN116704612B
公开(公告)日:2024-10-22
申请号:CN202310711768.9
申请日:2023-06-15
Applicant: 山东大学深圳研究院 , 山东大学 , 中国科学院自动化研究所 , 山东建筑大学 , 山东科技大学 , 银河水滴科技(北京)有限公司 , 泰华智慧产业集团股份有限公司
Abstract: 本发明涉及一种基于对抗域自适应学习的跨视角步态识别方法,包括:(1)构建整个基于对抗域自适应学习的网络并进行训练:步态轮廓预处理;步态视角级子域划分;构建嵌有层次特征聚合策略的特征提取器;构建视角变化对抗消除模块;构建度量学习模块;整个基于对抗域自适应学习的网络对抗训练;(2)跨视角步态识别:将待识别身份的步态轮廓序列送入训练好的嵌有层次特征聚合策略的特征提取器获取步态特征,与注册数据集进行特征相似性比对,完成待测样本的身份识别。本发明能够充分挖掘步态序列中时空信息的同时有效消除视角变化的干扰;本发明实现了对步态轮廓序列更为充分、综合的时空特征提取;有效增强了网络判别性步态特征提取的能力。
-
公开(公告)号:CN114972038B
公开(公告)日:2024-09-03
申请号:CN202210699194.3
申请日:2022-06-20
Applicant: 中国科学院自动化研究所 , 北京三星通信技术研究有限公司
IPC: G06T3/4053 , G06T3/4046 , G06T5/20 , G06N3/0464 , G06N3/084 , G06N3/09 , G06N3/0985
Abstract: 本发明属于模式识别与机器学习领域,具体涉及了一种基于相关性动态滤波的端到端多帧超分辨方法及系统,旨在解决现有多帧超分辨依赖光流场信息进行多帧图像的空间对齐,计算复杂、超分辨效果达不到预期的问题。本发明包括:通过特征提取器提取不同图像帧的特征,计算目标帧每个像素点与支撑帧上对应点周围像素点的特征之间的相关性,获得目标帧和每一个支撑帧的特征之间的相关性矩阵;通过滤波器计算每一个支撑帧的特征的滤波核,并进行对应的支撑帧的动态滤波;通过解码器融合目标帧和滤波后的支撑帧的特征,获得超分辨图像。本发明不依赖光流场信息进行多帧图像的空间对齐,更加轻量和稳定,可以以较小的参数量和计算量取得更优的性能。
-
公开(公告)号:CN113591546B
公开(公告)日:2023-11-03
申请号:CN202110653956.1
申请日:2021-06-11
Applicant: 中国科学院自动化研究所
IPC: G06V30/40 , G06V10/82 , G06N3/0455 , G06N3/044 , G06N3/0442
Abstract: 本发明提供一种语义增强型场景文本识别方法及装置,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,获取场景文本图像全局的视觉信息和语义信息,解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,使得场景文本识别结果准确率较高。
-
公开(公告)号:CN115796282A
公开(公告)日:2023-03-14
申请号:CN202211494136.3
申请日:2022-11-25
Applicant: 中国科学院自动化研究所
IPC: G06N5/04 , G06F40/216 , G06F40/289 , G06F40/30 , G06F16/35 , G06N3/0464 , G06N3/048 , G06N3/047 , G06N3/084
Abstract: 本申请提供一种用户属性推断模型的训练方法、推断方法和电子设备,涉及人工智能和深度学习技术领域。该方法包括:获取多个用户各自的推文内容样本,以及各用户对应的属性标签;基于多个用户各自的推文内容样本,构建多个用户对应的用户关系图;分别对多个用户各自的推文内容样本进行编码,得到多个用户各自对应的初始编码特征;将多个用户各自对应的初始编码特征和用户关系图输入至初始用户属性推断模型中,得到各用户对应的预测属性;根据各用户对应的预测属性和属性标签,对初始用户属性推断模型进行更新,以得到训练后的用户属性推断模型,解决了现有技术中如何对未知用户属性进行推断的问题,且提高了推断结果的准确度。
-
公开(公告)号:CN111783711B
公开(公告)日:2022-11-08
申请号:CN202010658060.8
申请日:2020-07-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及计算机视觉技术领域,具体涉及一种基于身体部件层面的骨架行为识别方法及装置。为了解决现有技术行为识别的准确率较低,无法满足实际使用过程的需要的问题,本发明提出一种基于身体部件层面的骨架行为识别方法及装置,该方法包括获取待识别视频中目标对象的第一骨架三维坐标,其中,第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标;基于第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定目标对象处于多个预设骨架行为类型的概率;将概率大于预设阈值的预设骨架行为类型作为目标对象对应的骨架行为类型。利用本发明的方法能够有效提高行为识别准确率。
-
公开(公告)号:CN106934817B
公开(公告)日:2020-11-10
申请号:CN201710101482.3
申请日:2017-02-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明提出一种基于多属性的多目标跟踪方法及装置。所述方法,包括:通过目标跟踪方法确定当前跟踪目标是否处于复杂交叉状态,所述复杂交叉状态是指所述当前跟踪目标在预定数量的连续图像帧中与其他目标发生重叠;在所述当前跟踪目标处于复杂交叉状态时,依次使用当前跟踪目标的身高、衣着属性、步态属性三种信息进行再识别。本发明执行速度极快,同时也保证了准确率,特别是在有交叉发生时比一般方法出错少。
-
公开(公告)号:CN106844765B
公开(公告)日:2019-12-20
申请号:CN201710098500.7
申请日:2017-02-22
Applicant: 中国科学院自动化研究所
IPC: G06F16/9535 , G06N3/08
Abstract: 本发明公开了一种基于卷积神经网络的显著信息检测方法及装置。所述方法包括:对于所爬取的数据集,确定每个事件发展各个阶段的时间分布,并确定时间节点;对于每一个事件,根据所确定的时间节点将所述事件样本对应的所有的事件信息分成若干份,将每一个时间阶段内事件信息的文本内容拼接成一个段落,生成段落数据集;根据段落的分布表达算法学习所述段落数据集中每个段落的无监督表达向量;对于一个事件,将每个段落的无监督表达向量输入到深度卷积神经网络模型,利用多层卷积操作得到事件各个阶段的低层到高层的表达,通过k最大池化操作提取事件各个阶段的关键特征,最后通过一个全连接层对输入的信息进行不实信息的分类。
-
公开(公告)号:CN110019952A
公开(公告)日:2019-07-16
申请号:CN201710940199.X
申请日:2017-09-30
Applicant: 华为技术有限公司 , 中国科学院自动化研究所
IPC: G06F16/738 , G06K9/00 , G06K9/62 , G06N3/04
Abstract: 本发明实施例提供了一种视频描述方法、系统及装置,其中,该方法可以利用基于卷积神经网络的视频编码器提取待描述视频中当前时刻视频帧的视觉特征表示;将当前时刻的视觉特征表示写入到当前时刻的视觉记忆存储器中;根据当前时刻的视觉记忆存储器和当前时刻的文本记忆存储器从当前时刻的属性记忆存储器中读取属性信息;利用基于长短时记忆网络的文本解码器根据上一时刻单词和当前时刻读取的属性信息生成预测的单词。可见,该实施例采用多模态描述方法,有助于增加视频描述的灵活性。
-
-
-
-
-
-
-
-
-