-
公开(公告)号:CN105184312B
公开(公告)日:2018-09-25
申请号:CN201510522970.2
申请日:2015-08-24
Applicant: 中国科学院自动化研究所 , 富士通株式会社
Abstract: 本发明公开了一种基于深度学习的文字检测方法及装置。所述方法包括:设计多层卷积神经网络结构,把每一个字符作为一个类别,这样就形成了一个多类别分类问题;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后用前端的特征提取层进行权值初始化,把最后一个全连接层结点数目改为2,使得网络成为一个二分类模型,用文字和非文字样本训练网络。经过以上步骤,一个文字检测分类器就完成了。在测试的时候,把全连接层转化为卷积层,给定一张输入图像,需要先进行多尺度滑动窗口扫描获得文字的概率图,再进行非极大值抑制得到最终的文字区域。
-
公开(公告)号:CN105205448A
公开(公告)日:2015-12-30
申请号:CN201510522576.9
申请日:2015-08-24
Applicant: 中国科学院自动化研究所 , 富士通株式会社
CPC classification number: G06K9/00536 , G06K9/6267 , G06K2209/01
Abstract: 一种基于深度学习的文字识别方法,包括:设计更深的多层卷积神经网络结构,把每一个字符作为一个类别;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后根据现有识别出的字符,采用维特比算法从词典中找出最有可能的词语。在测试的时候,给定一个输入,需要先进行滑动窗口扫描获得备选字符,再从备选字符中找出最可能的词语。本方法利用更深的卷积神经网络来学习文字特征,对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率。
-
公开(公告)号:CN105205448B
公开(公告)日:2019-03-15
申请号:CN201510522576.9
申请日:2015-08-24
Applicant: 中国科学院自动化研究所 , 富士通株式会社
Abstract: 一种基于深度学习的文字识别方法,包括:设计更深的多层卷积神经网络结构,把每一个字符作为一个类别;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后根据现有识别出的字符,采用维特比算法从词典中找出最有可能的词语。在测试的时候,给定一个输入,需要先进行滑动窗口扫描获得备选字符,再从备选字符中找出最可能的词语。本方法利用更深的卷积神经网络来学习文字特征,对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率。
-
公开(公告)号:CN105184312A
公开(公告)日:2015-12-23
申请号:CN201510522970.2
申请日:2015-08-24
Applicant: 中国科学院自动化研究所 , 富士通株式会社
CPC classification number: G06K9/6256 , G06K9/627 , G06N3/088
Abstract: 本发明公开了一种基于深度学习的文字检测方法及装置。所述方法包括:设计多层卷积神经网络结构,把每一个字符作为一个类别,这样就形成了一个多类别分类问题;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后用前端的特征提取层进行权值初始化,把最后一个全连接层结点数目改为2,使得网络成为一个二分类模型,用文字和非文字样本训练网络。经过以上步骤,一个文字检测分类器就完成了。在测试的时候,把全连接层转化为卷积层,给定一张输入图像,需要先进行多尺度滑动窗口扫描获得文字的概率图,再进行非极大值抑制得到最终的文字区域。
-
公开(公告)号:CN118982727A
公开(公告)日:2024-11-19
申请号:CN202410993712.1
申请日:2024-07-23
Applicant: 中国科学院自动化研究所
IPC: G06V10/774 , G06V30/19 , G06N3/096
Abstract: 本公开关于一种多模态信息检测模型的训练方法、检测方法及系统,所述训练方法包括:获取多模态训练样本集和样本标注信息;针对多模态样本信息中的每个模态,通过屏蔽在该模态之外的其他模态的信息,得到单模态样本集;分别将多模态训练样本集和单模态样本集输入到多模态信息检测模型中,得到多模态预测和单模态预测;基于多模态预测、单模态预测和样本标注信息,确定预测损失;利用预测损失,对多模态信息检测模型进行训练。本公开的多模态信息检测模型的训练方法、检测方法及系统可以解决不同模态的学习程度不同导致难以提升模型准确性的问题,可以充分学习到每个单模态的特征,在训练中充分利用各模态的信息,提升模型的训练效果和准确性。
-
公开(公告)号:CN118135659B
公开(公告)日:2024-09-20
申请号:CN202410326441.4
申请日:2024-03-21
Applicant: 山东大学 , 中国科学院自动化研究所 , 山东科技大学 , 银河水滴科技(江苏)有限公司 , 泰华智慧产业集团股份有限公司
Abstract: 本发明涉及一种基于多尺度骨架时空特征提取的跨视角步态识别方法,属于深度学习和模式识别技术领域,包括骨架数据预处理、全局空间特征提取网络构建、局部空间特征提取网络构建、多尺度时间特征提取网络构建、整体框架训练及跨视角步态识别。构建全局空间特征提取网络提取全局空间特征,构建基于超图表示的局部空间特征提取网络,充分建模关节‑部位、部位‑部位级局部空间关系。为了高效地提取多尺度时间特征,构建了多尺度时间特征提取网络。为了提高整个框架结构的判别能力,联合三元组损失和交叉熵损失对整个模型进行训练。最终利用训练好的模型进行跨视角步态识别。
-
公开(公告)号:CN116704612A
公开(公告)日:2023-09-05
申请号:CN202310711768.9
申请日:2023-06-15
Applicant: 山东大学深圳研究院 , 山东大学 , 中国科学院自动化研究所 , 山东建筑大学 , 山东科技大学 , 银河水滴科技(北京)有限公司 , 泰华智慧产业集团股份有限公司
Abstract: 本发明涉及一种基于对抗域自适应学习的跨视角步态识别方法,包括:(1)构建整个基于对抗域自适应学习的网络并进行训练:步态轮廓预处理;步态视角级子域划分;构建嵌有层次特征聚合策略的特征提取器;构建视角变化对抗消除模块;构建度量学习模块;整个基于对抗域自适应学习的网络对抗训练;(2)跨视角步态识别:将待识别身份的步态轮廓序列送入训练好的嵌有层次特征聚合策略的特征提取器获取步态特征,与注册数据集进行特征相似性比对,完成待测样本的身份识别。本发明能够充分挖掘步态序列中时空信息的同时有效消除视角变化的干扰;本发明实现了对步态轮廓序列更为充分、综合的时空特征提取;有效增强了网络判别性步态特征提取的能力。
-
公开(公告)号:CN111783713B
公开(公告)日:2022-12-02
申请号:CN202010659078.X
申请日:2020-07-09
Applicant: 中国科学院自动化研究所
Abstract: 本发明涉及一种基于关系原型网络的弱监督时序行为定位方法及装置。为了解决现有技术人为标注信息对训练网络模型耗时耗力且引入主观因素的问题,本发明提出一种基于关系原型网络的弱监督时序行为定位方法,包括按预设时间间隔将待识别视频划分为多个视频片段,将每个视频片段对应的光流图像以及多个视频片段,输入预先训练好的行为定位模型;通过行为定位模型,确定每个视频片段中人类行为与预先设定的目标行为的第一相似度;根据第一相似度与预设阈值的比较结果,确定每个视频片段中人类行为所属的行为类别。本发明的方法能够对不同行为之间的关系进行建模,通过聚类损失,能够使行为各部分的特征尽可能靠近,从而实现定位完整行为片段。
-
公开(公告)号:CN114943039A
公开(公告)日:2022-08-26
申请号:CN202210421086.X
申请日:2022-04-20
Applicant: 中国科学院自动化研究所
IPC: G06F16/9536
Abstract: 本申请提供一种基于协同过滤推荐模型的物品推荐方法及装置,方法包括:获取目标用户的历史行为数据,基于所述历史行为数据构建数据序列,所述数据序列中包括与所述目标用户交互的多个物品的初始向量表示;将所述数据序列输入物品推荐模型中,确定所述目标用户的用户向量表示,并基于相似物品选择策略和基于注意力机制的向量融合方法确定目标物品的增强式向量表示;基于所述目标物品的增强式向量表示和所述目标用户的用户向量表示,确定所述目标用户对所述目标物品的喜爱程度预测值,并基于所述喜爱程度预测值对所述目标物品进行推荐,实现更精准地计算用户对物品的喜好程度,提高了物品推荐模型的推荐效果。
-
公开(公告)号:CN108681689B
公开(公告)日:2021-06-04
申请号:CN201810282478.6
申请日:2018-04-02
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉领域,具体涉及一种基于生成对抗网络的帧率增强步态识别方法及装置,旨在降低识别图像的噪声,提高步态识别的准确率。该方法具体包括:首先通过一个生成对抗网络生成数据集中连续两帧之间的帧,然后将生成帧与原始帧合并计算步态能量图,然后通过步态能量图识别网络对个体进行识别。该方法中的生成对抗网络能够显著提高原始图像序列的帧率,同时生成的图像对噪声具有较好的鲁棒性,能够起到对步态能量图进行降噪的作用,同时在步态能量图识别网络中加入了新型边界比率损失函数,能够极好地平衡不同损失函数之间的量级,大大提升模型训练的稳定性。本方法能够明显提升跨视角及不跨视角的步态识别率。
-
-
-
-
-
-
-
-
-