-
公开(公告)号:CN105184312B
公开(公告)日:2018-09-25
申请号:CN201510522970.2
申请日:2015-08-24
Applicant: 中国科学院自动化研究所 , 富士通株式会社
Abstract: 本发明公开了一种基于深度学习的文字检测方法及装置。所述方法包括:设计多层卷积神经网络结构,把每一个字符作为一个类别,这样就形成了一个多类别分类问题;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后用前端的特征提取层进行权值初始化,把最后一个全连接层结点数目改为2,使得网络成为一个二分类模型,用文字和非文字样本训练网络。经过以上步骤,一个文字检测分类器就完成了。在测试的时候,把全连接层转化为卷积层,给定一张输入图像,需要先进行多尺度滑动窗口扫描获得文字的概率图,再进行非极大值抑制得到最终的文字区域。
-
公开(公告)号:CN105205448A
公开(公告)日:2015-12-30
申请号:CN201510522576.9
申请日:2015-08-24
Applicant: 中国科学院自动化研究所 , 富士通株式会社
CPC classification number: G06K9/00536 , G06K9/6267 , G06K2209/01
Abstract: 一种基于深度学习的文字识别方法,包括:设计更深的多层卷积神经网络结构,把每一个字符作为一个类别;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后根据现有识别出的字符,采用维特比算法从词典中找出最有可能的词语。在测试的时候,给定一个输入,需要先进行滑动窗口扫描获得备选字符,再从备选字符中找出最可能的词语。本方法利用更深的卷积神经网络来学习文字特征,对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率。
-
公开(公告)号:CN105205448B
公开(公告)日:2019-03-15
申请号:CN201510522576.9
申请日:2015-08-24
Applicant: 中国科学院自动化研究所 , 富士通株式会社
Abstract: 一种基于深度学习的文字识别方法,包括:设计更深的多层卷积神经网络结构,把每一个字符作为一个类别;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后根据现有识别出的字符,采用维特比算法从词典中找出最有可能的词语。在测试的时候,给定一个输入,需要先进行滑动窗口扫描获得备选字符,再从备选字符中找出最可能的词语。本方法利用更深的卷积神经网络来学习文字特征,对于文字的颜色、大小、光照、模糊具有鲁棒性,字符识别和词语识别能够保持较高的准确率。
-
公开(公告)号:CN105184312A
公开(公告)日:2015-12-23
申请号:CN201510522970.2
申请日:2015-08-24
Applicant: 中国科学院自动化研究所 , 富士通株式会社
CPC classification number: G06K9/6256 , G06K9/627 , G06N3/088
Abstract: 本发明公开了一种基于深度学习的文字检测方法及装置。所述方法包括:设计多层卷积神经网络结构,把每一个字符作为一个类别,这样就形成了一个多类别分类问题;采用反向传播算法训练卷积神经网络用以识别单一字符,有监督地最小化该网络的目标函数,得到字符识别模型;最后用前端的特征提取层进行权值初始化,把最后一个全连接层结点数目改为2,使得网络成为一个二分类模型,用文字和非文字样本训练网络。经过以上步骤,一个文字检测分类器就完成了。在测试的时候,把全连接层转化为卷积层,给定一张输入图像,需要先进行多尺度滑动窗口扫描获得文字的概率图,再进行非极大值抑制得到最终的文字区域。
-
公开(公告)号:CN112784918B
公开(公告)日:2023-06-30
申请号:CN202110137847.4
申请日:2021-02-01
Applicant: 中国科学院自动化研究所
Inventor: 王威
IPC: G06V30/19 , G06N3/0464 , G06N3/088
Abstract: 本发明属于大数据分析、模式识别和神经网络技术领域,具体涉及一种基于无监督图表示学习的节点识别方法、系统、装置,旨在解决现有基于图神经网络的节点识别方法需要大量的标签样本,在标注样本较少时,造成图神经网络训练困难以及识别精度较低的问题。本系统方法包括获取待识别的数据,作为输入数据;构建输入数据的图结构,得到图结构数据,并通过训练好的多层图神经网络获取所述图结构数据中各节点的特征表示;基于特征表示,通过预训练的分类器得到图结构数据中各节点所属的类别。本发明减少了样本标注的需求,简化了网络训练的难度,并能在少量标记样本的监督下实现具有较高精度的节点识别。
-
公开(公告)号:CN112818887A
公开(公告)日:2021-05-18
申请号:CN202110180567.1
申请日:2021-02-08
Applicant: 中国科学院自动化研究所
Inventor: 王威
Abstract: 本发明属于计算机视觉、模式识别和神经网络技术领域,具体涉及一种基于无监督学习的人体骨架序列行为识别方法,旨在解决现有行为识别方法在标注数据较少时,训练困难以及识别精度较低的问题。本系统方法包括获取一组待识别的人体骨架序列;组合子序列正、负样本对;提取子序列正、负样本对中各子序列对应的骨架节点的位置坐标序列、速度坐标序列,并对应的正负样本对;提取各位置坐标序列的特征向量、各速度坐标序列的特征向量;串联各子序列的位置坐标序列特征向量、速度坐标序列特征向量;通过分类器得到待识别的人体骨架序列所属的行为类别。本发明简化了训练的难度,并能在少量标记样本的监督下实现较高精度的行为识别。
-
公开(公告)号:CN110210372A
公开(公告)日:2019-09-06
申请号:CN201910454937.9
申请日:2019-05-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉及模式识别领域,具体涉及了一种基于注意增强图卷积网络的骨架行为识别方法、系统,旨在解决如何有效学习人体骨架数据的时空特征并提升行为识别准确率的问题。本发明方法包括:获取人体骨架序列作为待识别骨架序列;通过训练好的骨架行为识别网络,获取预设行为的概率;选择概率最高的预设行为作为所述待识别骨架序列的预测行为。本发明不仅可以获取具有判别性的空间结构特征和时间动态特征,还可以获取时空之间的关系特征,利用注意机制自适应选择重要的信息,强化关键部位的信息,获取更加鲁棒的表示。
-
公开(公告)号:CN103838836B
公开(公告)日:2016-09-28
申请号:CN201410064933.7
申请日:2014-02-25
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
Abstract: 本发明公开了一种基于判别式多模态深度置信网的多模态数据融合方法,该方法包括以下步骤:建立判别式多模态深度置信网;对于多个模态数据对应的深度置信网,利用限制波尔兹曼机,获得深度置信网优化后的网络权重;采用交替优化的策略来最小化判别式多模态玻尔兹曼机的目标函数,获得优化后的玻尔兹曼机权重,得到最终的判别式多模态深度置信网模型;向深度置信网模型输入待融合的多模态数据,得到融合结果。本发明还公开了一种基于判别式多模态深度置信网的多模态数据融合系统。本发明通过在传统多模态深度置信网络中引入有监督的标签信息,判别式的挖掘不同模态数据之间的关联性,从而在大规模多模态数据分类和检索任务中可以保证较高的准确率。
-
公开(公告)号:CN103838836A
公开(公告)日:2014-06-04
申请号:CN201410064933.7
申请日:2014-02-25
Applicant: 中国科学院自动化研究所
IPC: G06F17/30
CPC classification number: G06F17/30533
Abstract: 本发明公开了一种基于判别式多模态深度置信网的多模态数据融合方法,该方法包括以下步骤:建立判别式多模态深度置信网;对于多个模态数据对应的深度置信网,利用限制波尔兹曼机,获得深度置信网优化后的网络权重;采用交替优化的策略来最小化判别式多模态玻尔兹曼机的目标函数,获得优化后的玻尔兹曼机权重,得到最终的判别式多模态深度置信网模型;向深度置信网模型输入待融合的多模态数据,得到融合结果。本发明还公开了一种基于判别式多模态深度置信网的多模态数据融合系统。本发明通过在传统多模态深度置信网络中引入有监督的标签信息,判别式的挖掘不同模态数据之间的关联性,从而在大规模多模态数据分类和检索任务中可以保证较高的准确率。
-
公开(公告)号:CN113705322B
公开(公告)日:2024-05-24
申请号:CN202110655846.9
申请日:2021-06-11
Applicant: 北京易达图灵科技有限公司 , 南京南瑞信息通信科技有限公司 , 中国科学院自动化研究所
IPC: G06V30/32 , G06V10/82 , G06N3/0442 , G06N3/042 , G06N3/08
Abstract: 本发明提供一种基于门限图神经网络的手写汉字识别方法和装置,其中方法包括:确定待识别汉字的汉字节点矩阵以及空间信息关系矩阵;所述汉字节点矩阵中的各汉字节点为所述待识别汉字的书写视频中每一时刻书写位置的坐标;将所述汉字节点矩阵和所述空间信息关系矩阵输入至汉字识别模型中,得到所述汉字识别模型输出的识别结果;其中,所述汉字识别模型用于基于门限图神经网络,提取所述汉字节点矩阵对应的包含图结构信息的汉字特征向量,提取所述汉字特征向量中的时序信息,得到时序特征向量,并基于所述时序特征向量经由瓶颈网络进行手写汉字识别。本发明综合了汉字的空间结构信息和时序信息,提高了手写汉字识别的准确性。
-
-
-
-
-
-
-
-
-