-
公开(公告)号:CN106778757B
公开(公告)日:2019-06-04
申请号:CN201611137890.6
申请日:2016-12-12
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于文本显著性的场景文本检测方法,该方法包括如下步骤:初始文本显著性检测、文本显著性细化和文本显著性区域分类。在初始文本显著性检测阶段,设计了用于文本显著性检测的CNN模型,该模型能从图像中自动学习能够表征文本内在属性的特征并得到对文本有意识的显著性图。在文本显著性细化阶段,设计了文本显著性细化CNN模型用来对粗糙的文本显著性区域进行进一步文本显著性检测。在文本显著性区域分类阶段,使用文本显著性区域分类CNN模型过滤非文本区域,并得到最终的文本检测结果。本发明通过在场景文本检测过程中引入显著性检测,能有效地检测场景中的文本区域,提高场景文本检测方法的性能。
-
公开(公告)号:CN106157319B
公开(公告)日:2018-11-02
申请号:CN201610604732.0
申请日:2016-07-28
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于卷积神经网络的区域和像素级融合的显著性检测方法,该方法研究的对象是静态图像,其中图像的内容可以是任意的,研究的目标是从图像中找出吸引人眼注意力的目标,并为其赋予不同的显著性值。本发明主要提出了一种自适应的区域生成技术,并设计了两个CNN网络结构,分别用于像素级显著性预测和显著性融合。这两个CNN网络模型以图像作为输入,以图像的真实结果作为监督信号用于网络模型的训练,并最终输出与输入图像大小一致的显著性图。本发明能有效地进行区域级显著性估计和像素级显著性预测,得到两个显著性图,最后使用进行显著性融合的CNN将两个显著性图及原始图像进行融合得到最终的显著性图。
-
公开(公告)号:CN106599804A
公开(公告)日:2017-04-26
申请号:CN201611086625.X
申请日:2016-11-30
Applicant: 哈尔滨工业大学
IPC: G06K9/00
CPC classification number: G06K9/0061
Abstract: 本发明公开了一种基于多特征模型的视网膜中央凹检测方法,所述视网膜中央凹检测方法包括以下步骤:一、全局先验特征提取,二、局部先验特征提取,三、深度特征提取,四、建立融合多特征的中央凹检测模型,通过提取中央凹的全局、局部以及深度特征信息并进行有效融合,完成对视网膜中央凹的精确检测。本发明可以有效克服眼底光照噪声、眼底病变以及异常血管分布对中央凹自动检测的影响,提高中央凹检测的精度和鲁棒性,从而为基于视网膜图像的身份识别提供更加稳健的身份特征信息。
-
公开(公告)号:CN103793642A
公开(公告)日:2014-05-14
申请号:CN201410074050.4
申请日:2014-03-03
Applicant: 哈尔滨工业大学
CPC classification number: G06F21/32 , G06K9/00006 , H04L9/3231 , H04L63/0861 , H04W12/06
Abstract: 本发明提供一种移动互联网掌纹身份认证方法,分为注册和识别两个阶段。在注册阶段,通过智能移动设备自带的摄像头获取待注册用户的掌纹图像,并通过网络上传到服务器,服务器端经过手掌定位与感兴趣区域提取、掌纹特征提取等一系列算法,将该用户的信息存储于数据库中。在认证阶段,通过智能移动设备自带的摄像头获取用户的掌纹图像,并上传到服务器,服务器端通过同样的算法得到待认证用户的掌纹特征,与数据库中存储的掌纹特征进行匹配,进而判断该用户是否为已注册用户。本方法既摆脱了传统掌纹识别不便携的缺点,又不受智能移动设备硬件性能的限制,同时由于算法的核心部署在服务器上,增强了系统的安全性,大大扩展了掌纹识别的应用领域。
-
公开(公告)号:CN103400130A
公开(公告)日:2013-11-20
申请号:CN201310321375.3
申请日:2013-07-22
Applicant: 哈尔滨工业大学
IPC: G06K9/32
Abstract: 本发明提出了一种基于能量最小化框架的文档图像倾斜度检测和纠正方法,该方法的研究对象为机打文档图像,文档图像中的内容可以是文字、表格、图片等。本发明首先需要使用扫描仪将文档扫描成电子文档图像,然后估算前景像素状态信息,然后利用前景像素状态信息构建能量函数,然后利用图像处理技术和直线拟合技术计算初始的倾斜度,最后进行能量最小化过程得到最终的倾斜度并将文档图像进行纠正。本发明能适用于多种不同类型的文档,使得倾斜度检测更加精确,在保证精度的同时也提高了倾斜度检测的速度。
-
公开(公告)号:CN113947618B
公开(公告)日:2023-08-29
申请号:CN202111222510.X
申请日:2021-10-20
Applicant: 哈尔滨工业大学
IPC: G06T7/246 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种基于调制器的自适应回归跟踪方法,所述方法包括如下步骤:步骤一、设计基于注意力的时空上下文网络,生成与时空上下文对应的仿射参数;步骤二、设计轨迹网络,产生与轨迹对应的仿射参数;步骤三、将步骤一和步骤二产生的两种参数融入到通用回归网络的各层参数中,自适应地调整通用回归网络的参数,使其对特定目标具有较高的响应。相比于现有技术,本发明具有如下优点:模型在跟踪过程中不需要效率低下的微调过程;上下文预测网络对过去帧中相关的重要时空背景进行编码,有助于从背景中区分目标;轨迹为当前帧中目标的定位提供了必要的先验知识。
-
公开(公告)号:CN115965652A
公开(公告)日:2023-04-14
申请号:CN202211224736.8
申请日:2022-10-09
Applicant: 哈尔滨工业大学
IPC: G06T7/246 , G06T9/40 , G06V10/764 , G06V10/77 , G06V10/80 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于四叉树胶囊的深度回归跟踪方法,所述方法包括如下步骤:一、给定当前帧的搜索区域,采用在ImageNet上预训练的VGG‑16网络的conv4‑3和conv5‑3两个特征层作为特征提取器分别提取底层和高层语义表示;二、通过四叉树胶囊模块构造空间胶囊;三、通过多光谱姿态矩阵注意力构造时空胶囊;四、时序胶囊的局部位移;五、将时序胶囊的姿态矩阵压平,并将它们传递给解码器进行解码。本发明利用搜索区域作为输入,提出利用四叉树胶囊架构构建目标与其上下文之间的时空关系。与现有基于胶囊网络的跟踪器相比,在鲁棒跟踪结果的同时,运行速度达到了43FPS,使得基于胶囊网络的跟踪器首次达到了实时处理。
-
公开(公告)号:CN115565007A
公开(公告)日:2023-01-03
申请号:CN202211240066.9
申请日:2022-10-11
Applicant: 哈尔滨工业大学
IPC: G06V10/764 , G06V10/74 , G06V10/774 , G06F40/30
Abstract: 本发明公开了一种基于知识蒸馏的隐空间语义监督的跨模态检索方法,整个网络的总体结构大体上可以分成四个部分:第一个部分:多模态特征提取网络,第二个部分:图像和文本隐空间的构建,第三个部分:基于知识蒸馏的隐空间语义监督,第四个部分:图像文本匹配。本发明将BUA中的目标分类器和属性分类器引入图像隐空间,通过知识蒸馏将BUA中的语义知识转移到图像隐空间中。本发明在文本隐空间中引入目标和属性分类器,使文本特征和相应的文本上下文特征保持一致。本发明的方法可以很好地进行跨模态检索,并在多个数据库上取得了具有竞争力的结果。
-
公开(公告)号:CN113971686A
公开(公告)日:2022-01-25
申请号:CN202111250528.0
申请日:2021-10-26
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于背景修复和胶囊网络的目标跟踪方法,所述方法包括如下步骤:一、构建背景胶囊表示;二、构建目标胶囊;三、设计背景‑目标胶囊路由算法,获得背景‑目标胶囊表示;四、将背景‑目标路由胶囊的大小调整为36×36×64,然后通过3个反卷积操作将这些特征进行放大处理,最后得到与输入大小相同的288×288×1的背景响应图,通过对其进行取反操作,得到目标的响应图;五、将背景胶囊表示通过一个反卷积层调整到36×36×64,之后通过3个反卷积层,每层对应的核大小为3×3,逐步将36×36×64大小的特征放大到288×288×3,生成3通道的背景修复图像。本发明将目标跟踪的关注点从目标自身转移至对目标与背景差异的刻画,规避了单一外观模型无法应对目标各种外观变化的缺陷。
-
公开(公告)号:CN113936040A
公开(公告)日:2022-01-14
申请号:CN202111204089.X
申请日:2021-10-15
Applicant: 哈尔滨工业大学
Abstract: 本发明公开了一种基于胶囊网络和自然语言查询的目标跟踪方法,所述方法包括如下步骤:一、给定当前帧的搜索区域和相应的文本查询,将搜索区域送入视觉编码器提取视觉的特征表示,将文本查询送入文本编码器提取文本的特征表示;二、利用视觉编码器提取的视觉的特征表示构建视觉胶囊,利用文本编码器提取的文本的特征表示构建文本胶囊,在视觉胶囊和文本胶囊的基础上设计视觉‑文本路由模块和文本‑视觉路由模块;三、将视觉‑文本路由模块和文本‑视觉路由模块的输出进行串联并通过解码器生成目标的响应图。本发明在仅利用自然语言进行初始化跟踪器,就能接近其它方法,同时利用自然语言查询和初始边界框进行初始化的结果,具有良好的鲁棒性。
-
-
-
-
-
-
-
-
-