-
公开(公告)号:CN114972947A
公开(公告)日:2022-08-30
申请号:CN202210882622.6
申请日:2022-07-26
Applicant: 之江实验室
IPC: G06V10/80 , G06V10/82 , G06V20/70 , G06V30/148 , G06V30/19 , G06V10/764 , G06V10/28
Abstract: 本发明公开了一种基于模糊语义建模的深度场景文本检测方法和装置,该方法包括:步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集;步骤二,对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图;步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建;步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图;步骤五,对文本属性图进行二值化和联通域提取,得到最终的文本检测结果。本发明实现方法简便,灵活鲁棒,适用范围广。
-
公开(公告)号:CN114757832A
公开(公告)日:2022-07-15
申请号:CN202210663897.0
申请日:2022-06-14
Applicant: 之江实验室
Abstract: 本发明公开一种基于交叉卷积注意力对抗学习的人脸超分辨方法和装置,该方法将原始低分辨率图像输入人脸超分辨生成网络,经过卷积层、若干个全局残差通道注意力单元、粗上采样模块、两批局部残差通道注意力单元、精上采样模块,得到目标分辨率图像,再通过索贝尔算子获得边缘信息,通过低倍率降采样处理并反馈到主网络中进一步提高超分辨效果,利用小波变换将目标分辨率图像、真值图像和其他通过数据增强方式得到的图像进行分解,每个图像分解成一个低频信息、两个中频信息和一个高频信息,然后去掉低频信息,融合中频和高频信息,将其送到对抗网络进行判别,最后引入数据增强方法,以产生多个正负样本进行对抗网络与人脸超分辨网络的迭代优化。
-
公开(公告)号:CN113298890B
公开(公告)日:2022-07-15
申请号:CN202110527552.8
申请日:2021-05-14
Abstract: 本发明公开了非尺度混叠及边缘保留的图像多尺度分解方法及调色方法,在图像中,通过定义新型局部均值包络像素点,采取三次插值算法,获取自适应局部均值曲面,从而迭代操作获得多尺度图像分解,可以实现同时具有边缘保留和非尺度混叠双特性的图像多尺度分解,以得到含有不同尺度信息的高精度的精准的图像解析,对解析的各分量采用设定的线性或非线性算子操作,进一步可以实现灰度图像和彩色图像的多尺度调色处理。本发明的效果和益处是,提供了一种有效的同时具有边缘保留和非尺度混叠双特性的图像多尺度分解算法,可以同时实现无振铃现象和非尺度混合的图像分解以及在此基础上的多尺度调色应用。
-
公开(公告)号:CN114067294B
公开(公告)日:2022-05-13
申请号:CN202210052681.0
申请日:2022-01-18
Applicant: 之江实验室
IPC: G06V20/58 , G06V20/62 , G06V10/40 , G06V10/74 , G06V10/774 , G06V10/764 , G06V10/80 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于文本特征融合的细粒度车辆识别系统及方法,系统包括:特征提取模块、分类层、文本表示网络、相似度计算模块、融合标签计算模块、散度损失计算模块;方法包括:步骤S1,构建细粒度车辆图像分类数据集;步骤S2,将训练图像进行特征提取;步骤S3,对图像特征向量进行分类;步骤S4,将数据集各子类标签输入预先训练好的文本表示网络;步骤S5,通过图像特征向量与图像标签的词向量;将得到的强化标签分布与原标签向量进行加权融合;步骤S6,将预测标签分布与加权融合的标签分布的相似度作为损失,指导整个系统的训练;步骤S7,推理阶段,将待测图像进行特征提取与分类层,根据预测的标签分布确定图像类别。
-
公开(公告)号:CN113837152B
公开(公告)日:2022-04-15
申请号:CN202111410772.9
申请日:2021-11-25
Applicant: 之江实验室
IPC: G06V30/413 , G06V30/14 , G06V30/19 , G06K9/62 , G06N3/08
Abstract: 本发明公开了一种表格图片文本智能检测方法及系统,系统包含文本自动检测模块、位置变换矩阵模块和位置加权模块。方法包括:S1,检测目标表格图片当中所有可能的文本;S2,自动生成相对位置关系的变换矩阵;S3,通过位置加权,计算最终检测结果。本发明针对表格图片文本,采用深度学习训练的方式,通过将通用自动文本检测方法与表格文本之间相对位置相结合,不仅依赖于文本目标自身的位置,还依赖于文本间的相对位置关系,最终以位置变换矩阵的形式表示,还通过对目标检测结果进行加权来确认每个目标的具体位置,从而提高表格图片文本检测精度。
-
公开(公告)号:CN114098691A
公开(公告)日:2022-03-01
申请号:CN202210090684.3
申请日:2022-01-26
Abstract: 本发明涉及非接触式生理信号检测领域,尤其涉及一种基于混合高斯模型的脉搏波身份认证方法、装置和介质,该方法首先利用血氧仪获取到的用户手指脉搏波信号,将脉搏波信号输入到手工特征提取模块中提取时域和频域特征并分别将其处理为动态特征,将得到的时域和频域的动态特征分别输入到特征提取网络中提取频域和时域的深层次特征;进一步的,将上一步得到的两种深层次特征通过概率线性判别分析算法进行特征筛选;最后,将筛选后的特征利用混合高斯模型算法进行身份识别。本方法能够有效应用于基于脉搏波的生物识别系统中。
-
公开(公告)号:CN114003770A
公开(公告)日:2022-02-01
申请号:CN202111084182.1
申请日:2021-09-15
IPC: G06F16/783 , G06K9/62 , G06N3/04
Abstract: 本发明涉及视频跨模态检索技术领域,尤其涉及一种受阅读策略启发的跨模态视频检索方法,对于视频编码,采用预览分支和精读分支共同学习来表示视频,预览分支旨在简要地捕捉视频的概述信息,而精读分支旨在获取更深入的信息,本发明将从预览分支生成的较早的视频特征集成到精读分支中,对精读分支的特征提取做进一步指导,使得精读分支可以感知预览分支捕获的视频概述,用于提取更细粒度的特征,将两个分支的得到特征分别与文本特征映射到两个不同的混合空间中,在混合空间中进行跨模态匹配,从而实现文本到视频的跨模态检索。本发明使用端到端的方式训练模型,并在性能和模型复杂度上达到了最佳平衡。
-
公开(公告)号:CN113892930A
公开(公告)日:2022-01-07
申请号:CN202111504748.1
申请日:2021-12-10
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多尺度心率信号的面部心率测量方法。该方法将含有人脸面部区域的视频流逐帧进行皮肤分割,对特征提取模块进行训练,将人脸视频流输入训练好的特征提取模块中,输出为多个心率值,将所有输出心率值求平均,获得最终的心率预测值。本发明的方法可得到高精度心率估计值,实现无接触心率检测。
-
公开(公告)号:CN113827234A
公开(公告)日:2021-12-24
申请号:CN202111412880.X
申请日:2021-11-25
Applicant: 之江实验室
Abstract: 本发明属于非接触式生理信号检测领域,涉及一种基于高光谱人脸视频的远程脉搏波重建方法,首先利用高光谱相机录制人脸视频,将录制好的人脸视频输入到光谱通道选择网络中,经过处理得到降维之后的特征;进一步的,将上一步得到的降维之后的特征输入进特征提取网络,输出为一段特征向量,最终将特征向量输入到信号重建网络中,得到重建的脉搏波信号。本发明通过光谱通道选择网络对大量的高光谱数据进行降维,提高了之后的推理速度;其次,在特征提取网络中,通过在组合数据集上的预训练加速了模型的收敛,并且通过注意力机制提高了网络对重要特征的关注程度;最后,在信号重建网络中,利用多层LSTM提取到网络的时序特征并以此对信号进行重建。
-
公开(公告)号:CN113793380A
公开(公告)日:2021-12-14
申请号:CN202110995023.0
申请日:2021-08-27
Applicant: 之江实验室
Abstract: 本发明公开了一种基于单目相机的头部三维坐标的摔倒检测方法,首先估计单目视频中头部三维坐标,再根据头部三维坐标的变化检测人员是否摔倒。单目头部三维坐标估计通过相机标定获得相机内参矩阵,通过头部检测获得头部在图像中的矩形框,利用相机内参、头部矩形框和预设的头部基本几何参数构建头部三维坐标求解方程,求解在相机坐标系下的头部三维坐标。通过系统标定获得世界坐标系到相机坐标系的变换矩阵,经过坐标变换,得到在世界坐标系下的头部三维坐标。当头部坐标z分量小于一定阈值时判定人员为摔倒状态。本方法利用单个摄像头即可估计头部的三维坐标,并判断人员是否摔倒,硬件成本低,可广泛应用于智能监控等领域。
-
-
-
-
-
-
-
-
-