-
公开(公告)号:CN115424053B
公开(公告)日:2023-05-02
申请号:CN202210879098.7
申请日:2022-07-25
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06N3/084
Abstract: 本申请公开了一种小样本图像识别方法、装置、设备及存储介质,所述方法包括:获取待识别的图像,根据所述待识别的图像构建图像插曲,所述图像插曲中包含支持集和查询集;将所述图像插曲输入预训练的图像识别模型,所述图像识别模型为基于困难插曲训练的小样本图像识别模型;根据所述图像识别模型计算所述查询集中的图像与支持集中的图像类别的相似度,根据所述相似度确定待识别的查询集中的图像类别。本申请实施例提供的图像识别方法,能够利用较少的图像样本进行模型训练和图像识别,且将困难插曲融入小样本图像识别模型训练过程中,使小样本图像识别模型能够更加高效快速的进行训练,且训练好的模型稳定性更高,图像识别的准确率也更高。
-
公开(公告)号:CN115424086A
公开(公告)日:2022-12-02
申请号:CN202210887082.0
申请日:2022-07-26
Applicant: 北京邮电大学
IPC: G06V10/774 , G06V10/764 , G06V10/82
Abstract: 本申请公开了一种多视角的细粒度识别方法、装置、电子设备及介质。通过应用本申请的技术方案,可以利用一个由多个多视图样本的多视角图像所组成的样本数据集来对初始分类模型进行训练。从而得到一个能够主动选择同一样本的下一个视图图像进行图像识别的高效细粒度识别模型,进而一方面通过对同一样本多视图图像的信息聚合,解决了传统细粒度图像识别方法仅依靠单一图片提供具有判别力线索的局限性。另一方面通过对具有判别力视图的预测,提高了基于多视图细粒度识别的识别效率。
-
公开(公告)号:CN113776408B
公开(公告)日:2022-09-13
申请号:CN202111067033.4
申请日:2021-09-13
Applicant: 北京邮电大学
Abstract: 一种闸门开度尺读数方法,涉及智能尺子读数领域,本发明为了解决现有技术存在的问题,提供闸门开度尺读数方法,旨在通过目标检测方法检测到开度尺上的目标集合,根据各目标间的位置关系获取闸门的精确开度,本发明通过设置预置位集合后,摄像头可旋转至预置位集合中的各预置位并拍照,通过将目标检测算法与数字图像处理算法结合,只需要适量目标级手工标注,在目标检测方法未检测到目标的情况下,应用数字图像处理算法再次检测游标目标;该方法在满足实时要求的条件下,保证了高精度和低漏检率。这大大扩展了可分析的开度范围,在保证读数精度的情况下,本发明方法能够分析的开度范围拓展到了十米。
-
公开(公告)号:CN113687513A
公开(公告)日:2021-11-23
申请号:CN202110985822.X
申请日:2021-08-26
Applicant: 北京邮电大学
Abstract: 本发明公开了一种面向视野缺失人群的区域视野转移系统,包括AR眼镜,计算单元和控制器,其中,AR眼镜包括前置摄像头和光学显示元件,分别负责捕捉画面和显示画面,计算单元负责处理图像数据以及逻辑处理,控制器负责控制区域视野的位置、大小、形状以及透明度,AR眼镜和控制器分别与控制器电性连接。利用本发明AR眼镜前置的摄像头,实时捕捉眼镜前方的画面,然后将此画面转移并叠加到AR眼镜视野中的其他位置。针对不同视野缺失部位的视障人士,用户可以使用控制器灵活调整目标视野区域的位置、大小、形状以及透明度,实时移动选择目标视野区域补偿的位置。本发明实现简单,效果显著,可以让视障人士重见完整的世界,不会具有误导性。
-
公开(公告)号:CN107993664B
公开(公告)日:2021-05-28
申请号:CN201810075745.2
申请日:2018-01-26
Applicant: 北京邮电大学
IPC: G10L17/02 , G10L17/20 , G10L21/0208 , G10L25/24 , G10L25/30
Abstract: 本发明实施例公开了一种基于竞争神经网络的鲁棒说话人识别方法。该方法利用竞争神经网络提取具有噪声不变性的声学特征,并利用该特征进行基于GMM‑UBM模型的说话人识别系统的训练,包括如下步骤:构建包含两个级连的编码网络与区分网络的竞争神经网络,并利用其中的编码网络提取噪声不变特征,然后利用提取的特征实现基于GMM‑UBM模型的说话人。在竞争网络训练时编码网络与区分网络分别训练,训练编码网络时所有输入采用相同的干净语音标签,训练区分网络时利用训练语音的噪声类型作为训练标签,利用本发明实施例,能够提高文本无关的说话人鉴别率,具有很大的实用价值。
-
公开(公告)号:CN110222217B
公开(公告)日:2021-03-09
申请号:CN201910311956.6
申请日:2019-04-18
IPC: G06F16/583 , G06K9/62
Abstract: 本发明提供了一种基于分段加权的鞋印图像检索方法,包括:步骤一、图像预处理步骤:基于训练后的U‑Net卷积神经网络模型将获取的鞋印现场照片转化成保留鞋印信息的现场二值图;步骤二、特征提取步骤:将现场二值图和鞋样本库中图像拆分成上下两个子图,输入到孪生网络中进行特征提取,得到两个相互独立的子特征;步骤三、特征权重矩阵计算步骤:分别计算两个相互独立的子特征中包含鞋印信息的像素数占比,由此得到该现场二值图的权重矩阵;步骤四、特征融合及相似度度量步骤。本发明解决了如何快速准确的检索鞋样本库中与鞋印现场照片对应的款式的技术问题,综合考虑了现场鞋印噪声影响大,部分信息缺失的特性,提高了鞋印检索准确率。
-
公开(公告)号:CN110807465B
公开(公告)日:2020-06-30
申请号:CN201911072231.2
申请日:2019-11-05
Applicant: 北京邮电大学
Abstract: 本发明一种基于通道损失函数的细粒度图像识别方法,包括下列步骤:特征提取、特征判别性损失函数计算、特征多样性损失函数计算、模型优化损失函数计算,本发明综合考虑了细粒度图像类内差异大,类间差异小,背景噪声影响大等因素的一项,约束属于每个类别的特征图都具有判别性,且具有对应类别的特征,减小了类内的差异性,降低了学习的难度,学习到了更好的判别性特征;约束属于每个类别的特征图均具有多样性,从而增大了类间的差异性,从而取得了良好的效果,易于实际部署,在多个细粒度图像分类任务上起到了明显的效果提升。
-
公开(公告)号:CN110222217A
公开(公告)日:2019-09-10
申请号:CN201910311956.6
申请日:2019-04-18
IPC: G06F16/583 , G06K9/62
Abstract: 本发明提供了一种基于分段加权的鞋印图像检索方法,包括:步骤一、图像预处理步骤:基于训练后的U-Net卷积神经网络模型将获取的鞋印现场照片转化成保留鞋印信息的现场二值图;步骤二、特征提取步骤:将现场二值图和鞋样本库中图像拆分成上下两个子图,输入到孪生网络中进行特征提取,得到两个相互独立的子特征;步骤三、特征权重矩阵计算步骤:分别计算两个相互独立的子特征中包含鞋印信息的像素数占比,由此得到该现场二值图的权重矩阵;步骤四、特征融合及相似度度量步骤。本发明解决了如何快速准确的检索鞋样本库中与鞋印现场照片对应的款式的技术问题,综合考虑了现场鞋印噪声影响大,部分信息缺失的特性,提高了鞋印检索准确率。
-
公开(公告)号:CN109948721A
公开(公告)日:2019-06-28
申请号:CN201910238135.4
申请日:2019-03-27
Applicant: 北京邮电大学
Abstract: 本发明公开了一种基于视频描述的视频场景分类方法,包括:基于DCT变换以及帧滑动窗口快速提取视频关键帧,并对视频关键帧进行划分;采用3d卷积神经网络对视频不定长关键帧序列进行特征提取;通过Sent2Vec方式获取每个视频描述的嵌入表示作为视频的语义表示;基于提取的特征和语义表示得到最终模型架构三维卷积循环神经网络。本发明借助于视频描述,实现一种快速、准确的视频场景分类方法,该方法可快速准确地提取视频关键帧,相比使用视频所有的帧或者按照一定时间间隔抽样,结果更加准确快速。同时可提升视频场景分类的准确性,通过长短期记忆神经网络训练学习视频的关键帧时序关系,更符合视频这一流媒体的性质。可处理任意长度视频关键帧序列。
-
公开(公告)号:CN104680176B
公开(公告)日:2018-04-24
申请号:CN201510067912.5
申请日:2015-02-09
Applicant: 北京邮电大学
IPC: G06K9/62
Abstract: 本发明实施例公开了一种基于非高斯中性向量特征选择的脑电波(EEG)信号分类方法。该方法包括如下步骤:通道选择步骤:将输入的每个通道变换并归一化后,取能量最大的M个通道形成一个超向量;非线性去相关步骤:由于每个通道形成的向量是中性向量,可以利用其中性性质进行非线性去相关生成向量u;特征选择步骤:按差分熵或方差从大到小排序,对每个通道分别取Nm个为最终特征;贝塔分类器设计步骤:用贝塔混合模型设计分类器。利用本发明实施例,能够提高脑电波信号分类的准确率,具有很大的实用价值。
-
-
-
-
-
-
-
-
-