-
公开(公告)号:CN109583481B
公开(公告)日:2021-08-10
申请号:CN201811343657.2
申请日:2018-11-13
Applicant: 杭州电子科技大学
Abstract: 本发明涉及一种基于卷积神经网络的细粒度服装的属性识别方法。本发明首先通过Faster‑RCNN和YOLO神经网络,对图像中的特征区域定位,针对袖子、裤子长度和领口类型分类采取相应的扩大特征区域方法,再对特征区域进行图像处理;处理后输进ResNet网络模型和InceptionV4网络模型,进行神经网络的训练;并将输出结果进行加权融合。训练好的神经网络模型可用于服装属性识别。本发明提取的特征区域实现较高的分割准确性,提高了卷积神经网络进行深度学习图像特征的效率和准确性,并将两个网络模型的输出结果进行加权融合,减少了过拟合现象。
-
公开(公告)号:CN108415955B
公开(公告)日:2021-12-28
申请号:CN201810116386.0
申请日:2018-02-06
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于眼动注视点移动轨迹的感兴趣点数据库建立方法。本方法将三维模型利用投影技术投影成二维图片,并将图片做成视频,放置于眼动仪让志愿者观看,进而收集眼动注视点的数据,然后将视频按帧分割,提取图片中的眼动注视点,借助二维到三维的映射技术得到眼动注视点点在三维模型上的坐标点。最后使用建立Ground Truth的算法将得到的眼动注视点数据建立成感兴趣点数据库。本发明更加适用于对模型的重建,因为利用眼动仪可以将模型上人眼最关注区域的部分和不关注区域的部分进行划分。通过感兴趣点标准库对人类感兴趣的地方可以加强重建的精度,相反对于不感兴趣的区域相对减少重建精度,从而减少模型重建的工作量和存储量。
-
公开(公告)号:CN110415707A
公开(公告)日:2019-11-05
申请号:CN201910294188.8
申请日:2019-04-12
Applicant: 杭州电子科技大学
Abstract: 本发明涉及一种一种基于语音特征融合和GMM的说话人识别方法。本发明首先通过融合不同类型语音特征参数从而获取的新的语音特征参数,并将新的特征参数用于识别模型的训练,并且在识别模型建立过程中,通过阈值函数将两个高斯混合模型进行串联,优化了识别模型。本发明提取新的语音特征参数具有多种类型语音特征参数各自的优势,更能表现出说话人的个性特征,并且通过阈值函数将两个高斯混合模型串联进行识别,相比较单个高斯混合模型,提高了说话人识别的准确率。
-
公开(公告)号:CN109583481A
公开(公告)日:2019-04-05
申请号:CN201811343657.2
申请日:2018-11-13
Applicant: 杭州电子科技大学
Abstract: 本发明涉及一种基于卷积神经网络的细粒度服装的属性识别方法。本发明首先通过Faster-RCNN和YOLO神经网络,对图像中的特征区域定位,针对袖子、裤子长度和领口类型分类采取相应的扩大特征区域方法,再对特征区域进行图像处理;处理后输进ResNet网络模型和InceptionV4网络模型,进行神经网络的训练;并将输出结果进行加权融合。训练好的神经网络模型可用于服装属性识别。本发明提取的特征区域实现较高的分割准确性,提高了卷积神经网络进行深度学习图像特征的效率和准确性,并将两个网络模型的输出结果进行加权融合,减少了过拟合现象。
-
公开(公告)号:CN110163246B
公开(公告)日:2021-03-30
申请号:CN201910276356.0
申请日:2019-04-08
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于卷积神经网络的单目光场图像无监督深度估计方法。本发明先利用公开的大型光场图像数据集作为训练集,通过数据增强、数据扩充使训练集样本趋于平衡。构建改进的ResNet50网络模型,使用编码器和解码器分别提取模型的高级和低级的特征,再通过密集差结构将编码器和解码器的结果融合,同时另外构建了一个超分辨率遮挡检测网络,能够使用深度学习准确的预测出各个视角之间的遮挡问题;基于光场图像深度估计任务的目标函数是多损失函数,通过预先定义好的网络模型对预处理后的图像进行训练,最后在测试集上对网络模型进行泛化评估。本发明对复杂场景的光场图像预处理效果显著,实现了更精确光场图像无监督深度估计的效果。
-
公开(公告)号:CN110415707B
公开(公告)日:2021-11-26
申请号:CN201910294188.8
申请日:2019-04-12
Applicant: 杭州电子科技大学
Abstract: 本发明涉及一种一种基于语音特征融合和GMM的说话人识别方法。本发明首先通过融合不同类型语音特征参数从而获取的新的语音特征参数,并将新的特征参数用于识别模型的训练,并且在识别模型建立过程中,通过阈值函数将两个高斯混合模型进行串联,优化了识别模型。本发明提取新的语音特征参数具有多种类型语音特征参数各自的优势,更能表现出说话人的个性特征,并且通过阈值函数将两个高斯混合模型串联进行识别,相比较单个高斯混合模型,提高了说话人识别的准确率。
-
公开(公告)号:CN110163246A
公开(公告)日:2019-08-23
申请号:CN201910276356.0
申请日:2019-04-08
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于卷积神经网络的单目光场图像无监督深度估计方法。本发明先利用公开的大型光场图像数据集作为训练集,通过数据增强、数据扩充使训练集样本趋于平衡。构建改进的ResNet50网络模型,使用编码器和解码器分别提取模型的高级和低级的特征,再通过密集差结构将编码器和解码器的结果融合,同时另外构建了一个超分辨率遮挡检测网络,能够使用深度学习准确的预测出各个视角之间的遮挡问题;基于光场图像深度估计任务的目标函数是多损失函数,通过预先定义好的网络模型对预处理后的图像进行训练,最后在测试集上对网络模型进行泛化评估。本发明对复杂场景的光场图像预处理效果显著,实现了更精确光场图像无监督深度估计的效果。
-
公开(公告)号:CN108415955A
公开(公告)日:2018-08-17
申请号:CN201810116386.0
申请日:2018-02-06
Applicant: 杭州电子科技大学
Abstract: 本发明公开了一种基于眼动注视点移动轨迹的感兴趣点数据库建立方法。本方法将三维模型利用投影技术投影成二维图片,并将图片做成视频,放置于眼动仪让志愿者观看,进而收集眼动注视点的数据,然后将视频按帧分割,提取图片中的眼动注视点,借助二维到三维的映射技术得到眼动注视点点在三维模型上的坐标点。最后使用建立Ground Truth的算法将得到的眼动注视点数据建立成感兴趣点数据库。本发明更加适用于对模型的重建,因为利用眼动仪可以将模型上人眼最关注区域的部分和不关注区域的部分进行划分。通过感兴趣点标准库对人类感兴趣的地方可以加强重建的精度,相反对于不感兴趣的区域相对减少重建精度,从而减少模型重建的工作量和存储量。
-
-
-
-
-
-
-