-
公开(公告)号:CN110059554B
公开(公告)日:2022-07-01
申请号:CN201910187966.3
申请日:2019-03-13
Applicant: 重庆邮电大学
IPC: G06V20/54 , G06V10/762 , G06V10/82 , G06K9/62 , G06N3/04
Abstract: 本发明请求保护一种基于交通场景的多支路目标检测方法,包括步骤:S1获取交通路口拍摄的高清照片构建相关数据集,对交通场景图像进行分类和标注,生成相应的类别标签,并划分训练集和测试集;S2搭建基于深度学习的具有32层的网络模型,采用k‑means聚类算法获取9个锚框先验,将这9个锚框平均分配到三个检测分支中,该网络将检测任务转化为回归任务,在一个网络上同时完成目标的分类与边界框的回归,即将目标检测算法的候选框生成、特征提取、分类及位置精修这4个步骤统一到一个深度网络框架之内,采用反向传播和随机梯度下降方法对网络模型进行端到端训练,通过迭代训练使损失函数降到一个小的范围然后停止训练。
-
公开(公告)号:CN114359785A
公开(公告)日:2022-04-15
申请号:CN202111479930.6
申请日:2021-12-06
Applicant: 重庆邮电大学
Abstract: 本发明属于视觉语音识别技术领域,涉及一种基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备;所述方法包括将视频按时间先后顺序转换为唇语图像序列并预处理;采用三维卷积神经网络提取出图像序列的时空特征信息;采用深度残差网络提取出唇语图像五个层次的空间特征信息;对五层空间特征信息采用基于图模型的自适应矩阵的特征融合结构进行处理,得到特征融合后的五层唇语特征信息;使用自注意力机制对五层唇语特征信息的权重进行学习,利用学习到的权重将五层唇语特征加权输入到时间卷积神经网络,输出唇语识别结果;本发明解决了数据尺度不一的问题,能有效防止因输入尺度不一问题所导致的特征信息丢失以提升唇语识别效果。
-
公开(公告)号:CN114332653A
公开(公告)日:2022-04-12
申请号:CN202111484063.5
申请日:2021-12-07
Applicant: 重庆邮电大学
Abstract: 本发明属于计算机视觉中无人机视角旋转目标检测领域,具体涉及一种无人机视角的车辆旋转检测方法及系统;包括图像获取模块、图像标签处理模块、图像预处理模块、Backbone模块、特征空间关系捕获模块、第一次特征融合模块、第二次特征融合模块、CSL环形平滑处理模块和预测模块,特征空间关系捕获模块连接了Backbone模块和第一次特征融合模块,第一次特征融合模块和第二次特征融合模块间利用level1通道、level2通道和level3通道进行连接,本发明的方法与系统,依靠无人机及其视觉传感器获取图像数据,硬件要求低;利用空间关系信息和Backbone提取的特征信息以固定权重和自适应权重两种方式融合,预测得出车辆的位置、角度和类别信息,实现了无人机视角下的车辆监测。
-
公开(公告)号:CN114283292A
公开(公告)日:2022-04-05
申请号:CN202111483361.2
申请日:2021-12-07
Applicant: 重庆邮电大学
IPC: G06V10/44 , G06V10/74 , G06V10/80 , G06V10/774 , G06K9/62 , G06V30/148 , G06F40/30
Abstract: 本发明属于图像问答领域,具体涉及一种基于分工决策的视觉问答模型的视觉问答方法及系统,该方法包括:获取视觉图像和待回答的问题,将视觉图像和待回答的问题输入到LRBNet模型中,得到问答结果;LRBNet模型包括视觉理解模块、文本理解模块以及交换模块;所述视觉理解模块用于得到视觉特征图,所述文本理解模块用于得到文本特征图,所述交换模块用于对视觉特征图和文本特征图进行数据交互,根据交互数据更新节点;视觉空间特征图和文本语义信息进行关联和更新,得到最终的问答结果;本发明将文本语义信息和视觉空间信息分离处理,只在最后将处理的结果融合,降低了其他VQA模型因跨模态融合而提高的推理难度。
-
公开(公告)号:CN111814644A
公开(公告)日:2020-10-23
申请号:CN202010619232.0
申请日:2020-07-01
Applicant: 重庆邮电大学
Abstract: 本发明属于计算机视觉和模式识别领域,具体涉及一种基于扰动视觉解释的视频异常事件检测方法,包括:获取视频数据集,将数据集输入到优化的深度学习模型中进行模型训练;实时获取视频数据,将获取的数据输入到训练好的深度学习模型中,得到检测结果以及解释图;本发明在构建深度学习模型中加入了可解释模型,通过可解释模型提取了输入视频中的重要像素以及重要区域,使得深度学习模型在处理视频数据过程中的更明确,增强了检测结果的可信度。
-
公开(公告)号:CN107273502B
公开(公告)日:2020-05-12
申请号:CN201710463291.1
申请日:2017-06-19
Applicant: 重庆邮电大学
Abstract: 本发明请求保护一种基于空间认知学习的图像地理标注方法,涉及深度学习及图像分类标注领域。该方法包括:对图像进行预处理,使训练集和验证集符合深度学习工具的输入格式;利用深度学习工具构建卷积神经网络,使用全局平均池化层学习图像特征的空间分布;使用训练集进行端到端的训练,使网络自动学习图像的地理特征,在训练过程修改网络的参数,使全局平均池化层对地理特征有高的敏感度;保存训练模型并用验证集对模型进行验证;使用保存好的训练模型对新的测试对象进行计算,得到图像的地理标注。本发明从输入图像中自动地学习图像中的地理特征,避免了人工选取特征的干扰,在大规模的图像地理特征学习任务中实现了自动、高效的特征学习。
-
公开(公告)号:CN107808132A
公开(公告)日:2018-03-16
申请号:CN201710992656.X
申请日:2017-10-23
Applicant: 重庆邮电大学
CPC classification number: G06K9/00684 , G06K9/6267
Abstract: 本发明请求保护一种融合主题模型的场景图像分类方法,涉及深度学习及图像分类领域。该方法包括:对数据集进行预处理,扩充已获取数据集的数量,得到符合深度学习模型处理的图像数据格式;构建符合场景图像分类的卷积神经网络模型,使用卷积神经网络对处理后的图像数据集进行预训练;使用训练集,对构建的卷积神经网络进行端到端的迭代训练,调整网络中的参数,使用验证集对训练完成的模型进行验证,对提取到的具有判别力的场景图像特征进行建模,提取特征和图像之间存在的隐藏的主题变量,得到k维向量代表的图像主题分布,k代表主题数量;每幅图像可以看做是由多个主题所组成的一个概率分布图,利用分类器实现场景图像的分类。
-
公开(公告)号:CN105227552A
公开(公告)日:2016-01-06
申请号:CN201510622090.2
申请日:2015-09-25
Applicant: 重庆邮电大学
IPC: H04L29/06
CPC classification number: H04L65/80 , H04L65/608
Abstract: 本发明涉及一种TD-LTE应急终端语音业务质量保障方法,属于无线通信技术领域。该方法包括以下步骤:语音数据发送端进行语音数据采集和编码,将含有时间戳的RTP语音数据包通过TD-LTE网络发送至语音数据接收端;语音数据接收端统计接收到的语音数据包,计算出丢包率大小,将该丢包率信息封装成控制报文并发送至语音数据接收端,同时根据丢包率大小调整接收队列长度;语音数据发送端解析接收到的控制报文获得丢包率信息,根据该丢包率信息动态调整语音数据的采集参数和发送队列长度。本方法可以根据TD-LTE无线信道的质量动态调节语音数据的质量,能实时地、有效地传输语音数据,从而实现了保证TD-LTE应急通信系统下语音业务质量的目的。
-
公开(公告)号:CN114283355B
公开(公告)日:2025-04-22
申请号:CN202111479215.2
申请日:2021-12-06
Applicant: 重庆邮电大学
IPC: G06V20/40 , G06T7/277 , G06V10/74 , G06V10/764 , G06V10/774 , G06T7/73
Abstract: 本发明属于计算机视觉技术领域,特别涉及一种基于小样本学习的多目标濒危动物跟踪方法,该方法包括:将待检测的视频进行全采样得到视频帧序列;对视频帧进行预处理,将所有预处理后的视频帧输入到小样本目标检测器中,得到待检测视频中目标的位置信息和类别信息;将目标位置信息输入到特征提取网络中,提取每个目标的表征信息;采用卡尔曼滤波预测目标在后续视频帧中的位置,得到运动特征;将表征信息和运动特征进行融合,并通过IOU匹配和级联匹配完成数据关联,实现多目标跟踪;本发明设计了一种基于小样本学习的多目标跟踪模型,采用该模型能对不存在大量样本的濒危动物在使用少量训练数据进行训练的情况下实现同时对多个濒危动物准确快速的跟踪。
-
公开(公告)号:CN111476721B
公开(公告)日:2022-04-29
申请号:CN202010166731.9
申请日:2020-03-10
Applicant: 重庆邮电大学
Abstract: 本发明涉及一种基于Wasserstein距离的图像快速增强方法,属于计算机视觉领域。该方法包括:S1:利用已有公开的盲去模糊的数据集构建模糊到清晰且色彩饱满的多任务数据集;S2:将构建的数据集输入到构建的深度学习模型中,对模型进行训练,模型训练为两个网络模块竞争训练,即图像得分网络不断激励图像重建网络恢复更优的图像;S3:将待处理的运动模糊图像输入到训练完成的深度学习模型中得到清晰且色彩饱满的图像。本发明能快速增强运动模糊图像的清晰度和色彩效果。这种将两种处理效果融入到一个处理模型中的方式大大提高了图像处理时间,降低了处理设备对硬件的要求,能提升低端设备的用户体验。
-
-
-
-
-
-
-
-
-