-
公开(公告)号:CN116959100B
公开(公告)日:2024-10-11
申请号:CN202310732026.4
申请日:2023-06-20
Applicant: 北京邮电大学
IPC: G06V40/20 , G06V20/40 , G06V10/774 , G06V10/82
Abstract: 本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括:构建频域增强FE模块,所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet‑50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题,与其他基于频域数据的方法相比,达到了更高的识别准确率,与其他基于压缩域数据的方法和基于RGB数据方法相比,也达到了具有竞争力的准确率,同时具有较高的效率。
-
公开(公告)号:CN116823908B
公开(公告)日:2024-09-03
申请号:CN202310758435.1
申请日:2023-06-26
Applicant: 北京邮电大学
IPC: G06T7/50 , G06T9/00 , G06V10/52 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明提供了一种基于多尺度特征相关性增强的单目图像深度估计方法。该方法包括:利用多模态RGB‑Depth融合模块对输入的RGB图像进行数据增强的预处理操作;使用多尺度深度编码模块提取数据增强后的多尺度特征图;在解码阶段使用RFF模块获取细粒度特征图,使用MFCE模块增强多尺度特征中的不同尺度间特征的相关性,通过结合RFF模块和MFCE模块融合和优化特征图,并获得逐像素深度图;通过深度表征目标函数优化整个单目深度估计网络模型的训练,确保泛化能力。本发明方法增强全局特征与局部特征之间的相关性,学习有效的外观结构信息,解决了由纹理偏差导致对外观结构错误估计的问题,重建了清晰稠密的单目深度图。
-
公开(公告)号:CN116863920B
公开(公告)日:2024-06-11
申请号:CN202310874348.2
申请日:2023-07-17
Applicant: 北京邮电大学
Abstract: 本发明提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质,包括:利用编码与量化模块对目标声学特征进行编码与量化获得语音向量;利用重构预测模块对语音向量进行重构预测获得第一语音表示;同时,利用对比预测模块中的自回归模型对语音向量进行预测获得第二语音表示;利用特征融合子模块对第一语音表示与第二语音表示进行融合获得融合后语音表示;基于目标声学特征,结合第一子模型与CTC模块中的连接时序分类器对融合后语音表示进行识别获得转录文本。本发明能够关注语音详细的上下文信息及语音不同特征之间的差异信息,提高自监督学习的鲁棒性,有效结合生成式和判别式自监督学习的互补优势。
-
公开(公告)号:CN117252908A
公开(公告)日:2023-12-19
申请号:CN202310878608.3
申请日:2023-07-17
Applicant: 北京邮电大学
IPC: G06T7/292 , G06T7/246 , G06N3/045 , G06N3/0464 , G06N3/0442
Abstract: 本发明提供了一种基于注意力的抗遮挡多目标跟踪方法。该方法包括:主干网络获得该第t帧图片中检测目标的特征;根据遮挡情况将第t帧图片中检测目标的特征划分为独立跟踪目标特征和非独立跟踪目标特征,将非独立跟踪目标特征划分为跟踪目标特征和遮挡目标特征;将独立跟踪目标特征和时序信息聚合后的非独立跟踪目标特征输入到检测网络,检测网络输出预测目标在第t帧图片中的位置;将检测网络输出的检测目标在第t‑1帧图片和第t帧图片的预测位置进行数据关联,得到检测目标的跟踪轨迹。本发明基于注意力机制提高外观特征的区分度,增强算法在遮挡场景下的鲁棒性,减少目标长时消失场景下的身份变化,提升多目标跟踪的识别跟踪准确率和稳定性。
-
公开(公告)号:CN116310975A
公开(公告)日:2023-06-23
申请号:CN202310241056.5
申请日:2023-03-14
Applicant: 北京邮电大学
Abstract: 本发明提供了一种基于一致片段选择的视听事件定位方法。该方法包括:从待进行识别的视听事件的视频流中提取初步的视觉特征和听觉特征;将初步的视觉特征和听觉特征通过双向引导的共同注意力,得到增强后的视觉特征和听觉特征;从增强后的视觉特征和听觉特征中选择出语义一致的视听片段对;对语义一致的视听片段对进行视听特征融合,得到视听融合特征;根据视听融合特征对待进行识别的视听事件进行识别,获取待进行识别的视听事件的事件定位信息。本发明方法通过一致片段选择模块计算两两视听片段的关联关系,对于关联得分高的视听对有着一致的语义,将其保留,并对保留下来的视听对进行全局建模,获取整个视频的语义信息。
-
公开(公告)号:CN115100565B
公开(公告)日:2023-06-09
申请号:CN202210680138.5
申请日:2022-06-16
Applicant: 北京邮电大学
IPC: G06V20/40 , G06V10/82 , G06V10/80 , G06V10/774 , G06N3/084
Abstract: 本发明提供了一种基于空间相关性与光流配准的多目标跟踪方法。该方法包括:将视频帧图像输入到空间信息与拓扑关系融合网络中,融合不同尺寸的图像特征,输出融合后的特征图;将融合特征图输入至空间信息与拓扑关系融合网络,并连接四个任务头,分别完成热图生成、偏移量生成、包围框尺寸生成和外观特征生成四个任务,以确定目标包围框的大小和位置,生成用于轨迹匹配的外观特征;将外观特征及其置信度作为结合稀疏光流的分层关联算法的输入,关联不同帧图像的检测结果,生成目标跟踪轨迹。本发明方法通过在多尺度空间注意网络和相关性融合网络引入多尺度的空间信息与拓扑信息,增加网络的表征能力,提高了目标轨迹的稳定性。
-
公开(公告)号:CN116229162A
公开(公告)日:2023-06-06
申请号:CN202310136646.1
申请日:2023-02-20
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/82 , G06V10/766 , G06F18/2415 , G06F18/25 , G06N3/045 , G06N3/047
Abstract: 本发明提供了一种基于胶囊网络的半自回归图像描述方法。该方法包括:提取图像特征,将提取的图像特征输入到Transformer编码器中进行处理得到视觉上下文特征;将所述视觉上下文特征和语言特征输入到Transformer解码器的跨模态注意层,进行跨模态语义计算;将跨模态语义计算结果输入到改进的胶囊网络层中,进行候选词汇时序属性学习,得到各个候选词汇;通过线性计算和softmax函数计算各个候选词汇的输出概率,得到图像的描述语句。本发明通过组掩码保持组内非自回归并行推理属性,提高推理速度;又引入胶囊网络增强整体模型词间依赖关系获取,提高生成语言的质量,在推理速度和语言质量之间达到一个较好的平衡。
-
公开(公告)号:CN109492666B
公开(公告)日:2021-07-06
申请号:CN201811156778.6
申请日:2018-09-30
Applicant: 北京百卓网络技术有限公司 , 北京邮电大学
Abstract: 本发明提供一种图像识别模型训练方法、装置及存储介质,该方法包括:根据N个样本数据,生成多个训练数据对;将所述多个训练数据对输入基于Siamese网络结构的深度神经网络模型中;获取所述训练数据对中两个样本数据在深度神经网络模型的每层网络层的输出信息;计算所述训练数据对中第一对比损失函数和第二对比损失函数;根据所述第一对比损失函数、所述第二对比损失函数以及softmax损失函数,更新所述深度神经网络模型的参数。本发明提供的方法可以使训练后的模型能够识别出同一类别下的不同模态的图像,提高了模型识别图像的正确率。
-
公开(公告)号:CN108804715A
公开(公告)日:2018-11-13
申请号:CN201810746362.3
申请日:2018-07-09
Applicant: 北京邮电大学
Inventor: 明悦
IPC: G06F17/30
Abstract: 本发明提供了一种融合视听感知的多任务协同识别方法和系统,属于多源异构数据处理识别技术领域,该系统包括通用特征提取模块、协同特征学习模块、适境反馈评估识别模块;基于多源异构数据的时间同步匹配机制,提取多源异构数据的通用特征;建立长时依赖记忆模型,结合基于外部依赖的协同注意机制,对所述通用特征作为先验知识进行持续学习;提取多源异构数据中的环境感知参数,建立渐进式网络深度协同增强识别机制,结合所述记忆模型的学习特征和任务需求,实现多任务识别。本发明结合环境感知的适境计算理论,通过深度增强反馈判断出待识别任务的权重,自适应地根据环境变化调整待识别任务的优先级,实现多个视听觉感知识别结果同时输出的效果。
-
公开(公告)号:CN106650670A
公开(公告)日:2017-05-10
申请号:CN201611227688.2
申请日:2016-12-27
Applicant: 北京邮电大学
CPC classification number: G06K9/00906 , G06K9/00221 , G06K9/00711 , G06K9/00744 , G06K9/6215 , G06K9/6256 , G06K9/6276
Abstract: 本发明提供一种活体人脸视频的检测方法及装置。本发明的活体人脸视频的检测方法包括:获取待检测人脸视频;获取待检测人脸视频对应的第一光流向量;获取第一光流向量和各第二光流向量之间的欧式距离;其中,每个训练视频对应一个第二光流向量,第二光流向量具有标签,标签用于指示第二光流向量对应的训练视频的视频类型;根据欧式距离及第二光流向量的标签,确定待检测人脸视频的视频类型,根据待检测人脸视频的视频类型,判断待检测人脸视频中的人脸是否为活体人脸。本发明提供的活体人脸视频的检测方法及装置,不需要用户的高度配合,对用户友好,检测速度快,且对人脸视频的类型检测准确,大大减少了人脸识别系统中存在的安全隐患。
-
-
-
-
-
-
-
-
-