-
公开(公告)号:CN117252908B
公开(公告)日:2024-11-26
申请号:CN202310878608.3
申请日:2023-07-17
Applicant: 北京邮电大学
IPC: G06T7/292 , G06T7/246 , G06N3/045 , G06N3/0464 , G06N3/0442
Abstract: 本发明提供了一种基于注意力的抗遮挡多目标跟踪方法。该方法包括:主干网络获得该第t帧图片中检测目标的特征;根据遮挡情况将第t帧图片中检测目标的特征划分为独立跟踪目标特征和非独立跟踪目标特征,将非独立跟踪目标特征划分为跟踪目标特征和遮挡目标特征;将独立跟踪目标特征和时序信息聚合后的非独立跟踪目标特征输入到检测网络,检测网络输出预测目标在第t帧图片中的位置;将检测网络输出的检测目标在第t‑1帧图片和第t帧图片的预测位置进行数据关联,得到检测目标的跟踪轨迹。本发明基于注意力机制提高外观特征的区分度,增强算法在遮挡场景下的鲁棒性,减少目标长时消失场景下的身份变化,提升多目标跟踪的识别跟踪准确率和稳定性。
-
公开(公告)号:CN116863920B
公开(公告)日:2024-06-11
申请号:CN202310874348.2
申请日:2023-07-17
Applicant: 北京邮电大学
Abstract: 本发明提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质,包括:利用编码与量化模块对目标声学特征进行编码与量化获得语音向量;利用重构预测模块对语音向量进行重构预测获得第一语音表示;同时,利用对比预测模块中的自回归模型对语音向量进行预测获得第二语音表示;利用特征融合子模块对第一语音表示与第二语音表示进行融合获得融合后语音表示;基于目标声学特征,结合第一子模型与CTC模块中的连接时序分类器对融合后语音表示进行识别获得转录文本。本发明能够关注语音详细的上下文信息及语音不同特征之间的差异信息,提高自监督学习的鲁棒性,有效结合生成式和判别式自监督学习的互补优势。
-
公开(公告)号:CN117252908A
公开(公告)日:2023-12-19
申请号:CN202310878608.3
申请日:2023-07-17
Applicant: 北京邮电大学
IPC: G06T7/292 , G06T7/246 , G06N3/045 , G06N3/0464 , G06N3/0442
Abstract: 本发明提供了一种基于注意力的抗遮挡多目标跟踪方法。该方法包括:主干网络获得该第t帧图片中检测目标的特征;根据遮挡情况将第t帧图片中检测目标的特征划分为独立跟踪目标特征和非独立跟踪目标特征,将非独立跟踪目标特征划分为跟踪目标特征和遮挡目标特征;将独立跟踪目标特征和时序信息聚合后的非独立跟踪目标特征输入到检测网络,检测网络输出预测目标在第t帧图片中的位置;将检测网络输出的检测目标在第t‑1帧图片和第t帧图片的预测位置进行数据关联,得到检测目标的跟踪轨迹。本发明基于注意力机制提高外观特征的区分度,增强算法在遮挡场景下的鲁棒性,减少目标长时消失场景下的身份变化,提升多目标跟踪的识别跟踪准确率和稳定性。
-
公开(公告)号:CN116229162A
公开(公告)日:2023-06-06
申请号:CN202310136646.1
申请日:2023-02-20
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/82 , G06V10/766 , G06F18/2415 , G06F18/25 , G06N3/045 , G06N3/047
Abstract: 本发明提供了一种基于胶囊网络的半自回归图像描述方法。该方法包括:提取图像特征,将提取的图像特征输入到Transformer编码器中进行处理得到视觉上下文特征;将所述视觉上下文特征和语言特征输入到Transformer解码器的跨模态注意层,进行跨模态语义计算;将跨模态语义计算结果输入到改进的胶囊网络层中,进行候选词汇时序属性学习,得到各个候选词汇;通过线性计算和softmax函数计算各个候选词汇的输出概率,得到图像的描述语句。本发明通过组掩码保持组内非自回归并行推理属性,提高推理速度;又引入胶囊网络增强整体模型词间依赖关系获取,提高生成语言的质量,在推理速度和语言质量之间达到一个较好的平衡。
-
公开(公告)号:CN116229162B
公开(公告)日:2024-07-30
申请号:CN202310136646.1
申请日:2023-02-20
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/82 , G06V10/766 , G06F18/2415 , G06F18/25 , G06N3/045 , G06N3/047
Abstract: 本发明提供了一种基于胶囊网络的半自回归图像描述方法。该方法包括:提取图像特征,将提取的图像特征输入到Transformer编码器中进行处理得到视觉上下文特征;将所述视觉上下文特征和语言特征输入到Transformer解码器的跨模态注意层,进行跨模态语义计算;将跨模态语义计算结果输入到改进的胶囊网络层中,进行候选词汇时序属性学习,得到各个候选词汇;通过线性计算和softmax函数计算各个候选词汇的输出概率,得到图像的描述语句。本发明通过组掩码保持组内非自回归并行推理属性,提高推理速度;又引入胶囊网络增强整体模型词间依赖关系获取,提高生成语言的质量,在推理速度和语言质量之间达到一个较好的平衡。
-
公开(公告)号:CN116863920A
公开(公告)日:2023-10-10
申请号:CN202310874348.2
申请日:2023-07-17
Applicant: 北京邮电大学
Abstract: 本发明提供了一种基于双流自监督网络的语音识别方法、装置、设备及介质,包括:利用编码与量化模块对目标声学特征进行编码与量化获得语音向量;利用重构预测模块对语音向量进行重构预测获得第一语音表示;同时,利用对比预测模块中的自回归模型对语音向量进行预测获得第二语音表示;利用特征融合子模块对第一语音表示与第二语音表示进行融合获得融合后语音表示;基于目标声学特征,结合第一子模型与CTC模块中的连接时序分类器对融合后语音表示进行识别获得转录文本。本发明能够关注语音详细的上下文信息及语音不同特征之间的差异信息,提高自监督学习的鲁棒性,有效结合生成式和判别式自监督学习的互补优势。
-
-
-
-
-