-
公开(公告)号:CN116778289A
公开(公告)日:2023-09-19
申请号:CN202310726446.1
申请日:2023-06-19
Applicant: 南京邮电大学
Abstract: 本发明属于深度学习技术领域,具体涉及一种用于分类的Transformer网络模型,公开了一种基于Transformer进行音视频联合场景分类方法包括,通过利用Transformer单元对嘈杂的音频、视频和音视频分别进行早期融合和特征提取;对融合后的特征表示利用EfficientNetV2_S单元进行视频侧的预训练网络;通过利用分类单元进行音频特征、视频特征以及音视频联合特征三者加权求和所得的特征输入到分类器中进行场景分类。本发明提出了将原本的注意力机制替换为Transformer结构,将原本的预训练模型从ResNet50替换为EfficientNetV2_S,提高了分类的准确度,通过Transformer单元的运用提高了场景分类的准确率,提升了多模态之间的关联性。
-
公开(公告)号:CN116521909A
公开(公告)日:2023-08-01
申请号:CN202310477810.5
申请日:2023-04-28
Applicant: 南京邮电大学
IPC: G06F16/438 , G10L25/18 , G10L25/63 , G06V10/42 , G06V10/80 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于Embedding的音乐相册生成方法及系统,所述方法包括以下步骤:(1)利用VGG 16对图像进行预训练并提取图像特征;(2)将音频转换为Log Mel频谱,利用CNN14与Transformer对音频进行预训练,提取音频特征;(3)利用改进的多模态LPP算法将图像和音频特征映射到低维子空间,在每一种情感类别下,生成一种映射模型,实现音频相册的自动生成;本发明对于图像特征和音频特征可以提取到更高阶的语义特征;相比于图像与音频固有特征下,经过LPP算法后的结果,深度Embedding下取得的效果较之前有了一定的提升。
-