一种基于Transformer进行音视频联合场景分类方法及系统

    公开(公告)号:CN116778289A

    公开(公告)日:2023-09-19

    申请号:CN202310726446.1

    申请日:2023-06-19

    Abstract: 本发明属于深度学习技术领域,具体涉及一种用于分类的Transformer网络模型,公开了一种基于Transformer进行音视频联合场景分类方法包括,通过利用Transformer单元对嘈杂的音频、视频和音视频分别进行早期融合和特征提取;对融合后的特征表示利用EfficientNetV2_S单元进行视频侧的预训练网络;通过利用分类单元进行音频特征、视频特征以及音视频联合特征三者加权求和所得的特征输入到分类器中进行场景分类。本发明提出了将原本的注意力机制替换为Transformer结构,将原本的预训练模型从ResNet50替换为EfficientNetV2_S,提高了分类的准确度,通过Transformer单元的运用提高了场景分类的准确率,提升了多模态之间的关联性。

Patent Agency Ranking