一种基于视听融合效应的音视频跨模态搜索方法

    公开(公告)号:CN116778291A

    公开(公告)日:2023-09-19

    申请号:CN202310742204.1

    申请日:2023-06-21

    Applicant: 南京大学

    Abstract: 一种基于视听融合效应的音视频跨模态搜索方法,对于用户给出的音频或视频,本发明可以通过训练好的人工智能网络,进行跨模态的搜索,即通过音频搜索视频或通过视频搜索音频。对于输入的其进行情感特征的提取,并以特征向量的余弦距离在素材库中进行搜索。本发明可以适配目前常见音视频格式的要求,内容上视频适用场景包括电影、纪录片、广告片等,音频适用场景包括古典乐、流行乐、爵士乐等。

Patent Agency Ranking