-
公开(公告)号:CN116778291A
公开(公告)日:2023-09-19
申请号:CN202310742204.1
申请日:2023-06-21
Applicant: 南京大学
IPC: G06V10/80 , G06V10/774 , G06V20/40 , G10L25/63
Abstract: 一种基于视听融合效应的音视频跨模态搜索方法,对于用户给出的音频或视频,本发明可以通过训练好的人工智能网络,进行跨模态的搜索,即通过音频搜索视频或通过视频搜索音频。对于输入的其进行情感特征的提取,并以特征向量的余弦距离在素材库中进行搜索。本发明可以适配目前常见音视频格式的要求,内容上视频适用场景包括电影、纪录片、广告片等,音频适用场景包括古典乐、流行乐、爵士乐等。
-
公开(公告)号:CN118097115A
公开(公告)日:2024-05-28
申请号:CN202410341845.0
申请日:2024-03-25
Applicant: 南京大学
IPC: G06V10/25 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/096
Abstract: 本发明公开一种基于迁移学习的少样本目标检测方法,将总数据集根据样本数量多少分为少样本类集合和基类集合,使用基类集合训练整个目标检测器;将基训练阶段的检测器拷贝一份,取其骨干网络和部分特征网络并部分冻结;使用总数据集,将复制的冻结骨干网络和原网络用稳定约束损失相结合,利用反向传播算法进行微调训练;在测试时抛弃复制的网络,用微调后的原模型输出分类和回归结果。在不增加额外推理开销情况下,带来更好的少样本类和基类目标检测性能。
-
公开(公告)号:CN116740450A
公开(公告)日:2023-09-12
申请号:CN202310726324.2
申请日:2023-06-19
Applicant: 南京大学
IPC: G06V10/764 , G06V10/77 , G06V10/40 , G06V10/82 , G06V10/80 , G06N3/0464 , G06N3/045 , G06N3/084 , G06N3/096
Abstract: 一种基于联邦迁移学习的音视频匹配方法及系统,本发明所述方法基于大量情感数据,训练出预训练模型,个人用户在预训练模型上基于联邦迁移学习,使用少量个人数据,即可获得适用于自己需求的音视频匹配模型。本发明训练过程中数据隔离,解决了音视频匹配中可能存在的数据泄露风险,保障了用户的版权和隐私。同时保证了模型的质量无损传输,不会出现负迁移。
-
-