-
公开(公告)号:CN117079181A
公开(公告)日:2023-11-17
申请号:CN202310933937.3
申请日:2023-07-27
Applicant: 电子科技大学
IPC: G06V20/40 , G06V10/776 , G06V10/77 , G06V10/80 , G06V10/74 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/084
Abstract: 该发明公开了一种基于跨模态认知共识对齐的音视频分割方法,属于多模态图像分割领域。提出了跨模态认知共识模块以及认知共识引导的注意力模块,跨模态认知共识模块分别计算音频、视觉分类置信度,并衡量音视频语义标签的互相似度,接着使用分类置信度对互相似度进行加权,得到语义级跨模态认知共识分数并选取语义对齐的标签;随后,将语义对齐的标签梯度反传回视觉编码器获取类激活信息,通过认知共识引导的注意力模块,突出语义一致性高的视觉目标,以指导后续的分割过程。一方面,本发明的方法在音视频分割数据集上达到了目前最先进的性能;另一方面,本发明的方法可以准确有效的分割出视频中的发声目标,并且输出像素级掩码。
-
公开(公告)号:CN113423005B
公开(公告)日:2022-05-03
申请号:CN202110541902.6
申请日:2021-05-18
Applicant: 电子科技大学
IPC: H04N21/439 , H04N21/44 , H04N21/81 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于改进神经网络的智能音乐生成方法及系统,包括:构建数据集、视频帧图像初始特征提取、视频帧特征的时序关联、生成音频原始数据、网络训练与测试。本发明利用计算机快捷性、经济性的特点,设计了一种深度神经网络结构并对其进行训练,实现了对运动视频进行智能化处理并生成原始音频数据,进而合成配乐,解决了目前配乐制作难度大、时间与经济成本高的问题,同时建立了运动驱动的智能音乐生成功能系统,能够准确的对输入视频数据进行特征提取,生成质量较高的音乐并且实现音乐与运动场景相匹配,生成音乐的主观评分MOS>3.5,实现对体育运动等题材的视频进行快速、批量化配乐生成,使音乐制作的时间成本与经济成本减少一倍以上。
-
公开(公告)号:CN113423005A
公开(公告)日:2021-09-21
申请号:CN202110541902.6
申请日:2021-05-18
Applicant: 电子科技大学
IPC: H04N21/439 , H04N21/44 , H04N21/81 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种运动驱动的智能音乐生成方法及系统,包括:构建数据集、视频帧图像初始特征提取、视频帧特征的时序关联、生成音频原始数据、网络训练与测试。本发明利用计算机快捷性、经济性的特点,设计了一种深度神经网络结构并对其进行训练,实现了对运动视频进行智能化处理并生成原始音频数据,进而合成配乐,解决了目前配乐制作难度大、时间与经济成本高的问题,同时建立了运动驱动的智能音乐生成功能系统,能够准确的对输入视频数据进行特征提取,生成质量较高的音乐并且实现音乐与运动场景相匹配,生成音乐的主观评分MOS>3.5,实现对体育运动等题材的视频进行快速、批量化配乐生成,使音乐制作的时间成本与经济成本减少一倍以上。
-
公开(公告)号:CN119296103A
公开(公告)日:2025-01-10
申请号:CN202411617566.9
申请日:2024-11-13
Applicant: 电子科技大学
IPC: G06V20/70 , G06V10/764 , G06V10/26 , G06V10/82 , G06N3/0895 , G06N3/096
Abstract: 该发明公开了一种基于文本监督的第一视角场景解析方法,属于图像处理领域,特别是第一视角视觉场景解析领域。本发明提出了跨模态提示学习模块,引入视觉与文本可学习提示向量,针对在第三人称数据上预训练的视觉语言模型进行微调,使其能够应用于具有复杂目标关系的第一视角图像;此外,本发明还提出了表征知识迁移模块,将视觉语言预训练模型的特征级知识蒸馏到微调后的第一视角编码器中,提高第一视角模型的跨模态关联能力,从而基于类别文本对第一视角场景中的目标进行准确分割。本发明创新地提出了一种基于文本监督的第一视角场景解析方法,利用第一视角图像的类别文本生成对应的分割伪掩码以缓解像素级标注稀缺的问题。
-
公开(公告)号:CN115713538A
公开(公告)日:2023-02-24
申请号:CN202211445260.0
申请日:2022-11-18
Applicant: 电子科技大学
Abstract: 本发明公开了一种基于跨模态对偶图对齐的参考图像分割方法,属于多模态图像分割领域。本发明创新性的提出了“部分‑统一‑整体”的范式,即将提取得到的视觉与文本特征先映射至一个统一的潜在表征结构,再进行跨模态融合。这有利于模型提取的显式对齐信息,可以有效增强最终的分割效果。
-
-
-
-