一种基于改进神经网络的智能音乐生成方法及系统

    公开(公告)号:CN113423005B

    公开(公告)日:2022-05-03

    申请号:CN202110541902.6

    申请日:2021-05-18

    Abstract: 本发明公开了一种基于改进神经网络的智能音乐生成方法及系统,包括:构建数据集、视频帧图像初始特征提取、视频帧特征的时序关联、生成音频原始数据、网络训练与测试。本发明利用计算机快捷性、经济性的特点,设计了一种深度神经网络结构并对其进行训练,实现了对运动视频进行智能化处理并生成原始音频数据,进而合成配乐,解决了目前配乐制作难度大、时间与经济成本高的问题,同时建立了运动驱动的智能音乐生成功能系统,能够准确的对输入视频数据进行特征提取,生成质量较高的音乐并且实现音乐与运动场景相匹配,生成音乐的主观评分MOS>3.5,实现对体育运动等题材的视频进行快速、批量化配乐生成,使音乐制作的时间成本与经济成本减少一倍以上。

    一种运动驱动的智能音乐生成方法及系统

    公开(公告)号:CN113423005A

    公开(公告)日:2021-09-21

    申请号:CN202110541902.6

    申请日:2021-05-18

    Abstract: 本发明公开了一种运动驱动的智能音乐生成方法及系统,包括:构建数据集、视频帧图像初始特征提取、视频帧特征的时序关联、生成音频原始数据、网络训练与测试。本发明利用计算机快捷性、经济性的特点,设计了一种深度神经网络结构并对其进行训练,实现了对运动视频进行智能化处理并生成原始音频数据,进而合成配乐,解决了目前配乐制作难度大、时间与经济成本高的问题,同时建立了运动驱动的智能音乐生成功能系统,能够准确的对输入视频数据进行特征提取,生成质量较高的音乐并且实现音乐与运动场景相匹配,生成音乐的主观评分MOS>3.5,实现对体育运动等题材的视频进行快速、批量化配乐生成,使音乐制作的时间成本与经济成本减少一倍以上。

    一种基于文本监督的第一视角场景解析方法

    公开(公告)号:CN119296103A

    公开(公告)日:2025-01-10

    申请号:CN202411617566.9

    申请日:2024-11-13

    Abstract: 该发明公开了一种基于文本监督的第一视角场景解析方法,属于图像处理领域,特别是第一视角视觉场景解析领域。本发明提出了跨模态提示学习模块,引入视觉与文本可学习提示向量,针对在第三人称数据上预训练的视觉语言模型进行微调,使其能够应用于具有复杂目标关系的第一视角图像;此外,本发明还提出了表征知识迁移模块,将视觉语言预训练模型的特征级知识蒸馏到微调后的第一视角编码器中,提高第一视角模型的跨模态关联能力,从而基于类别文本对第一视角场景中的目标进行准确分割。本发明创新地提出了一种基于文本监督的第一视角场景解析方法,利用第一视角图像的类别文本生成对应的分割伪掩码以缓解像素级标注稀缺的问题。

Patent Agency Ranking