-
公开(公告)号:CN118972505A
公开(公告)日:2024-11-15
申请号:CN202410967689.9
申请日:2024-07-18
Applicant: 浙江大学
IPC: H04N5/265 , G06F16/35 , G06F40/253 , G06F40/284 , G06F40/30 , G06N20/00 , H04N21/854 , G10L13/10
Abstract: 本发明涉及一种基于金融文本的视频及配乐生成方法,包括:获取金融文本的数据集,分类并对数据进行预处理;根据所述金融文本生成语音,通过语音生成数字人视频;根据所述金融文本提取特征,并生成多个类别的音乐提示词,所述音乐提示词与所述金融文本的情感特征相匹配;根据音乐提示词生成配乐,包括:通过在音乐大模型权重矩阵增设低秩矩阵对预训练模型进行微调;融合所述数字人视频和所述配乐。本发明还涉及装置、设备以及存储介质。
-
公开(公告)号:CN116758881A
公开(公告)日:2023-09-15
申请号:CN202310836807.8
申请日:2023-07-07
Applicant: 浙江大学
IPC: G10H1/00
Abstract: 本发明公开了一种基于舞蹈的多乐器音乐生成方法,立足于填补基于舞蹈生成多乐器音乐研究的空白,构建音乐舞蹈配对的数据集,提升了音乐和舞蹈两种模态的相关性,解决了基于舞蹈的音乐生成工作的主要瓶颈;其次,提供了一个端到端的简单高效的多乐器音乐架构,直接以舞蹈视频中提取的人体运动特征和配对的MIDI序列作为输入,预测下一个MIDI符号;最后,通过该架构生成的高质量多乐器音乐,验证了多乐器音乐生成的可行性,为多模态条件音乐生成提供了依据。
-
公开(公告)号:CN119785439A
公开(公告)日:2025-04-08
申请号:CN202510283064.5
申请日:2025-03-11
Applicant: 浙江大学
IPC: G06V40/20 , G06V20/40 , G06V10/774 , G06V10/80 , G06V40/10 , G06V10/82 , G06N3/0455 , G06N3/0475 , G06N3/0895 , G06V10/776
Abstract: 本发明公开了一种基于视觉和词目特征预训练对齐的手语翻译方法和装置,属于手语翻译技术领域,包括:利用视觉编码器提取手语视频的视觉特征,利用文本编码器提取词目文本特征,基于视觉和词目文本特征进行对比学习得到预训练后的视觉编码器;对文本解码器进行词目文本掩码预测预训练;将预训练后的视觉编码器和文本解码器构建为手语识别模型以从手语视频中识别得到词目文本序列;将域内预训练后的大语言模型接入手语识别模型构建为手语翻译模型并联合微调,以将词目文本序列翻译为自然语言文本。本发明能实现更加高效、准确和可靠的手语识别与翻译,应用于智能手语翻译、无障碍通信、手语教育等领域,为听障群体提供更精准、自然的语言交互体验。
-
公开(公告)号:CN116958872A
公开(公告)日:2023-10-27
申请号:CN202310922353.6
申请日:2023-07-26
Applicant: 浙江大学
IPC: G06V20/40 , A63B71/06 , G06V10/774 , G06V10/82 , G06V40/10 , G06V40/20 , G06T7/246 , G06T7/73 , G06T7/80 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明适用于人工智能计算机视觉应用领域,尤其涉及一种羽毛球运动的智能化辅助训练方法及系统,从二维球路检测与跟踪中输出球体的位置信息和时序信息,在三维空间中对其进行了还原和轨迹优化。实现了基于双目视角和单目视角的运动员技术动作获取方法。从时序、场地、比赛规则等多个角度引入额外条件约束,尝试为单目视角下的羽毛球运动员的三维人体姿态越策更准确的估计结果。实现了智能化辅助训练原型系统,在系统中对球路获取和运动员技术动作获取方案进行了整合集成,并且配套了对应的数据采集功能和数据存储、索引功能,形成了对数据采集、数据分析、数据存储与输出的羽毛球视频分析流程的闭环。
-
-
-