-
公开(公告)号:CN119168064A
公开(公告)日:2024-12-20
申请号:CN202411225063.7
申请日:2024-09-03
Applicant: 哈尔滨工业大学
IPC: G06N5/04 , G06N3/0455 , G06N3/0442 , G06N3/0475 , G06N3/094 , G06F18/25 , G06F18/15 , G06F18/213 , G06F18/21 , G06F16/432 , G06F16/9032 , H04N21/854
Abstract: 一种基于统一框架的中文多模态数据生成方法,涉及自然语言处理与计算机视觉技术领域。为解决现有技术中存在的,现有的多模态大模型无法在统一的框架下高效地理解和生成包括文本、图像、视频及音频在内的多种模态数据的技术问题,本发明提供的技术方案为:包括:采集多模态数据并进行预处理;进行特征提取,得到文本特征向量和多模态特征向量;将所述多模态特征向量行特征对齐,然后将对齐后的多模态特征与所述文本特征向量进行拼接,得到用户输入数据的特征嵌入表示;嵌入表示输入多模态大模型,生成多模态内容;将生成的多模态内容进行整合,并按顺序输出。适合应用于理解和生成包括文本、图像、视频及音频在内的多模态数据的工作中。