-
公开(公告)号:CN115393773A
公开(公告)日:2022-11-25
申请号:CN202211096181.3
申请日:2022-09-08
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于非结构化知识嵌入的视频常识文本生成方法,包括:S1、提取视频的图像特征、视频特征和音频特征,经过跨模态融合和解码处理生成视频内容的文本描述;S2、将视频内容的文本描述输入预训练好的非结构化知识库GPT,通过预设置的提示词引导,得到深层次常识描述;S3、对扩充到的文本知识进行筛选处理,并与视频的图像特征、视频特征和音频特征进行有效的跨模态常识融合,最终生成可准确理解视频内涵的常识描述文本。本发明提出了一种多模态知识引入的学习方法,通过借助非结构化大规模预训练模型,分别从知识扩充和知识融合两个角度,实现模型对视频内容的深度理解,有助于互联网时代下基于视频的文本描述生成任务。
-
公开(公告)号:CN111221961A
公开(公告)日:2020-06-02
申请号:CN201911055765.4
申请日:2019-10-31
Applicant: 南京南邮信息产业技术研究院有限公司 , 南京邮电大学
Abstract: 本发明提出了一种基于S-LSTM模型与槽值门的说话人意图识别系统及方法,系统包括词语嵌入模块:用于对用户提供的文本信息进行嵌入,将其转化为对应的词汇向量;特征提取模块:将得到的词汇嵌入进行处理,提取出其中蕴含的语义信息,以及一个句子整体的语义信息;意图判别模块:根据提取出的语义信息,对用户意图做出识别,并完成槽填充,为之后的行为提供保障。基于上述系统的说话人意图识别方法通过步骤S1-S4更好的挖掘了意图与其所对应槽值之间的关系,从而得到更好的准确率效果。
-