-
公开(公告)号:CN119026684A
公开(公告)日:2024-11-26
申请号:CN202410832864.3
申请日:2024-06-26
Applicant: 中电鸿信信息科技有限公司
IPC: G06N5/04 , G06N3/0455 , G06F18/213 , G06F18/25 , G06V10/42
Abstract: 本发明提供了一种基于跨模态隐式局部学习的问答推理方法及系统,涉及自然语言处理技术领域。方法包括:获取训练特征数据集,对训练特征数据集进行配对,得到若干样本,每对样本都由图像、图像对应的问题描述文本和问题对应的答案组成。提取图像的图像特征,对问题描述文本进行掩码得到掩码问题描述文本;使用Transformer编码器对掩码问题描述文本进行特征提取,得到掩码问题描述文本特征。构建跨模态融合模块,将图像特征与掩码问题描述文本特征作为跨模态融合模块的输入,由掩码预测模块预测被掩码替换的字符。计算预测被掩码替换的字符与真实字符的相似度,设计整体优化目标函数对掩码预测模块进行优化。本发明在图像问答、物体识别、行人检索领域均有良好的应用前景。