-
公开(公告)号:CN113849623B
公开(公告)日:2024-04-09
申请号:CN202111186856.9
申请日:2021-10-12
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/126 , G06F40/30 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 提供一种文本视觉问答方法和装置,该方法包括:通过文本视觉问答模型中的文字表征获取模块从图像获得视觉增强的文字表征,文字表征获取模块包括OCR模块和TVS模块;通过文本视觉问答模型中的物体表征获取模块从图像获得语义导向的物体表征;通过文本视觉问答模型中的预训练的语言模型从与图像对应的问题语句获得问题表征;通过文本视觉问答模型中的第一多模态交互网络模块从视觉增强的文字表征、语义导向的物体表征、问题表征以及先前解码向量获得与视觉增强的文字表征对应的文字表征增强特征和与先前解码向量对应的当前预测解码向量;通过文本视觉问答模型中的答案预测模块从文字表征增强特征和当前预测解码向量获得与问题语句对应的预测答案。
-
公开(公告)号:CN113849623A
公开(公告)日:2021-12-28
申请号:CN202111186856.9
申请日:2021-10-12
Applicant: 中国传媒大学 , 中国科学院信息工程研究所
IPC: G06F16/332 , G06F16/33 , G06F16/35 , G06F40/126 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 提供一种文本视觉问答方法和装置,该方法包括:通过文本视觉问答模型中的文字表征获取模块从图像获得视觉增强的文字表征,文字表征获取模块包括OCR模块和TVS模块;通过文本视觉问答模型中的物体表征获取模块从图像获得语义导向的物体表征;通过文本视觉问答模型中的预训练的语言模型从与图像对应的问题语句获得问题表征;通过文本视觉问答模型中的第一多模态交互网络模块从视觉增强的文字表征、语义导向的物体表征、问题表征以及先前解码向量获得与视觉增强的文字表征对应的文字表征增强特征和与先前解码向量对应的当前预测解码向量;通过文本视觉问答模型中的答案预测模块从文字表征增强特征和当前预测解码向量获得与问题语句对应的预测答案。
-
公开(公告)号:CN118262346A
公开(公告)日:2024-06-28
申请号:CN202410434598.9
申请日:2024-04-11
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V10/774 , G06V10/82 , G06N3/094
Abstract: 本发明公开了一种基于对抗训练的场景文字识别方法及装置,属于场景文字识别领域,本发明使用训练数据集对场景文字识别模型进行迭代训练,每次迭代中基于原始样本采用PGD攻击生成对抗样本利用小批量原始样本数据和对应的小批量对抗样本数据对模型进行标准训练和对抗训练,最后通过正则化系数进行损失融合,采用梯度下降更新模型参数。本发明利用对抗训练能够提高场景文字识别模型的准确性和鲁棒性。
-
公开(公告)号:CN114220086B
公开(公告)日:2025-03-28
申请号:CN202111295077.2
申请日:2021-11-03
Applicant: 中国科学院信息工程研究所 , 中国传媒大学
IPC: G06V20/62 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/084 , G06N3/094 , G06N3/088
Abstract: 本发明公开一种成本高效的场景文字检测方法及系统,属于图像字体识别领域,本发明首先在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型;其次在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。
-
公开(公告)号:CN114220086A
公开(公告)日:2022-03-22
申请号:CN202111295077.2
申请日:2021-11-03
Applicant: 中国科学院信息工程研究所 , 中国传媒大学
Abstract: 本发明公开一种成本高效的场景文字检测方法及系统,属于图像字体识别领域,本发明首先在预训练阶段提出一种无监督域适应方法,通过消除虚拟数据和真实数据的域差异,使虚拟数据在特征上更接近真实数据,从而获得一个较好的迁移学习初始模型;其次在微调阶段提出一个半监督主动学习方法,根据真实数据的标注信息量自适应选择数据进行标注,然后同时利用有标注和无标注的真实数据进行训练,在较小标注成本的条件下尽可能提升场景文字检测性能。
-
-
-
-