-
公开(公告)号:CN119314164A
公开(公告)日:2025-01-14
申请号:CN202411421874.4
申请日:2024-10-12
Applicant: 合肥工业大学
IPC: G06V20/62 , G06V10/46 , G06V10/82 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了基于异构表示的OCR图像描述生成方法及系统,涉及OCR图像描述技术领域,分别从视觉和文本方面提取基于检测到的OCR区域的特征,采用Faster‑RCNN进行文本检测,并进行文本识别;OCR视觉嵌入包括边界框特征和Faster‑RCNN视觉特征,OCR文本嵌入包括PHOC特征和FastText特征。本发明能够探索OCR特征的内部一致性,并通过异构建模机制增强视觉和文本信息之间的对齐。有效地整合了来自不同模态的数据特征。不仅确保了对图像内容更全面的理解,还显著提高了相应评估指标上的表现。所提出的异构注意力模块在生成包含文本元素的图像的准确和语境丰富的描述方面展示了卓越的能力。
-
公开(公告)号:CN113204670B
公开(公告)日:2022-12-09
申请号:CN202110565400.7
申请日:2021-05-24
Applicant: 合肥工业大学
IPC: G06F16/738 , G06F16/783 , G06V10/40 , G06V10/774 , G06V10/82 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于注意力模型的视频摘要描述生成方法及装置,其中方法包括:获取原始视频数据集及对应的视频摘要数据集并处理,提取对应视频帧的时序特征序列;将所述视频帧的时序特征序列输入到视频摘要模型中进行处理,生成对应的语义特征;对所述语义特征利用损失函数进行评价;本发明实现对视频摘要数据的处理,同时这种还能有效的保持了摘要与原视频之间语义的一致性。
-
公开(公告)号:CN111160474A
公开(公告)日:2020-05-15
申请号:CN201911401914.8
申请日:2019-12-30
Abstract: 本发明公开了一种基于深度课程学习的图像识别方法,属于图像识别领域,步骤为:基于深度卷积神经网络构建教师和学生网络;使用训练样本对教师网络进行图像分类训练,预测训练样本属于每个类别的概率;计算教师网络的预测和标签之间的差异对参数进行更新;将预测信息传送给学生网络;对学生网络进行训练;将教师网络的预测信息结果来指导学生网络训练;计算学生网络预测结果和标签之间的差异更新参数;完成学生网络分类训练;训练完成的学生网络实现对图像的识别分类。本发明模拟了人类学习从易到难的过程,训练过程合理、工作量大幅下降,网络参数更新快,且不同样本产生的梯度差异性去平衡样本的影响,预测精度更加高,性能更加可靠稳定。
-
公开(公告)号:CN111062451A
公开(公告)日:2020-04-24
申请号:CN201911402003.7
申请日:2019-12-30
Abstract: 本发明公开了一种基于文本引导图模型的图像描述生成方法,属于图像描述生成技术领域,包括以下步骤:S10、建立引导文本候选集;S20、引导文本提取;S30、视觉特征提取:基于卷积神经网络的Faster R-CNN模型对给定图片产生L个目标检测区域;S40、建立图模型:用LSTM模型将引导文本转换为文本特征向量;将文本特征向量和图像视觉特征用非线性函数F融合生成图像区域表征,构建图模型;S50、基于图卷积网络和LSTM解码器将所述图模型转换为描述字幕。本发明引入了图像相关的文本,扩展了输入信息的多样性,不仅关注了图像中的物体,也注重了与图像相关的文本所构建的物体之间的关系,从生成的结果上可以直观的看出图模型生成的句子中物体之间的关系也更加丰富和准确。
-
公开(公告)号:CN114708612A
公开(公告)日:2022-07-05
申请号:CN202210278349.6
申请日:2022-03-21
Applicant: 合肥工业大学
IPC: G06V40/10 , G06V10/74 , G06V30/148 , G06V10/764 , G06K9/62 , G06V10/82 , G06F40/289 , G06N3/04 , G06N3/08
Abstract: 本发明的一种跨模态细粒度属性对齐的行人智能查找方法、存储介质,包括以下步骤,对数据集中的行人图像以及文本进行全局和属性特征提取;对提取的行人文本特征和图像特征进行全局匹配;将提取的属性特征和全局文本特征作为输入,通过语义共同注意机制得到细粒度的行人属性特征;将得到的细粒度的行人属性特征和文本属性特征进行一一匹配,计算总损失函数,进行相似度计算,最后得到匹配结果。本发明通过语义共同注意机制对属性特征进行强化,使得相似的属性特征相似度更高,反之则更低,这样改进后得到更加细粒度的行人属性,使得拥有相同身份的行人和文本特征更容易匹配,大大提升了根据描述文本查询相似图片的准确率。
-
公开(公告)号:CN113204670A
公开(公告)日:2021-08-03
申请号:CN202110565400.7
申请日:2021-05-24
Applicant: 合肥工业大学
IPC: G06F16/738 , G06F16/783 , G06K9/46 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于注意力模型的视频摘要描述生成方法及装置,其中方法包括:获取原始视频数据集及对应的视频摘要数据集并处理,提取对应视频帧的时序特征序列;将所述视频帧的时序特征序列输入到视频摘要模型中进行处理,生成对应的语义特征;对所述语义特征利用损失函数进行评价;本发明实现对视频摘要数据的处理,同时这种还能有效的保持了摘要与原视频之间语义的一致性。
-
公开(公告)号:CN112465064A
公开(公告)日:2021-03-09
申请号:CN202011466828.8
申请日:2020-12-14
Applicant: 合肥工业大学
Abstract: 本发明公开了一种基于深度课程学习的图像识别方法,应用于图像识别领域,具体步骤包括如下:通过显著性检测模型将第一图像分离成前景图像和背景图像;将单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络;将所述前景图像和所述背景图像输入所述卷积神经网络,根据所述卷积神经网络输出概率结果和所述前景图像的标签,使用交叉熵计算真实类别标签和预测的概率之间的损失距离,得到最优卷积神经网络;将待识别的图像输入最优卷积神经网络中,输出识别结果。相对于原始的训练方法,本发明的训练框架缓解了深度神经网络的过拟合,提高了在测试集的性能。
-
公开(公告)号:CN110933519A
公开(公告)日:2020-03-27
申请号:CN201911070602.3
申请日:2019-11-05
Applicant: 合肥工业大学
IPC: H04N21/8549
Abstract: 本发明公开了一种基于多路特征的记忆网络视频摘要方法,视频输入模块,所述视频输入模块用于,录入待处理的视频帧;特征提取模块,所述特征提取模块用于,提取视频图像中的原始特征,并将每个视频采用一个K*1024维的向量表示,将两两视频帧之间的差异作为差异特征,然后将差异特征和原始特征同时输入到RNN记忆网络中,由于RNN在视频帧中捕获长期依赖关系的能力,只更新时间记忆网络,本发明可以更好地包含图像的有用信息,记忆更新模块,组建记忆网络,使其可以建立视频帧之间显著区域、对象之间的联系,对视频帧包含的信息达到一个长期有效的记忆,联合多路特征之间的差异信息有效地进行关键帧提取,使其达到我们的预期效果。
-
公开(公告)号:CN116992079A
公开(公告)日:2023-11-03
申请号:CN202310767163.1
申请日:2023-06-27
Applicant: 合肥工业大学
IPC: G06F16/783 , G06V20/40 , G06V20/62 , H04N19/20 , G06N3/0442 , G06N3/048 , G06N3/084
Abstract: 本发明公开了一种基于视频字幕的多模态视频摘要提取方法,包括:1获取视频的帧特征表示,2.获取字幕的特征表示,3.自动化的视频帧重要性评估,5.优化摘要器模型,6.优化基于关键帧的视频字幕生成器。本发明能快速输出短视频的关键帧集合及其对应的字幕,其中,关键帧集合以较少数目的视频帧以视觉的形式反映了视频的整体内容,相匹配的字幕则以文本的形式去概括视频画面,帮助用户更有效率的筛选短视频,并能节约存储空间和计算资源,更有利于部署应用于终端设备。
-
公开(公告)号:CN115546571A
公开(公告)日:2022-12-30
申请号:CN202211211730.7
申请日:2022-09-30
Applicant: 合肥工业大学
Abstract: 本发明公开了一种基于主要目标面向场景的文字字幕生成方法,涉及图像描述生成技术领域技术领域。对图像进行预处理得到包括关于M个物体中每个物体的物体区域框坐标、物体视觉特征、物体表征向量和关于N个文字中每个文字的文字区域框坐标、文字视觉特征、文字表征向量的样本数据;建立物体区域框坐标和文字区域框坐标之间的图关系;图卷积网络模型根据图关系对物体表征向量、文字表征向量进行增强得到增强特征;将增强特征发送到解码模型进行解码得到表述图片内容的句子。引入场景文字的主要目标概念,去除了场景图中冗余和干扰信息。关注图像中物体的同时也注重了图像的文本与物体之间的关系,生成的句子对场景文字的描述字幕更加准确。
-
-
-
-
-
-
-
-
-