-
公开(公告)号:CN114048350A
公开(公告)日:2022-02-15
申请号:CN202111312220.4
申请日:2021-11-08
Applicant: 湖南大学
IPC: G06F16/783 , G06F16/75 , G06F40/30
Abstract: 本发明提供了一种基于细粒度跨模态对齐模型的文本‑视频检索方法,所述文本‑视频检索方法包括以下步骤:(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征;本发明利用图自编码器在跨模态文本‑视频检索中进行文本‑视频两种模态间的细粒度交互建模,实现更好的跨模态检索性能。
-
公开(公告)号:CN113553947A
公开(公告)日:2021-10-26
申请号:CN202110834682.6
申请日:2021-07-23
Applicant: 湖南大学
Abstract: 本发明提供一种生成描述嵌入多模态行人重识别方法、装置及电子设备。所述方法提供了一种基于三种模态以上的多模态行人重识别方法,能够将文本描述和素描图像的优势结合进行行人重识别,并基于生成对抗的方法减小描述特征与图像特征之间模态差距,使行人重识别的结果更加准确,提升行人重识别的准确率。
-
公开(公告)号:CN113065496A
公开(公告)日:2021-07-02
申请号:CN202110395391.1
申请日:2021-04-13
Applicant: 湖南大学
Abstract: 本发明提供一种神经网络机器翻译模型训练方法、机器翻译方法和装置。所述神经网络机器翻译模型训练方法通过从训练视频中提取场景视觉图,再根据场景视觉图得到细腻度更高的视频特征向量序列,再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列,然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列,最后根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练,能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。
-
公开(公告)号:CN111782870A
公开(公告)日:2020-10-16
申请号:CN202010557372.X
申请日:2020-06-18
Applicant: 湖南大学
IPC: G06F16/732 , G06F16/783 , G06K9/00 , G06K9/62 , G06N20/00
Abstract: 本发明提供一种基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质,输入完整视频和查询语句作为强化学习代理的环境信息;提取所述环境信息的查询语句特征、全局视频特征、位置特征和局部视频特征构成当前的视频时刻片段的状态;所述强化学习代理根据所述状态作出在所述时序边界移动的动作,获取执行所述动作的奖励以及根据所述奖励输出若干个更新的时序边界和局部视频特征,所述时序边界为更新后当前的视频时刻候选片段;通过贝叶斯个性化排序方法对所述时序边界和所述查询语句进行匹配,输出匹配分值,并将所述匹配分值作为奖励返回所述强化学习代理;通过对抗学习相互增强,直到收敛,得到对应所述查询语句的视频时刻片段。
-
公开(公告)号:CN119693877A
公开(公告)日:2025-03-25
申请号:CN202411866290.8
申请日:2024-12-18
Applicant: 湖南大学
IPC: G06V20/52 , G06V40/10 , G06V10/74 , G06V10/774 , G06V10/82 , G06N3/0455 , G06N3/08
Abstract: 本发明提出了一种基于可扩展表征学习的行人重识别方法。主要包括视觉表征学习模块、文本表征学习模块和行人检索模块。视觉表征学习模块利用来自两个空间的ViT结构的视觉编码特征增强图像区分能力,并通过因果注意力机制融合;文本表征学习模块借助示范样本,同时采用因果注意力机制,消除数据集中存在的偏差,从而提高行人重识别的性能,使行人检索结果更加准确。
-
公开(公告)号:CN114238752B
公开(公告)日:2024-06-28
申请号:CN202111439526.6
申请日:2021-11-30
Applicant: 湖南大学
IPC: G06Q30/0601 , G06F18/231 , G06F18/2323
Abstract: 本申请提供一种物品推荐方法及相关设备,可以提高冷启动的准确性。该方法包括:确定冷启动对象集合中每个冷启动对象的多模态信息以及暖对象集合中每个暖对象的多模态信息,多模态信息包括标识信息、视觉信息特征、音频信息特征以及文本信息特征中的至少两个;根据每个冷启动对象的多模态信息与每个暖对象的多模态信息进行层次聚类,得到多个聚类结果;根据多个聚类结果构建每个冷启动对象与暖对象之间的补充交互图,暖对象与暖对象集合相对应;根据补充交互图确定每个冷启动对象的第一最终表示以及与每个冷启动对象所对应暖对象的第二最终表示;根据第一最终表示以及第二最终表示对每个冷启动对象进行推荐。
-
公开(公告)号:CN112380385B
公开(公告)日:2023-12-29
申请号:CN202011292346.5
申请日:2020-11-18
Applicant: 湖南大学
IPC: G06F16/732 , G06F16/735 , G06F40/30 , G06F18/22 , G06F18/214
Abstract: 本发明涉及视频检索领域,特别涉及一种基于多模态关系图的视频时刻定位方法及设备,首先输入长视频V及查询语句q,然后构建文本关系图和视觉关系图的双通道关系图,通过文本关系图过滤视觉关系图中的无关对象,通过预训练任务增强对视觉关系图的语义推力和特征提取能力,然后根据查询语句q,利用跨模态检索在长视频V中预测得到备选视频,并补充预测备选视频的边界的时间偏置,直至得到对应查询语句q的视频时刻片段,通过上述方法,可以实现从未修剪的长视频V和输入的查询文本q中捕获对象之间的交互,并进一步通过跨模态检索返回更精确的视频定位边界,有效的提高了用户查询检索的准确度和速度,进一步提高了用户的查询体验。
-
公开(公告)号:CN113435216B
公开(公告)日:2023-06-23
申请号:CN202110704424.6
申请日:2021-06-24
Applicant: 湖南大学
IPC: G06F40/58 , G06N3/047 , G06N3/0464 , G06N3/08
Abstract: 本发明提供一种神经网络机器翻译模型的训练方法。所述方法包括如下步骤:获取训练样本集,训练样本集包括训练视频、与训练视频对应的源语言文本向量及与源语言文本向量对应的目标语言文本向量;从训练视频中提取多个动作概念特征向量及多个目标概念标签;将多个动作概念特征向量及源语言文本向量输入到神经网络机器翻译模型中,得到预测文本向量及正译预测概念标签;将多个动作概念特征向量及回译输入向量输入到神经网络机器翻译模型中,得到回译文本向量及回译预测概念标签;根据各个向量及标签之间的比较结果,对神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,能够提升机器翻译的精度。
-
公开(公告)号:CN113065496B
公开(公告)日:2022-06-28
申请号:CN202110395391.1
申请日:2021-04-13
Applicant: 湖南大学
Abstract: 本发明提供一种神经网络机器翻译模型训练方法、机器翻译方法和装置。所述神经网络机器翻译模型训练方法通过从训练视频中提取场景视觉图,再根据场景视觉图得到细腻度更高的视频特征向量序列,再将视频特征向量序列与第一文本特征向量序列进行对齐融合得到更准确的视频引导的第一文本特征向量序列,然后通过视频引导的第一文本特征向量序列和第二文本特征向量序列得到预测文本向量序列,最后根据预测文本向量序列与标准文本特征向量序列的比对结果,对所述神经网络机器翻译模型的模型参数进行迭代调整,直到满足收敛条件,完成所述神经网络机器翻译模型的训练,能够提升训练得到的神经网络机器翻译模型对视频引导的机器翻译的精度。
-
公开(公告)号:CN111782870B
公开(公告)日:2021-11-30
申请号:CN202010557372.X
申请日:2020-06-18
Applicant: 湖南大学
IPC: G06F16/732 , G06F16/783 , G06K9/00 , G06K9/62 , G06N20/00
Abstract: 本发明提供一种基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质,输入完整视频和查询语句作为强化学习代理的环境信息;提取所述环境信息的查询语句特征、全局视频特征、位置特征和局部视频特征构成当前的视频时刻片段的状态;所述强化学习代理根据所述状态作出在所述时序边界移动的动作,获取执行所述动作的奖励以及根据所述奖励输出若干个更新的时序边界和局部视频特征,所述时序边界为更新后当前的视频时刻候选片段;通过贝叶斯个性化排序方法对所述时序边界和所述查询语句进行匹配,输出匹配分值,并将所述匹配分值作为奖励返回所述强化学习代理;通过对抗学习相互增强,直到收敛,得到对应所述查询语句的视频时刻片段。
-
-
-
-
-
-
-
-
-