一种基于时空关系增强的跨模态文本-视频检索方法

    公开(公告)号:CN114048351B

    公开(公告)日:2024-11-05

    申请号:CN202111312233.1

    申请日:2021-11-08

    Applicant: 湖南大学

    Abstract: 本发明提供了一种基于时空关系增强的跨模态文本‑视频检索方法,包括以下步骤:利用在大规模数据集上预训练InceptionResNetV2模型、I3D模型、ResNet‑101模型来分别提取视频全局特征和视频局部对象特征,将两种特征通过仿射变换映射到同一维度后,输入到多层时空Transformer模块中进行进一步的时空关系交互,得到视频特征;将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列,然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征,再将词嵌入向量特征输入到预先训练的BERT模型中得到文本特征;将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比;能够提高文本‑视频检索的准确度以及对复杂对象关系视频检索的鲁棒性。

    一种基于细粒度跨模态对齐模型的文本-视频检索方法

    公开(公告)号:CN114048350A

    公开(公告)日:2022-02-15

    申请号:CN202111312220.4

    申请日:2021-11-08

    Applicant: 湖南大学

    Abstract: 本发明提供了一种基于细粒度跨模态对齐模型的文本‑视频检索方法,所述文本‑视频检索方法包括以下步骤:(1)视频嵌入特征学习,通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征;(2)文本嵌入特征学习,通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征;(3)联合嵌入学习,通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型,利用损失函数,将关键的视频语义单元特征与短语级文本语义特征对齐,并优化对应的文本和视频特征;本发明利用图自编码器在跨模态文本‑视频检索中进行文本‑视频两种模态间的细粒度交互建模,实现更好的跨模态检索性能。

    一种基于时空关系增强的跨模态文本-视频检索方法

    公开(公告)号:CN114048351A

    公开(公告)日:2022-02-15

    申请号:CN202111312233.1

    申请日:2021-11-08

    Applicant: 湖南大学

    Abstract: 本发明提供了一种基于时空关系增强的跨模态文本‑视频检索方法,包括以下步骤:利用在大规模数据集上预训练InceptionResNetV2模型、I3D模型、ResNet‑101模型来分别提取视频全局特征和视频局部对象特征,将两种特征通过仿射变换映射到同一维度后,输入到多层时空Transformer模块中进行进一步的时空关系交互,得到视频特征;将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列,然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征,再将词嵌入向量特征输入到预先训练的BERT模型中得到文本特征;将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比;能够提高文本‑视频检索的准确度以及对复杂对象关系视频检索的鲁棒性。

Patent Agency Ranking