一种文本视频多模态融合的视频时刻检索方法

    公开(公告)号:CN119537644B

    公开(公告)日:2025-04-11

    申请号:CN202510095596.6

    申请日:2025-01-22

    Applicant: 西北大学

    Abstract: 本申请涉及一种文本视频多模态融合的视频时刻检索方法,将文本特征和多尺度视频特征进行全局融合,得到全局偏移量;将文本特征和多尺度视频特征进行局部融合,得到局部偏移量;累加全局偏移量和局部偏移量,得到总的偏移量;根据总的偏移量确定每个候选时刻对应的时间片段;对所有的时间片段采用非极大值抑制方法进行处理,得到最终的时间片段,即为确定的文本查询信息在原始视频中对应的时间片段。本申请解决了现有技术忽略了全局特征融合与局部特征融合的问题,既能捕捉到文本与视频之间的全局语义一致性,同时能够在更细粒度的层次上进行融合,有效的提升了视频时刻检索的准确性。

    一种文本视频多模态融合的视频时刻检索方法

    公开(公告)号:CN119537644A

    公开(公告)日:2025-02-28

    申请号:CN202510095596.6

    申请日:2025-01-22

    Applicant: 西北大学

    Abstract: 本申请涉及一种文本视频多模态融合的视频时刻检索方法,将文本特征和多尺度视频特征进行全局融合,得到全局偏移量;将文本特征和多尺度视频特征进行局部融合,得到局部偏移量;累加全局偏移量和局部偏移量,得到总的偏移量;根据总的偏移量确定每个候选时刻对应的时间片段;对所有的时间片段采用非极大值抑制方法进行处理,得到最终的时间片段,即为确定的文本查询信息在原始视频中对应的时间片段。本申请解决了现有技术忽略了全局特征融合与局部特征融合的问题,既能捕捉到文本与视频之间的全局语义一致性,同时能够在更细粒度的层次上进行融合,有效的提升了视频时刻检索的准确性。

Patent Agency Ranking