利用空间-时间图推理网络解决多形态语句视频定位任务的方法

    公开(公告)号:CN111414845A

    公开(公告)日:2020-07-14

    申请号:CN202010191264.5

    申请日:2020-03-18

    Applicant: 浙江大学

    Inventor: 赵洲 张品涵 张竹

    Abstract: 本发明公开了一种空间-时间图推理网络解决多形态语句视频定位任务的方法,属于自然语言视觉定位领域。本发明首先将视频解析为空间-时间区域图,不仅有每个帧的隐式和显式空间子图,而且有跨帧的时间动态性子图。接下来,将文本线索加入到该空间-时间区域图中,建立多步跨模态图推理。多步过程可以支持多序关系建模。之后,使用时间定位器确定管道的时间边界,然后应用具有动态选择方法的空间定位器将对象在每个帧中定位,生成平滑的管道。本发明对自然语言进行定位时无需对视频进行修剪,降低了视频定位的成本;可以有效处理疑问句和陈述句,为更高层的自然语言处理和计算视觉结合研究(如视频问答等)提供了技术支持,应用前景广阔。

    通过影像查询定位视频中未预习的活动的方法

    公开(公告)号:CN110378269A

    公开(公告)日:2019-10-25

    申请号:CN201910621444.X

    申请日:2019-07-10

    Applicant: 浙江大学

    Abstract: 本发明公开了一种通过影像查询定位视频中未预习的活动的方法。该方法通过相对位置编码设计了一种新颖的区域自注意力方法来学习细粒度图像的区域表示,从而可以消除在影像查询中语义上不必要内容的影响;使用了一种多层堆叠的转换器编码器,建立了影像与视频内容的多步融合与推理,从而处理了不精确的影像查询的模糊定位;使用了一个顺序敏感定位器去直接检索时间的边界,从而可以精确确定目标片段的边界;相比于一般的动作定位方法,本方法突破了预定义动作的限制,并且可通过影像查询定位到视频中未经预习的活动。本发明在对未修饰视频进行动作定位中所取得的效果相比于传统方法更好。

    一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法

    公开(公告)号:CN110377792A

    公开(公告)日:2019-10-25

    申请号:CN201910516683.9

    申请日:2019-06-14

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法。主要包括如下步骤:1)针对问题语句与视频帧,利用语义图像卷积网络、多头自注意力模块、与多步骤跨模型交互模块获取视频帧的跨模型语义表达。2)对获得的视频帧的跨模型语义表达,计算损失函数并训练模型,利用训练后的跨模型交互网络,对视频进行以问题为基础的片段抽取。相比于一般的视频片段抽取解决方案,本发明对多种有效信息进行综合利用。本发明在以问题为基础的视频片段抽取任务中所取得的效果相比于传统的方法更好。

    一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

    公开(公告)号:CN110377711B

    公开(公告)日:2022-04-01

    申请号:CN201910585462.7

    申请日:2019-07-01

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。主要包括如下步骤:1)针对视频与问题,分层卷积自注意力编码器网络获取多层视频语义表达。2)对获得的视频帧的多层视频语义表达,计算损失函数并训练模型,利用训练后的分层卷积自注意力网络,对开放式长视频问答任务进行回答语句生成。相比于一般的开放式长视频问答任务解决方案,本发明对多种有效信息进行综合利用。本发明在开放式长视频问答任务中所取得的效果相比于传统的方法更好。

    基于空间-时间图推理网络的多形态语句视频定位方法

    公开(公告)号:CN111414845B

    公开(公告)日:2023-06-16

    申请号:CN202010191264.5

    申请日:2020-03-18

    Applicant: 浙江大学

    Inventor: 赵洲 张品涵 张竹

    Abstract: 本发明公开了一种基于空间‑时间图推理网络的多形态语句视频定位方法,属于自然语言视觉定位领域。本发明首先将视频解析为空间‑时间区域图,不仅有每个帧的隐式和显式空间子图,而且有跨帧的时间动态性子图。接下来,将文本线索加入到该空间‑时间区域图中,建立多步跨模态图推理。多步过程可以支持多序关系建模。之后,使用时间定位器确定管道的时间边界,然后应用具有动态选择方法的空间定位器将对象在每个帧中定位,生成平滑的管道。本发明对自然语言进行定位时无需对视频进行修剪,降低了视频定位的成本;可以有效处理疑问句和陈述句,为更高层的自然语言处理和计算视觉结合研究(如视频问答等)提供了技术支持,应用前景广阔。

    基于跨模型交互网络实现问题-视频片段抽取任务的方法

    公开(公告)号:CN110377792B

    公开(公告)日:2021-09-21

    申请号:CN201910516683.9

    申请日:2019-06-14

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法。主要包括如下步骤:1)针对问题语句与视频帧,利用语义图像卷积网络、多头自注意力模块、与多步骤跨模型交互模块获取视频帧的跨模型语义表达。2)对获得的视频帧的跨模型语义表达,计算损失函数并训练模型,利用训练后的跨模型交互网络,对视频进行以问题为基础的片段抽取。相比于一般的视频片段抽取解决方案,本发明对多种有效信息进行综合利用。本发明在以问题为基础的视频片段抽取任务中所取得的效果相比于传统的方法更好。

    基于多分支关系网络的视频中指定对象定位方法和系统

    公开(公告)号:CN111582170B

    公开(公告)日:2023-05-23

    申请号:CN202010382647.0

    申请日:2020-05-08

    Applicant: 浙江大学

    Inventor: 赵洲 路伊琳 张竹

    Abstract: 本发明公开了一种基于多分支关系网络的视频中指定对象定位方法和系统。包括步骤:给出一段视频,从视频中提取不同帧的区域特征,从中提取动态信息;给出查询语句,借助Bi‑GRU和NLTK库学习对象在句子上下文中的特征;构建对象感知多分支关系网络,使用对象感知调制着重增强对象相关的区域特征,削弱不相关的区域特征,进而实现对象‑区域的跨模型匹配;使用多分支关系推理,捕获主要分支和辅助分支中关键对象的联系;提出一种多样性损失的计算方法,保证不同分支重点关注其对应的对象关联的区域。使用采样方法得到多个视频片段,选出时间置信度得分最高的片段,再从其中选出空间得分最高的区域生成目标管道。

    利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统

    公开(公告)号:CN111582170A

    公开(公告)日:2020-08-25

    申请号:CN202010382647.0

    申请日:2020-05-08

    Applicant: 浙江大学

    Inventor: 赵洲 路伊琳 张竹

    Abstract: 本发明公开了一种利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统。包括步骤:给出一段视频,从视频中提取不同帧的区域特征,从中提取动态信息;给出查询语句,借助Bi-GRU和NLTK库学习对象在句子上下文中的特征;构建对象感知多分支关系网络,使用对象感知调制着重增强对象相关的区域特征,削弱不相关的区域特征,进而实现对象-区域的跨模型匹配;使用多分支关系推理,捕获主要分支和辅助分支中关键对象的联系;提出一种多样性损失的计算方法,保证不同分支重点关注其对应的对象关联的区域。使用采样方法得到多个视频片段,选出时间置信度得分最高的片段,再从其中选出空间得分最高的区域生成目标管道。

    一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

    公开(公告)号:CN110377711A

    公开(公告)日:2019-10-25

    申请号:CN201910585462.7

    申请日:2019-07-01

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。主要包括如下步骤:1)针对视频与问题,分层卷积自注意力编码器网络获取多层视频语义表达。2)对获得的视频帧的多层视频语义表达,计算损失函数并训练模型,利用训练后的分层卷积自注意力网络,对开放式长视频问答任务进行回答语句生成。相比于一般的开放式长视频问答任务解决方案,本发明对多种有效信息进行综合利用。本发明在开放式长视频问答任务中所取得的效果相比于传统的方法更好。

Patent Agency Ranking