一种基于稠密检索的代码注释生成方法

    公开(公告)号:CN116974625A

    公开(公告)日:2023-10-31

    申请号:CN202310839398.7

    申请日:2023-07-10

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于稠密检索和关系建模的代码注释生成方法,该方法使用稠密检索来检索相关的注释作为额外输入,并抽取代码和额外注释输入的关系,从而提高注释生成质量。本方法主要用检索器在检索集中检索输入代码的相关注释,将代码和检索到的注释拼接后输入到鉴别器,得到融合表征向量和得到关系表征向量和关系分类将融合表征向量和关系表征向量输入第二多层解码器,生成代码注释。本发明首次将额外输入与原始输入的关系考虑在内,能够有效避免生成器被误导,进而提高生成效果。

    基于空间-时间图推理网络的多形态语句视频定位方法

    公开(公告)号:CN111414845B

    公开(公告)日:2023-06-16

    申请号:CN202010191264.5

    申请日:2020-03-18

    Applicant: 浙江大学

    Inventor: 赵洲 张品涵 张竹

    Abstract: 本发明公开了一种基于空间‑时间图推理网络的多形态语句视频定位方法,属于自然语言视觉定位领域。本发明首先将视频解析为空间‑时间区域图,不仅有每个帧的隐式和显式空间子图,而且有跨帧的时间动态性子图。接下来,将文本线索加入到该空间‑时间区域图中,建立多步跨模态图推理。多步过程可以支持多序关系建模。之后,使用时间定位器确定管道的时间边界,然后应用具有动态选择方法的空间定位器将对象在每个帧中定位,生成平滑的管道。本发明对自然语言进行定位时无需对视频进行修剪,降低了视频定位的成本;可以有效处理疑问句和陈述句,为更高层的自然语言处理和计算视觉结合研究(如视频问答等)提供了技术支持,应用前景广阔。

    利用多重交互注意力机制解决视频中对象关系问答任务的方法

    公开(公告)号:CN110727824B

    公开(公告)日:2022-04-01

    申请号:CN201910965556.7

    申请日:2019-10-11

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用多重交互注意力机制解决视频中对象关系问答任务的方法,包括如下步骤:针对于一段视频,获得帧级别视频特征;获得视频中对象的位置特征和外观特征;使用多重交互注意力机制,学习得到输入问题的表达;计算时空关系矩阵;使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;使用多重交互注意力机制,学习得到与问题相关的对象关系表达;在之前得到的帧级别视频表达和对象关系表达基础上,获取问题的答案。相比于一般视频问答解决方案,本发明利用新型注意力机制,能够更准确地反映视频中对象的关系,产生更加贴切的答案。本发明在视频问答中所取得的效果相比于传统方法更好。

    利用空间-时间图推理网络解决多形态语句视频定位任务的方法

    公开(公告)号:CN111414845A

    公开(公告)日:2020-07-14

    申请号:CN202010191264.5

    申请日:2020-03-18

    Applicant: 浙江大学

    Inventor: 赵洲 张品涵 张竹

    Abstract: 本发明公开了一种空间-时间图推理网络解决多形态语句视频定位任务的方法,属于自然语言视觉定位领域。本发明首先将视频解析为空间-时间区域图,不仅有每个帧的隐式和显式空间子图,而且有跨帧的时间动态性子图。接下来,将文本线索加入到该空间-时间区域图中,建立多步跨模态图推理。多步过程可以支持多序关系建模。之后,使用时间定位器确定管道的时间边界,然后应用具有动态选择方法的空间定位器将对象在每个帧中定位,生成平滑的管道。本发明对自然语言进行定位时无需对视频进行修剪,降低了视频定位的成本;可以有效处理疑问句和陈述句,为更高层的自然语言处理和计算视觉结合研究(如视频问答等)提供了技术支持,应用前景广阔。

    利用多重交互注意力机制解决视频中对象关系问答任务的方法

    公开(公告)号:CN110727824A

    公开(公告)日:2020-01-24

    申请号:CN201910965556.7

    申请日:2019-10-11

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用多重交互注意力机制解决视频中对象关系问答任务的方法,包括如下步骤:针对于一段视频,获得帧级别视频特征;获得视频中对象的位置特征和外观特征;使用多重交互注意力机制,学习得到输入问题的表达;计算时空关系矩阵;使用多重交互注意力机制,学习得到针对问题的帧级别视频表达;使用多重交互注意力机制,学习得到与问题相关的对象关系表达;在之前得到的帧级别视频表达和对象关系表达基础上,获取问题的答案。相比于一般视频问答解决方案,本发明利用新型注意力机制,能够更准确地反映视频中对象的关系,产生更加贴切的答案。本发明在视频问答中所取得的效果相比于传统方法更好。

    利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法

    公开(公告)号:CN110704601A

    公开(公告)日:2020-01-17

    申请号:CN201910965525.1

    申请日:2019-10-11

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法,包括如下步骤:针对一段视频,利用Faster-RCNN得到视频对象集;在外部知识库中检索视频对象集对应的注释文本,得到外部知识;使用Doc2Vec提取外部知识的语义特征,得到视频的知识特征集;针对问题,利用嵌入层(embedding layer)将输入单词转换为词嵌入向量;将词嵌入向量输入渐进式时空注意力网络,生成答案;本发明通过使用附加信息,可以回答更具体的问题,例如一些常识性问题;将外部知识与问题结合起来,在空间和时间维度上引导渐进式的视频注意力,学习细粒度联合视频表示以进行答案预测。

Patent Agency Ranking