使用注意力引导自适应记忆的实时唇语识别方法和系统

    公开(公告)号:CN113657253A

    公开(公告)日:2021-11-16

    申请号:CN202110935654.3

    申请日:2021-08-16

    Applicant: 浙江大学

    Abstract: 本发明公开了一种使用注意力引导自适应记忆的实时唇语识别方法和系统,属于唇语识别技术领域。为了解决在生成句子的句法结构的同时考虑单调排列的挑战,本发明建立了SimulLR模型并采用CTC预训练、模型预热和课程学习的方式促进SimulLR模型的训练。此外,为了使得编码器学习到更好的时空表示,本发明构造了一个截断三维时空卷积网络和时限自注意机制在视频片段内实现帧对帧的交互。此外,由于在实时场景中的存储有限,历史信息总是受到限制,为了实现一个好的权衡,本发明设计了注意力引导自适应记忆模块来组织历史语义信息,并在可接受的计算感知延迟范围内增强视觉表示。可实现实时解码,适用于更多应用场景。

    一种利用多模态网络学习进行基于社交关系的电影推荐的方法

    公开(公告)号:CN107918652B

    公开(公告)日:2020-10-02

    申请号:CN201711129690.0

    申请日:2017-11-15

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用多模态网络学习进行基于社交关系的电影推荐的方法。主要包括如下步骤:1)针对于一组视频、用户,构建含有其相关关系的SMR网络。并且针对于形成的SMR网络构建采样路径,并针对于采样路径中的电影及用户节点形成电影的综合表达与用户的映射表达,随后针对于预定义的损失函数进行更新,求得最终的用户表达与电影综合表达。2)对于得到的用户表达及电影的综合表达,产生对于用户的电影推荐。相比于一般的电影推荐解决方案,本发明提取了电影的多模态信息并且针对于用户形成了最终的有效用户表达,则能够更准确地反映用户与电影的特性,并产生更加符合要求的电影推荐。本发明在电影推荐问题中所取得的效果相比于传统的方法更好。

    一种利用非对称的多面排序网络学习解决社区问答任务的方法

    公开(公告)号:CN108153816A

    公开(公告)日:2018-06-12

    申请号:CN201711227321.5

    申请日:2017-11-29

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用非对称的多面排序网络学习解决社区问答任务的方法。主要包括如下步骤:1)针对于一组用户、问题、答案数据集,构建用户、问题、答案之间相互关系的网络,并且针对于形成的网络,利用非对称的多面排序网络学习形成多面排序标准函数。2)根据得到的多面排序标准函数,对于某一问题针对于不同用户的答案进行排序。相比于一般的问题答案推荐解决方案,本发明利用了非对称的多面排序网络学习的方法,能够综合利用问题答案之间的语义相关性与用户之间的相互关系。本发明在社交问答网站问题答案预测中所取得的效果相比于传统的方法更好。

    一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法

    公开(公告)号:CN110738989B

    公开(公告)日:2021-12-07

    申请号:CN201911000418.1

    申请日:2019-10-21

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法。主要包括如下步骤:1)针对于一组基于地点的语音、相关联字符串数据集,根据编码器网络形成语音序列编码,利用连接时序分类器和含有大量地理名词的基于字符的语言模型生成序列编码的备选字符串集。2)根据得到的备选字符串集,使用含有大量地理名词的基于词语的语言模型和基于类型的语言模型选择出最佳的字符串答案。相比于一般的自动语音识别解决方案,本发明利用了多种语言模型的端到端网络学习的方法,能够综合利用词语的上下文相关性与句子的语法结构。本发明在基于地点的语音的自动识别中所取得的效果相比于传统的方法更好。

    一种使用语义补全神经网络来解决视频时序定位问题的方法

    公开(公告)号:CN111222010A

    公开(公告)日:2020-06-02

    申请号:CN202010038195.4

    申请日:2020-01-14

    Applicant: 浙江大学

    Abstract: 本发明公开了一种使用语义补全神经网络来解决视频时序定位问题的方法。主要包括如下步骤:1)针对于一个视频和一段自然语言描述,通过一个候选产生模块来生成候选的视频片段及对应的置信度,并使用特定的算法从中挑选出K个优先级最高的候选视频片段。2)通过语义补全模块计算K个候选视频片段的激励,并反馈给候选产生模块。3)重复以上步骤对整个网络进行训练,得到良好的视频时序定位的网络。相比于传统的视频时序定位的学习方法,本发明的学习方法是弱监督的学习方法,仅仅需要粗粒度的视频级别的标注数据集,可以节省昂贵的数据集标注成本。

    一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法

    公开(公告)号:CN110738989A

    公开(公告)日:2020-01-31

    申请号:CN201911000418.1

    申请日:2019-10-21

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法。主要包括如下步骤:1)针对于一组基于地点的语音、相关联字符串数据集,根据编码器网络形成语音序列编码,利用连接时序分类器和含有大量地理名词的基于字符的语言模型生成序列编码的备选字符串集。2)根据得到的备选字符串集,使用含有大量地理名词的基于词语的语言模型和基于类型的语言模型选择出最佳的字符串答案。相比于一般的自动语音识别解决方案,本发明利用了多种语言模型的端到端网络学习的方法,能够综合利用词语的上下文相关性与句子的语法结构。本发明在基于地点的语音的自动识别中所取得的效果相比于传统的方法更好。

    使用注意力引导自适应记忆的实时唇语识别方法和系统

    公开(公告)号:CN113657253B

    公开(公告)日:2023-12-05

    申请号:CN202110935654.3

    申请日:2021-08-16

    Applicant: 浙江大学

    Abstract: 本发明公开了一种使用注意力引导自适应记忆的实时唇语识别方法和系统,属于唇语识别技术领域。为了解决在生成句子的句法结构的同时考虑单调排列的挑战,本发明建立了SimulLR模型并采用CTC预训练、模型预热和课程学习的方式促进SimulLR模型的训练。此外,为了使得编码器学习到更好的时空表示,本发明构造了一个截断三维时空卷积网络和时限自注意机制在视频片段内实现帧对帧的交互。此外,由于在实时场景中的存储有限,历史信息总是受到限制,为了实现一个好的权衡,本发明设计了注意力引导自适应记忆模块来组织历史语义信息,并在可接受的计算感知延迟范围内增强视觉表示。可实现实时解码,适用于更多应用场景。

    通过影像查询定位视频中未预习的活动的方法

    公开(公告)号:CN110378269A

    公开(公告)日:2019-10-25

    申请号:CN201910621444.X

    申请日:2019-07-10

    Applicant: 浙江大学

    Abstract: 本发明公开了一种通过影像查询定位视频中未预习的活动的方法。该方法通过相对位置编码设计了一种新颖的区域自注意力方法来学习细粒度图像的区域表示,从而可以消除在影像查询中语义上不必要内容的影响;使用了一种多层堆叠的转换器编码器,建立了影像与视频内容的多步融合与推理,从而处理了不精确的影像查询的模糊定位;使用了一个顺序敏感定位器去直接检索时间的边界,从而可以精确确定目标片段的边界;相比于一般的动作定位方法,本方法突破了预定义动作的限制,并且可通过影像查询定位到视频中未经预习的活动。本发明在对未修饰视频进行动作定位中所取得的效果相比于传统方法更好。

    一种利用排序度量的双层注意力网络进行用户关系预测的方法

    公开(公告)号:CN108256678A

    公开(公告)日:2018-07-06

    申请号:CN201810008475.3

    申请日:2018-01-04

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用排序度量的双层注意力网络进行用户关系预测的方法。主要包括如下步骤:1)针对于一组用户数据集,构建用户之间相互关系的网络。并且针对于形成的用户社交网络,利用多步骤推理更新后的排序度量的双层注意力网络形成社交网路节点路径集的映射表达。2)对于得到的用户社交网络节点路径集的映射表达,产生对于用户关系的推荐。相比于一般的用户关系推荐解决方案,本发明利用了双层注意力网络并结合多步推理来获取节点集的映射,能够更好地体现用户节点之间存在联系的可能性。本发明在用户关系预测问题中所取得的效果相比于传统的方法更好。

    一种利用多模态网络学习进行基于社交关系的电影推荐的方法

    公开(公告)号:CN107918652A

    公开(公告)日:2018-04-17

    申请号:CN201711129690.0

    申请日:2017-11-15

    Applicant: 浙江大学

    Abstract: 本发明公开了一种利用多模态网络学习进行基于社交关系的电影推荐的方法。主要包括如下步骤:1)针对于一组视频、用户,构建含有其相关关系的SMR网络。并且针对于形成的SMR网络构建采样路径,并针对于采样路径中的电影及用户节点形成电影的综合表达与用户的映射表达,随后针对于预定义的损失函数进行更新,求得最终的用户表达与电影综合表达。2)对于得到的用户表达及电影的综合表达,产生对于用户的电影推荐。相比于一般的电影推荐解决方案,本发明提取了电影的多模态信息并且针对于用户形成了最终的有效用户表达,则能够更准确地反映用户与电影的特性,并产生更加符合要求的电影推荐。本发明在电影推荐问题中所取得的效果相比于传统的方法更好。

Patent Agency Ranking