-
公开(公告)号:CN108200483B
公开(公告)日:2020-02-28
申请号:CN201711433810.6
申请日:2017-12-26
Applicant: 中国科学院自动化研究所
IPC: H04N21/84 , H04N21/466 , H04N21/44
Abstract: 本发明属于视频描述领域,具体涉及一种动态多模态视频描述生成方法。旨在捕捉视听模态的共振信息以产生理想视频描述,另外,解决视频中的听觉模态受损或者缺失的情况。本发明提出的多模态视频描述生成系统通过视听觉模态的特征编码阶段共享LSTM内部记忆单元的权值或者共享外部记忆单元,对视听觉之间的时域依赖性进行建模,捕捉视听模态的共振信息;另外,本发明基于听觉推理系统根据已知视觉模态信息推理出对应的听觉模态信息。通过本发明可以快速有效的生成视频描述。
-
公开(公告)号:CN108256627A
公开(公告)日:2018-07-06
申请号:CN201711474426.0
申请日:2017-12-29
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于机器学习领域,具体涉及一种视听信息互生装置及其基于循环对抗生成网络的训练系统。为了在图像或声音模态缺失或损失时,能够基于已知的图像或声音样本生成缺失或损失的模态信息,本发提供了一种视听信息互生装置,并基于循环对抗生成网络训练视听信息互生装置。在训练过中,通过在模态的高层表示中引入高斯隐变量以解不同模态间样本的结构、信息不对称问题,通过跨模态生成路径之间的权值共享,以充分利用原始模态信息。通过本发明可以更加高效可靠地实现视听模态间的互相生成。
-
公开(公告)号:CN108200483A
公开(公告)日:2018-06-22
申请号:CN201711433810.6
申请日:2017-12-26
Applicant: 中国科学院自动化研究所
IPC: H04N21/84 , H04N21/466 , H04N21/44
Abstract: 本发明属于视频描述领域,具体涉及一种动态多模态视频描述生成方法。旨在捕捉视听模态的共振信息以产生理想视频描述,另外,解决视频中的听觉模态受损或者缺失的情况。本发明提出的多模态视频描述生成系统通过视听觉模态的特征编码阶段共享LSTM内部记忆单元的权值或者共享外部记忆单元,对视听觉之间的时域依赖性进行建模,捕捉视听模态的共振信息;另外,本发明基于听觉推理系统根据已知视觉模态信息推理出对应的听觉模态信息。通过本发明可以快速有效的生成视频描述。
-
-