一种基于事实转移的情感嵌入视频描述方法

    公开(公告)号:CN110519653B

    公开(公告)日:2021-09-03

    申请号:CN201910659357.3

    申请日:2019-07-22

    Applicant: 同济大学

    Abstract: 本发明涉及一种基于事实转移的情感嵌入视频描述方法,该方法提取待描述视频的视频帧特征,通过一事实转移的情感嵌入模型生成待描述视频的描述语句,所述事实转移的情感嵌入模型包括事实获取模块和情感获取模块,所述事实获取模块和情感获取模块同时参与待描述视频的语句生成,并利用加权概率融合方式逐个生成描述语句中的单词。与现有技术相比,本发明具有视频描述更加准确、情感更加丰富等优点。

    一种基于深度注意力机制的图像描述生成方法

    公开(公告)号:CN108052512B

    公开(公告)日:2021-05-11

    申请号:CN201711073398.1

    申请日:2017-11-03

    Applicant: 同济大学

    Inventor: 王瀚漓 方芳

    Abstract: 本发明涉及一种基于深度注意力机制的图像描述生成方法,所述方法包括:深度长短期记忆网络模型建立步骤,通过在长短期记忆网络模型的单元之间添加注意力机制函数,并利用卷积神经网络提取的训练图片特征和训练图片的描述信息对添加了注意力机制函数的长短期记忆网络进行训练,得到深度长短期记忆网络模型;图像描述生成步骤,将待生成描述的图像依次通过卷积神经网络模型和深度长短期记忆网络模型,生成与图像对应的描述。与现有技术相比,本发明具有信息提取有效性强、深度表达能力高以及描述准确等优点。

    一种用于视觉问答模型训练的增量型数据增强方法及应用

    公开(公告)号:CN111967487A

    公开(公告)日:2020-11-20

    申请号:CN202010563289.3

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 龙宇

    Abstract: 本发明涉及一种用于视觉问答模型训练的增量型数据增强方法,该方法包括:获取原始训练数据集,该数据集中的训练样本的形式为 ,所述文本由自然语言序列形成;获取所述原始训练数据集中的自然语言序列的句长分布和每个单词的词频分布,基于所述句长分布确定最小句子长度阈值和最大句子长度阈值;根据所述最小句子长度阈值、最大句子长度阈值和词频分布对训练样本中的自然语言序列进行扩充,实现数据增强。与现有技术相比,本发明具有实现数据多样性、效率佳、简单等优点。

    一种基于多体进化的图像描述自动生成方法

    公开(公告)号:CN111814946A

    公开(公告)日:2020-10-23

    申请号:CN202010563287.4

    申请日:2020-06-19

    Applicant: 同济大学

    Inventor: 王瀚漓 王含章

    Abstract: 本发明涉及一种基于多体进化的图像描述自动生成方法,该方法构建一图像描述模型种群,对待识别图像进行图像描述的自动生成,所述图像描述模型种群通过以下步骤获得:获得初始模型种群,种群中每个个体均为一图像描述模型;对所述初始模型种群进行迭代变异进化操作,每次迭代中选择个体适应度高的N个个体组成新种群,直至满足进化终止条件,获得最终的图像描述模型种群。与现有技术相比,本发明具有极大地降低了模型设计的人力和时间成本,准确度高等优点。

    一种基于金字塔结构的光流估计方法

    公开(公告)号:CN110176023A

    公开(公告)日:2019-08-27

    申请号:CN201910356481.2

    申请日:2019-04-29

    Applicant: 同济大学

    Inventor: 王瀚漓 孙泽锋

    Abstract: 本发明涉及一种基于金字塔结构的光流估计方法,包括以下步骤:构建空间金字塔孪生网络模型;构建结构金字塔网络模型,结构金字塔的各个层设置至少一个卷积神经网络,从底层到高层,卷积神经网络的数量依次递减;在光流训练集中获取一组图片对和对应的光流标签;采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样,并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中;参照光流标签,同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调;在光流测试集上,使用该空间金字塔孪生网络模型和结构金字塔网络模型,获得光流测试集的预测光流场。与现有技术相比,本发明具有准确度高、效率高等优点。

    一种基于模态变换与文本归纳的图像描述生成方法

    公开(公告)号:CN110033008A

    公开(公告)日:2019-07-19

    申请号:CN201910357364.8

    申请日:2019-04-29

    Applicant: 同济大学

    Inventor: 王瀚漓 王含章

    Abstract: 本发明涉及一种基于模态变换与文本归纳的图像描述生成方法,该方法包括以下步骤:1)使用基于卷积神经网络的目标识别模型,将待描述图像划分为多个基于感兴趣区域的子块,提取子块的视觉特征;2)使用第一长短时记忆模型对每个子块的视觉特征进行解码,通过将视觉信息转换为语义信息实现模态变换,生成各子块的文本描述;3)使用第二长短时记忆模型对每个子块的文本描述进行再编码,提取各子块的语义特征;4)使用双向层级长短时记忆模型融合各子块的语义特征,获得融合语义特征;5)以所述融合语义特征作为第三长短时记忆模型的输入,生成待描述图像的文本描述。与现有技术相比,本发明具有准确度高等优点。

    一种基于自适应融合网络的视频情感分类方法

    公开(公告)号:CN109815903A

    公开(公告)日:2019-05-28

    申请号:CN201910069977.1

    申请日:2019-01-24

    Applicant: 同济大学

    Inventor: 王瀚漓 易云

    Abstract: 本发明涉及一种基于自适应融合网络的视频情感分类方法,包括以下步骤:1)构建自适应融合网络模型;2)将输入的视频集人分为训练集和测试集,并获取视频集中每个视频的三个模态特征向量,所述的三个模态为RGB、光流和音频;3)对于训练集,分别将三个模态的特征向量输入自适应融合网络,并采用基于梯度的优化算法进行优化,得到训练好的自适应融合网络模型Model;4)对于测试集,将每个视频的特征向量输入训练好的网络模型Model,并预测视频情感进行分类。与现有技术相比,本发明具有视频情感识别准确率高、描述视频情感准确、数据输入健壮、鲁棒性好等优点。

    一种基于视频尺度信息的视频分类方法

    公开(公告)号:CN105488519B

    公开(公告)日:2019-01-25

    申请号:CN201510780201.2

    申请日:2015-11-13

    Applicant: 同济大学

    Inventor: 王瀚漓 张博文

    Abstract: 本发明涉及一种基于视频尺度信息的视频分类方法,包括步骤:1)将视频数据集划分为训练数据和测试数据,提取每个视频的特征点以及特征点的轨迹,并得到视频的空间尺度以及时间尺度;2)使用基于轨迹使用描述算法,通过计算特征点邻域的梯度直方图向量、光流直方图向量、x分量运动边界直方图向量和y分量运动边界直方图向量,得到特征描述向量;3)使用PCA方法将每个视频中的每个特征描述向量降维至原维度的一半;4)生成视频数据集中每一个视频的费舍尔向量;5)训练得到线性支持向量机分类模型;6)使用线性支持向量机分类模型对测试数据中的视频进行分类。与现有技术相比,本发明具有鲁棒性好,准确度更高等优点。

    一种基于深度注意力机制的图像描述生成方法

    公开(公告)号:CN108052512A

    公开(公告)日:2018-05-18

    申请号:CN201711073398.1

    申请日:2017-11-03

    Applicant: 同济大学

    Inventor: 王瀚漓 方芳

    Abstract: 本发明涉及一种基于深度注意力机制的图像描述生成方法,所述方法包括:深度长短期记忆网络模型建立步骤,通过在长短期记忆网络模型的单元之间添加注意力机制函数,并利用卷积神经网络提取的训练图片特征和训练图片的描述信息对添加了注意力机制函数的长短期记忆网络进行训练,得到深度长短期记忆网络模型;图像描述生成步骤,将待生成描述的图像依次通过卷积神经网络模型和深度长短期记忆网络模型,生成与图像对应的描述。与现有技术相比,本发明具有信息提取有效性强、深度表达能力高以及描述准确等优点。

    一种基于人类运动显著轨迹的视频分类方法

    公开(公告)号:CN104036287B

    公开(公告)日:2017-05-24

    申请号:CN201410208197.8

    申请日:2014-05-16

    Applicant: 同济大学

    Inventor: 王瀚漓 易云

    CPC classification number: G06K9/4642 G06K9/00342 G06K9/6269

    Abstract: 本发明涉及一种基于人类运动显著轨迹的视频分类方法,包括以下步骤:将视频集M划分成训练集Mt和测试集Mv,使用SIFT和稠密光流技术在多尺度空间上跟踪每一个视频中人类运动信息,获得每一个视频的运动显著轨迹;分别提取每个轨迹的特征描述向量;使用PCA方法消除特征描述向量中的冗余信息,对每一类特征描述向量进行降维;利用高斯混合模型对训练集Mt中的特征描述向量进行聚类,再使用Fisher Vector方法生成视频集M中每一个视频的Fisher向量;在训练集Mt上,构建线性SVM分类模型;在测试集Mv上,使用该线性SVM分类模型对测试集中的视频进行分类。与现有技术相比,本发明具有鲁棒性好、计算效率高等优点。

Patent Agency Ranking