基于多模态嵌入的场景理解语义生成方法

    公开(公告)号:CN112488116B

    公开(公告)日:2024-02-02

    申请号:CN202011358275.4

    申请日:2020-11-27

    Abstract: 本发明涉及基于多模态嵌入的场景理解语义生成方法。本发明方法基于CNN+RNN模型,在自身数据集上进行训练微调,对不同的场景进行分类识别,生成场景语义描述。首先,确定针对每一类场景采集数据集,为每幅图像标记语义信息。采用CNN提取数据集特征,将提取的图像区域转变成为h维向量。使用双向循环神经网络来计算语义表示,将语义中的单词当成序列输入,将每个单词转化成为h维向量。图像区域和语义单词处理完成后,将其作为数据集来训练RNN网络,利用集束搜索算法提高结果的准确率。本发明基于现有网络,构造自身数据集,并进行训练微调,生成场景语义描述,为进一步利用场景语义信息提供保障。

    基于多模态嵌入的场景理解语义生成方法

    公开(公告)号:CN112488116A

    公开(公告)日:2021-03-12

    申请号:CN202011358275.4

    申请日:2020-11-27

    Abstract: 本发明涉及基于多模态嵌入的场景理解语义生成方法。本发明方法基于CNN+RNN模型,在自身数据集上进行训练微调,对不同的场景进行分类识别,生成场景语义描述。首先,确定针对每一类场景采集数据集,为每幅图像标记语义信息。采用CNN提取数据集特征,将提取的图像区域转变成为h维向量。使用双向循环神经网络来计算语义表示,将语义中的单词当成序列输入,将每个单词转化成为h维向量。图像区域和语义单词处理完成后,将其作为数据集来训练RNN网络,利用集束搜索算法提高结果的准确率。本发明基于现有网络,构造自身数据集,并进行训练微调,生成场景语义描述,为进一步利用场景语义信息提供保障。

    基于深度卷积神经网络的典型红外目标分类方法

    公开(公告)号:CN110619352A

    公开(公告)日:2019-12-27

    申请号:CN201910779094.X

    申请日:2019-08-22

    Abstract: 本发明公开了基于深度卷积神经网络的典型红外目标分类方法。传统神经网络因为结构比较简单,属于典型的浅层模型,很难获得更为细致有效的识别特征,在红外图像识别问题中性能欠佳。本发明方法首先获取不同距离和角度以及有无遮挡物情况下两种车辆模型的红外图像样本作为数据集,然后将数据集分为不重叠的训练集和测试集,并对数据集样本进行预处理,再通过VGG16深度神经网络模型获取红外目标图像特征,最后将提取出的特征信息输入到归一化函数softmax进行分类。本发明方法可以减小红外目标图像特征提取的难度,降低模型的复杂程度,实现良好的分类效果和实时计算效率。

Patent Agency Ranking