-
公开(公告)号:CN117765449A
公开(公告)日:2024-03-26
申请号:CN202410051773.6
申请日:2024-01-12
Applicant: 重庆邮电大学
Abstract: 本发明属于模式识别技术领域,具体涉及一种基于多模态融合的情感视频内容分析方法;包括:获取训练情感视频并从训练情感视频中提取多模态特征;多模态特征包括视频深度特征和音频特征;对视频深度特征进行全局编码和时序编码,得到视频全局特征和视频局部特征;对训练情感视频进行运动编码,得到视频嵌入特征;拼接视频全局特征、视频局部特征和视频嵌入特征,得到视频拼接特征;对音频特征进行全局编码和时序编码,得到音频全局特征和音频局部特征;拼接音频全局特征和音频局部特征,得到音频拼接特征;融合视频拼接特征和音频拼接特征,得到融合特征;对融合特征进行分类处理,得到视频的情感分类结果;本发明的模型分类结果精度高。
-
公开(公告)号:CN116468941A
公开(公告)日:2023-07-21
申请号:CN202310400157.2
申请日:2023-04-14
Applicant: 重庆邮电大学
IPC: G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于上采样机制和类激活映射的图像分类结果特征可视化方法,该方法使用了卷积神经网络的最后一层的激活图和梯度矩阵。通过将原始输入图片进行多尺度放大,获取不同分辨率的激活图和梯度矩阵;然后将他们融合并加权相加得到初始掩膜,经过多尺度融合后的掩膜拥有更加丰富的特征信息;归一化处理后的掩膜直接与输入图片进行点乘,来扰动输入图片;将扰动后的输入图片送入模型得到每个掩膜的对应的类别概率分数作为权重,最终将权重和掩膜线性相加组合得到特征可视化结果。本发明应用于包含卷积层的图像分类神经网络,可以呈现噪声更少,分辨率更高,特征定位更加精准的特征可视化效果。
-
公开(公告)号:CN116453022A
公开(公告)日:2023-07-18
申请号:CN202310434327.9
申请日:2023-04-21
Applicant: 重庆邮电大学
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/0442
Abstract: 本发明请求保护一种基于多模态融合和Transformer网络的视频情感内容分析方法,涉及情感计算和视频分析领域,包括以下步骤:1)音频和视频信号的分离,形成视频和音频两个数据库;2)对于音频和视频数据库,使用工具并通过多个深度学习模型来提取音频和视频特征;3)对于提取到的音频和视频特征,分别将它们投影到模态特定和模态不变两个子空间,在模态特定子空间当中学习每个模态独特的信息,在模态不变子空间中学习模态之间共享的信息;4)得到每个模态不同的模态表示过后,使用Transformer结构对不同模态的特征进行融合,形成多模态融合向量;5)使用多层感知机模型完成特征到情感空间的映射,以多模态融合向量作为输入完成分类或者回归任务。
-
公开(公告)号:CN118673901A
公开(公告)日:2024-09-20
申请号:CN202410715839.7
申请日:2024-06-04
Applicant: 重庆邮电大学
IPC: G06F40/232 , G06F40/16 , G06N3/045 , G06F16/35 , G06F40/166
Abstract: 本发明公开了一种基于预训练语言模型构建的双模块中文拼写纠错方法,通过分离和重构预训练语言模型的内部结构,分别构建了拼写错误检测模块和拼写错误纠错模块。前者通过编码文本的向量表示,计算文本中每一字符的置信度,进而确定错别字的位置。后者结合检测结果进行有针对性的修改,通过提取纠错嵌入向量中的文本特征计算纠错策略的合理性分数,并按照得分最高的策略进行修改,以得到纠错后的文本。本申请具备更快的响应速度和更高的纠错准确率,可应用于中文文本编辑,中文语音识别和光学中文字符识别场景中。
-
公开(公告)号:CN118627632A
公开(公告)日:2024-09-10
申请号:CN202410689468.X
申请日:2024-05-30
Applicant: 重庆邮电大学
IPC: G06N5/045 , G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/084
Abstract: 本发明为一种新型基于信息熵采用池化和高斯上采样的加权特征融合CAM方法。首先,针对目标层的特征图和梯度矩阵,通过引入池化操作过滤噪声信息,并基于高斯上采样解决图像特征低分辨率问题,以获得激活图的不同尺度激活图;然后,利用图像信息熵求解不同尺度激活图的信息贡献占比,再通过对不同尺度激活图加权平均获得优化的激活图像;最后,将优化的激活图和对应权重加权求和,以输出更加精确、高效的显著图。通过实践与分析可知,本申请的WPG‑CAM方法能够有效消除显著图中的噪声,在综合指标上优于其他CAM方法,能够提供更加精确和更高细粒度的类映射图像。
-
公开(公告)号:CN116644226A
公开(公告)日:2023-08-25
申请号:CN202310421060.X
申请日:2023-04-19
Applicant: 重庆邮电大学
IPC: G06F16/9535 , G06Q30/0601 , G06N3/0455 , G06N3/048 , G06N3/0499 , G06N3/08
Abstract: 本发明请求保护一种基于Transformer的物品‑行为跨序列推荐系统,涉及人工智能和推荐系统领域,包括以下步骤:1)物品‑行为序列建模,获取用户交互物品序列和用户交互行为序列;2)基于Transformer进行序列推荐系统建模,通过嵌入表示查询将独热的稀疏的物品转化为稠密的嵌入表示向量,根据序列级的嵌入表示计算出各个物品推荐概率并将推荐概率最高的物品推荐给用户;3)基于编码器进行序列表示建模,将两种序列建模为单一序列并对序列的嵌入表示进行学习;4)基于自注意力机制进行物品‑行为跨序列融合建模。本发明在多序列推荐系统构建、序列信息建模、多序列融合等方面的研究具有重要指导意义。
-
公开(公告)号:CN116503780A
公开(公告)日:2023-07-28
申请号:CN202310465547.8
申请日:2023-04-26
Applicant: 重庆邮电大学
IPC: G06V20/40 , G06V10/42 , G06V10/44 , G06V10/764 , G06V10/766 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/045 , G06N3/084
Abstract: 本发明为一种基于受约束的多模态多级注意力融合模型的情感视频内容分析方法及系统,首先将每个模态的全局和局部特征结合起来,帮助模型提取视频整体的基调和视频局部的细节。接着,该方法使用交叉注意力模块来组合来自三种模态的数据以进一步在多模态范围内提取情感丰富的特征,然后使用自我注意力模块来整合来自每个模态的数据。申请人提出了一种具有约束的基于标准自注意力机制和交叉注意力机制的多模态多级Tranformer衍生方法,包括一种多模态情感内分析模型,通过多层级逐步融合特征。还首次使用了损失函数来约束了Tranformer中Token的学习,并且取得了不错的效果。在分类和回归实验中,取得了比先前技术更好的结果。
-
公开(公告)号:CN116403050A
公开(公告)日:2023-07-07
申请号:CN202310428053.2
申请日:2023-04-20
Applicant: 重庆邮电大学
IPC: G06V10/764 , G06T5/20 , G06T3/40 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于滑动窗口机制的图像分类神经网络可视化算法的增强方法,其可以直接应用在多数可视化算法上。该增强方法使用固定尺寸的滑动窗口对输入图片中的所有局部区域上采样到输入图片尺寸,然后将结果输入到选定的可视化算法中得到所有图片的针对特定类别的显著图和概率分数,最后将显著图下采样到输入图片对应位置上的窗口中,并乘以概率分数,即可得到具备更多细节的显著图。可将该方法应用在不同的可视化算法上,这些算法基于不同架构的网络。
-
公开(公告)号:CN118673902A
公开(公告)日:2024-09-20
申请号:CN202410715842.9
申请日:2024-06-04
Applicant: 重庆邮电大学
IPC: G06F40/232 , G06F40/16 , G06F40/284 , G06F40/166
Abstract: 本发明公开了一种实时的中文拼写纠错样本生成方法。该方法作用于模型训练时,基于已有的文本,通过字符替换的方式,实时构建出多种不同的样本对,因此该方法能够极大的丰富训练样本。同时为保证生成样本的质量,首先会对已有样本进行预处理,标记部分内容旨在避免无意义的替换。其次在替换过程中保证大部分基于相似字符和少量的随机替换,进而贴合实际场景。该方法极大的减少了人工参与的过程,但仍可保证生成样本的高质量和多样性,即使在数据资源有限的情况下,仍能够尽可能地挖掘已有数据的潜力,构建更丰富的训练样本用于模型训练。
-
-
-
-
-
-
-
-