基于双流非对称网络的显著性物体检测方法、设备及介质

    公开(公告)号:CN117523180A

    公开(公告)日:2024-02-06

    申请号:CN202311655193.X

    申请日:2023-12-05

    Applicant: 南京大学

    Abstract: 基于双流非对称网络的显著性物体检测方法、设备及介质,构建深度学习模型对输入RGB图像和热图像进行显著性物体检测,首先由由非对称骨架网络进行RGB模态和T模态的特征提取,然后将前两阶段的特征输入通道‑空间特征交互模块进行模态特征交互,再将后两阶段的特征通过自注意力增强模块进行特征加强,最后通过RGB编码器、热编码器和融合特征编码器得到显著性物体检测图像。本发明针对RGB和热红外模态在通道数量和信息密度方面存在差异的问题提出了一种新颖的非对称网络,可以实现定位包含RGB和热红外信息的图像中的显著目标,在保证模型检测效果的情况下节省了不必要的计算开销,为模型部署提供了支持,具有良好的实用性。

    一种基于多模态情绪融合的视频对话风格识别方法

    公开(公告)号:CN119068561A

    公开(公告)日:2024-12-03

    申请号:CN202310625569.6

    申请日:2023-05-30

    Applicant: 南京大学

    Abstract: 一种基于多模态情绪融合的视频对话风格识别方法,对电影片段中人物的对话风格进行预测识别:利用不同的特征提取模型对视频提取视觉、听觉和文本特征,再使用一个预训练的多模态情绪模型提取视觉情绪特征、听觉情绪特征和文本情绪特征,利用多头注意力机制将视觉特征与视觉情绪特征融合、听觉特征与听觉情绪特征融合以及文本特征与文本情绪特征融合,将处理后的带情绪的视觉特征、带情绪的听觉特征和带情绪的文本特征分别输入对应的分类网络,得到视觉分类结果、听觉分类结果和文本分类结果,最后对这些结果进行融合得到最终的对话风格预测结果。

Patent Agency Ranking