-
公开(公告)号:CN117523180A
公开(公告)日:2024-02-06
申请号:CN202311655193.X
申请日:2023-12-05
Applicant: 南京大学
IPC: G06V10/25 , G06V10/44 , G06N3/0455 , G06N3/045 , G06V10/80
Abstract: 基于双流非对称网络的显著性物体检测方法、设备及介质,构建深度学习模型对输入RGB图像和热图像进行显著性物体检测,首先由由非对称骨架网络进行RGB模态和T模态的特征提取,然后将前两阶段的特征输入通道‑空间特征交互模块进行模态特征交互,再将后两阶段的特征通过自注意力增强模块进行特征加强,最后通过RGB编码器、热编码器和融合特征编码器得到显著性物体检测图像。本发明针对RGB和热红外模态在通道数量和信息密度方面存在差异的问题提出了一种新颖的非对称网络,可以实现定位包含RGB和热红外信息的图像中的显著目标,在保证模型检测效果的情况下节省了不必要的计算开销,为模型部署提供了支持,具有良好的实用性。
-
公开(公告)号:CN118736482A
公开(公告)日:2024-10-01
申请号:CN202410717483.0
申请日:2024-06-04
Applicant: 南京大学
IPC: G06V20/52 , G06V20/70 , G06V10/143 , G06V10/26 , G06V10/40 , G06V10/766 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06N3/09
Abstract: 基于视觉大模型语义引导的RGB‑T人群计数方法、设备及介质,首先分别将SAM应用于RGB和热模态,使用语义作为提示来获得每个模态的语义;然后模块融合最高层的语义、模态和计数信息,并使用多头自注意机制增强特征;再将融合的特征和较低层的图像特征输入到多级解码器中,生成计数令牌和密度图;最后密度图通过回归头进行处理,得到最终的计数结果。本发明针对RGB‑T人群计数中存在误检测和漏检测的问题,利用SAM大型模型的分割优势,有效地整合了语义和模态信息,提高了计数过程的准确性和鲁棒性。
-
公开(公告)号:CN119068561A
公开(公告)日:2024-12-03
申请号:CN202310625569.6
申请日:2023-05-30
Applicant: 南京大学
IPC: G06V40/70 , G06V10/764 , G06V10/774 , G06V10/80 , G06V10/82
Abstract: 一种基于多模态情绪融合的视频对话风格识别方法,对电影片段中人物的对话风格进行预测识别:利用不同的特征提取模型对视频提取视觉、听觉和文本特征,再使用一个预训练的多模态情绪模型提取视觉情绪特征、听觉情绪特征和文本情绪特征,利用多头注意力机制将视觉特征与视觉情绪特征融合、听觉特征与听觉情绪特征融合以及文本特征与文本情绪特征融合,将处理后的带情绪的视觉特征、带情绪的听觉特征和带情绪的文本特征分别输入对应的分类网络,得到视觉分类结果、听觉分类结果和文本分类结果,最后对这些结果进行融合得到最终的对话风格预测结果。
-
-