-
公开(公告)号:CN118116063B
公开(公告)日:2025-04-11
申请号:CN202311660193.9
申请日:2023-12-06
Applicant: 南通大学
IPC: G06V40/18 , G06V10/82 , G06V10/80 , G06V10/44 , G06V10/52 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了基于多模态与Transformer注意力机制的高精度视线估计方法,包括眼部图像特征提取部分、面部图像特征提取部分、特征融合部分;针对眼部图像,通过膨胀卷积层进行卷积处理,并通过全连接层得到眼部特征。针对面部图像,采用预训练的VGG16网络作为基础,并结合空间注意力机制进一步增强对眼部的关注度,最终通过全连接层得到面部特征。在特征融合部分,采用的Transformer结构独立地增强多模态特征的内部表示。最后,通过融合注意力机制,根据多模态特征在视线估计中的重要性动态调整各特征,从而实现更为精准的视线估计。
-
公开(公告)号:CN117612201B
公开(公告)日:2024-05-28
申请号:CN202311371401.3
申请日:2023-10-20
Applicant: 南通大学
IPC: G06V40/10 , G06V10/82 , G06V10/74 , G06N3/0475 , G06N3/0464 , G06N3/094
Abstract: 本发明公开了一种基于特征压缩的单样本行人重识别方法,包括:首先将行人重识别的标准数据集中的已标签图片进行对抗性生成图片操作;然后,将生成的图片以及未标签图片放入单样本行人重识别网络中,获得距离矩阵,选取得分最高的一定数量的图片,并标注伪标签;其次,选取行人图像,进入网络训练,特别地,对图片进行特征压缩,联合损失函数,训练出性能良好的单样本识别网络;最后,完成对目标行人的识别。本发明提出基于特征压缩的单样本行人重识别方法,选择逐步地添加未标注图像到模型中,利用对抗性生成图像避免过拟合,并利用特征压缩减小图片带来的噪声影响,从而提高模型识别的准确率。
-
公开(公告)号:CN118799949A
公开(公告)日:2024-10-18
申请号:CN202410833622.6
申请日:2024-06-26
Applicant: 南通大学
Abstract: 本发明公开了一种低光环境下高精度的视线估计方法,包括如下步骤:S1.数据集预处理,模拟低光环境S2.低光图像增加,得到增强后的图像;S3.增强图像校准,得到校准图像;S4.图像进行特征提取,输出特征向量;使用改进的残差网络模型ResNet18对校准后的图像进行特征提取;S5.通过全连接层将特征向量映射成三维输出向量;S6.对三维输出向量的前两个元素应用双曲正切变换,以获取精确的预测视线方向;S7.对三维输出向量的第三个元素通过sigmoid函数变换,得到视线预测的不确定性;S8.采用MSELoss损失函数来度量预测结果与真实值之间的误差。本发明方法能有效解决在低光环境下视线估计精度显著下降的问题,从而提高系统的实用性和准确性。
-
公开(公告)号:CN118762393A
公开(公告)日:2024-10-11
申请号:CN202410899543.5
申请日:2024-07-05
Applicant: 南通大学
IPC: G06V40/18 , G06V10/20 , G06V10/44 , G06N3/048 , G06N3/084 , G06N3/0464 , G06V10/40 , G06V10/80 , G06V10/82 , G06T5/90 , G06T5/94 , G06T5/50
Abstract: 本发明公开了一种基于低光图像增强技术的视线估计方法,包括如下步骤:预处理数据集模拟低光环境得到低光图像;将预处理后的低光图像输入低光图像增强网络模块;构建视线估计模型,并对协同模块协同后的图像进行特征提取,输出特征向量;通过全连接层将特征向量映射成三维输出向量,得到预测的视线方向和预测误差;采用损失函数度量预测误差,并通过反向传播更新网络参数,优化视线估计模型性能。本发明提出了利用弱光图像增强技术改善低光环境下视线估计的新研究方向,为视线估计提供了新的思路和解决方案。
-
公开(公告)号:CN117333744B
公开(公告)日:2024-05-28
申请号:CN202311224546.0
申请日:2023-09-21
Applicant: 南通大学
IPC: G06V10/80 , G06V10/74 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本发明提供了一种基于空间特征融合和原型嵌入的无偏场景图生成方法,属于人工智能和计算机视觉技术领域。解决了场景图生成方法预测关系的准确率不足的技术问题。其技术方案为:用基于原型的表示建模主客体实例及谓词,得到若干实例原型和谓词原型,融合主客体实例原型得到主客体联合特征;建模主客体实例之间的相对位置得到空间特征;融合主客体联合特征与空间特征形成关系表示,与谓词原型进行匹配,获得匹配损失;以匹配损失和距离损失共同度量关系预测与真实谓词类之间的误差。本发明的有益效果为:本发明同时兼顾类内紧凑和类间分离的无偏场景图生成框架和每个实例的相对位置信息,来提高场景图生成中关系预测的准确率。
-
公开(公告)号:CN118799949B
公开(公告)日:2025-04-11
申请号:CN202410833622.6
申请日:2024-06-26
Applicant: 南通大学
Abstract: 本发明公开了一种低光环境下高精度的视线估计方法,包括如下步骤:S1.数据集预处理,模拟低光环境S2.低光图像增加,得到增强后的图像;S3.增强图像校准,得到校准图像;S4.图像进行特征提取,输出特征向量;使用改进的残差网络模型ResNet18对校准后的图像进行特征提取;S5.通过全连接层将特征向量映射成三维输出向量;S6.对三维输出向量的前两个元素应用双曲正切变换,以获取精确的预测视线方向;S7.对三维输出向量的第三个元素通过sigmoid函数变换,得到视线预测的不确定性;S8.采用MSELoss损失函数来度量预测结果与真实值之间的误差。本发明方法能有效解决在低光环境下视线估计精度显著下降的问题,从而提高系统的实用性和准确性。
-
公开(公告)号:CN119516547A
公开(公告)日:2025-02-25
申请号:CN202411473708.9
申请日:2024-10-22
Applicant: 南通大学
Abstract: 本申请涉及一种基于模糊逻辑推理关系重要性的显著场景图生成方法及装置、场景图生成模型测试方法及装置、计算机设备。该方法包括:步骤S100,计算目标数据集中每个图像样本真实关系的重要性分数;步骤S200,构建目标检测器;步骤S300,构建语义提取器和实例特征细化模块;步骤S400,构建边界框建模模块和特征拼接模块;步骤S500,构建特征融合模块和关系表示建模模块;步骤S600,构建关系损失加权模块;步骤S700,在训练图像样本数量达到批量处理大小的情况下,返回步骤S200;在训练集中图像样本全部读取完成的情况下,进入步骤S800输出场景图生成模型。该方法可以在不减少关系样本数量的基础上,灵活并全面地评估关系的重要性。
-
公开(公告)号:CN118298428A
公开(公告)日:2024-07-05
申请号:CN202410348938.6
申请日:2024-03-26
Applicant: 南通大学
IPC: G06V20/70 , G06V10/70 , G06V10/44 , G06V10/82 , G06F18/25 , G06F18/22 , G06N3/0455 , G06N3/0464 , G06N3/048
Abstract: 本发明属于人工智能和计算机视觉技术领域,具体涉及一种基于显著视觉上下文的无偏场景图生成方法。本发明提出了一种基于显著视觉上下文的无偏场景图生成方法,该方法采纳了一种先进的轻量且高效的视觉Transformer模型,用于将图像上下文中的视觉特征编码成显著视觉上下文特征。通过结合卷积编码器和位置感知标记模块,DualToken‑ViT能够分别捕获图像内容的局部细节与全局概览,从而构建出一个高效的注意力机制。本发明通过该模型生成的显著视觉上下文特征为关系预测提供了重要的视觉上下文信息,有助于模型更准确地理解图像内容并预测实例之间的关系。本发明方法有效学习图像上下文的视觉特征,提高了场景图生成模型关系预测的鲁棒性。
-
公开(公告)号:CN118116063A
公开(公告)日:2024-05-31
申请号:CN202311660193.9
申请日:2023-12-06
Applicant: 南通大学
IPC: G06V40/18 , G06V10/82 , G06V10/80 , G06V10/44 , G06V10/52 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了基于多模态与Transformer注意力机制的高精度视线估计方法,包括眼部图像特征提取部分、面部图像特征提取部分、特征融合部分;针对眼部图像,通过膨胀卷积层进行卷积处理,并通过全连接层得到眼部特征。针对面部图像,采用预训练的VGG16网络作为基础,并结合空间注意力机制进一步增强对眼部的关注度,最终通过全连接层得到面部特征。在特征融合部分,采用的Transformer结构独立地增强多模态特征的内部表示。最后,通过融合注意力机制,根据多模态特征在视线估计中的重要性动态调整各特征,从而实现更为精准的视线估计。
-
公开(公告)号:CN119360302A
公开(公告)日:2025-01-24
申请号:CN202411429748.3
申请日:2024-10-14
Applicant: 南通大学
IPC: G06V20/52 , G06V10/80 , G06V10/82 , G06N3/0464 , G06V10/766 , G06V10/44
Abstract: 本发明计算机视觉技术领域,具体涉及一种多模态分级渐进交互网络的人群计数方法。本发明提出了一种多模态分级渐进交互网络的人群计数方法,通过设计信息聚合模块,允许不同模态的数据在每个处理阶段进行交互和融合,确保了关键信息能够有效地传递至高层,同时分别对低级和高级特征进行融合,有助于保留重要的局部信息,从而增强的模型适应性和灵活性,提高人群计数精度。本发明采用了均方根误差RMSE和网格平均绝对误差GMAE作为衡量标准。经过实验指标的验证,提出的方法相比其他无人机计数方法取得了精度上的进步,证明了其在实际应用的鲁棒性和应用价值。
-
-
-
-
-
-
-
-
-