一种基于空间特征融合和原型嵌入的无偏场景图生成方法

    公开(公告)号:CN117333744A

    公开(公告)日:2024-01-02

    申请号:CN202311224546.0

    申请日:2023-09-21

    Applicant: 南通大学

    Abstract: 本发明提供了一种基于空间特征融合和原型嵌入的无偏场景图生成方法,属于人工智能和计算机视觉技术领域。解决了场景图生成方法预测关系的准确率不足的技术问题。其技术方案为:用基于原型的表示建模主客体实例及谓词,得到若干实例原型和谓词原型,融合主客体实例原型得到主客体联合特征;建模主客体实例之间的相对位置得到空间特征;融合主客体联合特征与空间特征形成关系表示,与谓词原型进行匹配,获得匹配损失;以匹配损失和距离损失共同度量关系预测与真实谓词类之间的误差。本发明的有益效果为:本发明同时兼顾类内紧凑和类间分离的无偏场景图生成框架和每个实例的相对位置信息,来提高场景图生成中关系预测的准确率。

    一种基于超分辨率重建的视线估计方法

    公开(公告)号:CN116664677A

    公开(公告)日:2023-08-29

    申请号:CN202310599847.5

    申请日:2023-05-24

    Applicant: 南通大学

    Inventor: 曹硕裕 王进 王可

    Abstract: 本发明公开了一种基于超分辨率重建的视线估计方法,包括:使用摄像头获取人脸图像;构建超分辨率重建模块、视线估计模块,首先对超分辨率重建模块进行预训练,之后对网络整体进行训练,输入人脸图像经过超分辨率重建模块,对低分辨率人脸图像恢复细节和清晰度,以提高视线估计精度,经过视线估计模块,其中使用ResNet50提取全局特征,提高特征表达能力,通过空间权重机制,增大视线相关区域的权重,从而进行准确的视线估计;本发明所设计的方法具有更好的学习能力、性能和泛化能力。经过实验验证,本方法能够有效提高低分辨率场景下视线估计的精度。

    一种多模态分级渐进交互网络的人群计数方法

    公开(公告)号:CN119360302A

    公开(公告)日:2025-01-24

    申请号:CN202411429748.3

    申请日:2024-10-14

    Applicant: 南通大学

    Abstract: 本发明计算机视觉技术领域,具体涉及一种多模态分级渐进交互网络的人群计数方法。本发明提出了一种多模态分级渐进交互网络的人群计数方法,通过设计信息聚合模块,允许不同模态的数据在每个处理阶段进行交互和融合,确保了关键信息能够有效地传递至高层,同时分别对低级和高级特征进行融合,有助于保留重要的局部信息,从而增强的模型适应性和灵活性,提高人群计数精度。本发明采用了均方根误差RMSE和网格平均绝对误差GMAE作为衡量标准。经过实验指标的验证,提出的方法相比其他无人机计数方法取得了精度上的进步,证明了其在实际应用的鲁棒性和应用价值。

    一种基于语义引导多级融合的跨模态人群计数方法

    公开(公告)号:CN119360291A

    公开(公告)日:2025-01-24

    申请号:CN202411262357.7

    申请日:2024-09-10

    Applicant: 南通大学

    Abstract: 本发明公开了一种基于语义引导多级融合的跨模态人群计数方法,旨在解决多模态人群计数方法准确率低,鲁棒性差的问题,方法主要由信息交互模块和语义引导融合模块组成,其中信息交互模块通过对每层提取特征提取相应权重系数进行更新来实现反馈机制,语义引导融合模块主要是将语义拓展模块提取的高级特征与相应级别的模态特征进行融合。本发明通过信息交互和语义引导融合两个模块实现每层提取特征的及时反馈,同时经由高级语义信息提升整体对人群场景的理解能力,从而生成高质量人群密度图,实现高精度的人群计数。

    一种交叉协作融合的轻量化跨模态人群计数方法

    公开(公告)号:CN117854009B

    公开(公告)日:2024-07-19

    申请号:CN202410126064.X

    申请日:2024-01-29

    Applicant: 南通大学

    Abstract: 本发明公开了一种交叉协作融合的轻量化跨模态人群计数方法,本发明主要针对现有人群计数方法存在模型庞大,推理速度很慢两个问题,设计一种改进的人群计数方法。将RGB图像和热成像两种模态的图像经过预处理输入模型,首先为五层权重共享编码器提取特征,然后由跨策略增强编码器重新分配通道注意力,通过交叉注意力重新加权特征反应,将输出的三、四、五层特征扩大其感受野,并对其进行跨尺度跨模态解码,最后将特征总和经过回归器回归密度图生成预测人数,通过不断缩小与实际人数之间的差距,以提高人群计数的精度。

    一种基于GRU的连续性视线估计深度学习方法

    公开(公告)号:CN117292421B

    公开(公告)日:2024-05-28

    申请号:CN202311173058.1

    申请日:2023-09-12

    Applicant: 南通大学

    Inventor: 王可 王进 曹硕裕

    Abstract: 本发明属于计算机视觉领域,具体涉及一种基于GRU的连续性视线估计深度学习方法,步骤如下:定义图像特征空间和GRU的隐藏状态空间维度;利用预训练的ResNet‑50模型,对输入的人脸图像进行特征提取并进行特征降维处理;处理图像特征向量,得到模型隐藏状态;将隐藏状态输入到GRU进行时间序列建模,生成输出向量;对输出向量进行特征映射,得到新的特征向量;将新的特征向量映射为三维输出向量;对三维输出向量的前两个元素进行双曲正切变换;对三维输出向量的第三个元素通过sigmoid函数变换;利用PinBall损失函数度量预测结果与真实值之间的误差。本发明中同时使用了ResNet‑50模型和GRU模型,在连续性视线估计任务中具有高准确性和有效性。

    一种交叉协作融合的轻量化跨模态人群计数方法

    公开(公告)号:CN117854009A

    公开(公告)日:2024-04-09

    申请号:CN202410126064.X

    申请日:2024-01-29

    Applicant: 南通大学

    Abstract: 本发明公开了一种交叉协作融合的轻量化跨模态人群计数方法,本发明主要针对现有人群计数方法存在模型庞大,推理速度很慢两个问题,设计一种改进的人群计数方法。将RGB图像和热成像两种模态的图像经过预处理输入模型,首先为五层权重共享编码器提取特征,然后由跨策略增强编码器重新分配通道注意力,通过交叉注意力重新加权特征反应,将输出的三、四、五层特征扩大其感受野,并对其进行跨尺度跨模态解码,最后将特征总和经过回归器回归密度图生成预测人数,通过不断缩小与实际人数之间的差距,以提高人群计数的精度。

    一种在线学习专注度监测方法及系统

    公开(公告)号:CN117315536A

    公开(公告)日:2023-12-29

    申请号:CN202311240937.1

    申请日:2023-09-25

    Applicant: 南通大学

    Abstract: 本发明公开了一种在线学习专注度监测方法及系统,首先构建数据采集模块、特征提取模块,然后计算眼睛纵横比、嘴部纵横比、头部姿态欧拉角、并构建视线估计模型,然后构建注意力检测模块,通过输入在线学习者的视频,获得眼睛纵横比、嘴部纵横比、头部姿态欧拉角、眼睛视线方向,然后应用注意力检测模块,设置注意力检测模块阈值,大于等于阈值判断为注意力分散,小于阈值为注意力集中;本发明仅需要带摄像头的电脑,不需要佩戴其他额外的仪器,就可以判断在线学习者注意力是否集中,学生常用的笔记本电脑即可满足本发明的环境要求,本发明具有开销较小、较为便利、较强的鲁棒性、较好的精准度等优点。

    一种基于GRU的连续性视线估计深度学习方法

    公开(公告)号:CN117292421A

    公开(公告)日:2023-12-26

    申请号:CN202311173058.1

    申请日:2023-09-12

    Applicant: 南通大学

    Inventor: 王可 王进 曹硕裕

    Abstract: 本发明属于计算机视觉领域,具体涉及一种基于GRU的连续性视线估计深度学习方法,步骤如下:定义图像特征空间和GRU的隐藏状态空间维度;利用预训练的ResNet‑50模型,对输入的人脸图像进行特征提取并进行特征降维处理;处理图像特征向量,得到模型隐藏状态;将隐藏状态输入到GRU进行时间序列建模,生成输出向量;对输出向量进行特征映射,得到新的特征向量;将新的特征向量映射为三维输出向量;对三维输出向量的前两个元素进行双曲正切变换;对三维输出向量的第三个元素通过sigmoid函数变换;利用PinBall损失函数度量预测结果与真实值之间的误差。本发明中同时使用了ResNet‑50模型和GRU模型,在连续性视线估计任务中具有高准确性和有效性。

Patent Agency Ranking