基于局部软注意力联合训练的无监督行人重识别方法

    公开(公告)号:CN117710898A

    公开(公告)日:2024-03-15

    申请号:CN202410018018.8

    申请日:2024-01-05

    Applicant: 南昌大学

    Abstract: 本发明公开了基于局部软注意力联合训练的无监督行人重识别方法,涉及行人重识别技术领域,将整个联合训练分为全局和局部两个分支,在局部分支中软注意力机制模块被提出来准确地捕捉局部区域的细微差异,进而提升Re‑ID模型对行人局部显著部位的鉴别能力,其次,双重交叉邻居标签平滑模块被设计来逐步缓解不同局部区域产生的不同程度的标签噪声,双重交叉邻居标签平滑模块模块通过全局与局部的相似性度量来实现行人全局与局部区域的语义对齐,随后通过邻近局部之间的交叉信息进一步建立局部区域之间的邻近关联性,进而实现整个训练过程中全局与局部区域的标签平滑,有效避免不同局部区域所包含的与身份无关信息会导致不同程度局部噪声的产生。

    一种基于局部特征对比学习的半监督医学图像分割方法

    公开(公告)号:CN117611820A

    公开(公告)日:2024-02-27

    申请号:CN202311623913.4

    申请日:2023-11-30

    Applicant: 南昌大学

    Abstract: 本发明公开了一种基于局部特征对比学习的半监督医学图像分割方法,包括:1)将医学图像数据送入框架中的学生模型,得到相应的预测分割结果和预测SDM,将预测分割结果和预测符号距离图与真实标记分割结果和真实符号距离图进行损失计算;2)利用BC进行局部特征块的分类;3)通过对步骤2)中提取的最后一层特征进行投影得到投影特征,将该投影特征同样切割成n×n个特征块,将预测符号距离图中的n×n个图像块和投影特征中的n×n个特征块一一对应,得到特征块的分类,利用密集局部特征对比学习模块进行对比学习,得到最后的图像分割结果。本发明方法相较传统分割算法能较好的适应边界模糊、对比度低的情况,分割效果优于其他算法。

    一种基于多方位音频辅助的人群计数方法

    公开(公告)号:CN116630881A

    公开(公告)日:2023-08-22

    申请号:CN202310512640.X

    申请日:2023-05-09

    Applicant: 南昌大学

    Abstract: 本发明公开了一种基于多方位音频辅助的人群计数方法,所述计数方法包括以下步骤:VCC模块结合多种尺寸卷积核的空洞卷积,从图像中提取人群特征;通过自适应将多级上下文信息编码到VCC模块产生的特征中,提取视觉特征;ACC模块对原始的多段多方向音频进行初步融合和特征提取;将VCC模块的多通道视觉特征和ACC模块的多方向音频特征融合,再进行单个卷积操作生成密度图。本发明提出的框架,解决了透视问题、低照度场景以及不同位置对音频特征提取的影响,同时这是人群计数领域第一次尝试使用多段多方向音频辅助人群计数。

    一种基于细粒度判别网络与二阶重排序的车辆重识别方法

    公开(公告)号:CN111797700A

    公开(公告)日:2020-10-20

    申请号:CN202010523812.X

    申请日:2020-06-10

    Applicant: 南昌大学

    Abstract: 本发明提供了一种基于细粒度判别网络与二阶重排序的车辆重识别方法,所述方法主要由两个部分组成:细粒度判别网络和二阶段重排序算法;所述细粒度判别网络的整个网络架构采用多元损失来监督,由两部分组成:孪生网络和细粒度网络;所述二阶段重排序算法融合两部分的深度特征向量来计算最终的融合特征,并将其分为两个阶段。在本发明中,细粒度判别网络可用于提取更多细微特征并改进重排序方法。首先,将孪生网络和细粒度网络结合以提取融合特征。提取的特征具有更强的判别细微差异的能力。应用二阶段重排序算法来获得样本均值特征,然后将其添加到最终距离度量中,使得匹配列表中的前k个候选样本所包含的正样本数量增加了。

    一种跨模态食品检索方法
    5.
    发明公开

    公开(公告)号:CN119903203A

    公开(公告)日:2025-04-29

    申请号:CN202411890626.4

    申请日:2024-12-20

    Applicant: 南昌大学

    Abstract: 本发明涉及人工智能和机器学习的跨学科研究领域,尤其涉及。本发明提供了一种跨模态食品检索方法,重点是在图像编码器与食谱编码器的基础上增加多粒度交互编码器构建TE I框架,将给定的图像‑文本配对数据分别输入到图像编码器与食谱编码器进行训练学习,图像编码器提取全局视觉特征,食谱编码器提取层次化特征并使用线性层获得全局食谱特征,多粒度交互编码器提取多粒度特征,所述层次化特征与多粒度特征计算成对的自注意力并取平均值得多粒度交互特征,基于层次化语义对齐损失函数对齐两种模态之间的相关性。目的是探索图像和文本模态之间的多粒度互动相关性,以提高跨模态检索性能。

    基于细微面部动作识别的驾驶员打哈欠检测方法

    公开(公告)号:CN110502995A

    公开(公告)日:2019-11-26

    申请号:CN201910658690.2

    申请日:2019-07-19

    Applicant: 南昌大学

    Abstract: 本发明提供了基于细微面部动作识别的驾驶员打哈欠检测方法,包括以下步骤:步骤1,对车载摄像机捕捉到的驾驶员驾驶视频进行预处理,进行人脸检测和分割,图像大小归一化和去噪;步骤2,提出关键帧提取算法,通过图片直方图相似度阈值筛选以及离群相似度图片剔除相结合的方法,来提取细微动作序列中的关键帧;步骤3,根据选择的关键帧,建立具有低时间采样率的3D深度学习网络(3D-LTS)以检测各种打哈欠行为,本发明通过关键帧提取算法提取细微动作的关键帧,然后通过建立的3D-LTS网络,提取时空特征和检测各种面部细微动作;在识别率和整体性能方面优于现有方法,能有效区分打哈欠和其他面部细微动作,有效降低了驾驶员打哈欠行为的误检率。

    一种多级语义丰富神经网络的医学图像分割方法

    公开(公告)号:CN117523184A

    公开(公告)日:2024-02-06

    申请号:CN202310932178.9

    申请日:2023-07-27

    Applicant: 南昌大学

    Abstract: 本发明公开了一种多级语义丰富神经网络的医学图像分割方法,将医学图像分层采用PCT模块得到低分辨率特征图Ⅰ;再将低分辨率特征图Ⅰ通过PCT模块得到低分辨率特征图Ⅱ;再将低分辨率特征图Ⅱ通过PCT模块得到低分辨率特征图Ⅲ;最后将低分辨率特征图Ⅲ通过PCT模块得到低分辨率特征图Ⅳ;将特征图Ⅳ通过上采样2倍后,与ES模块处理后的特征图Ⅲ进行拼接;再进行上采样2倍后与ES模块处理后的特征图Ⅱ进行拼接;最后进行上采样2倍后与ES模块处理后的特征图Ⅰ进行拼接,最终得到相应的特征图;将得到的最终特征图进行上采样4倍后,通过1×1的卷积调节通道数后得到最终的分割图。本发明能够对医学图像进行有效的分割,提高了医生对患者病情诊断的准确度。

    基于细微面部动作识别的驾驶员打哈欠检测方法

    公开(公告)号:CN110502995B

    公开(公告)日:2023-03-14

    申请号:CN201910658690.2

    申请日:2019-07-19

    Applicant: 南昌大学

    Abstract: 本发明提供了基于细微面部动作识别的驾驶员打哈欠检测方法,包括以下步骤:步骤1,对车载摄像机捕捉到的驾驶员驾驶视频进行预处理,进行人脸检测和分割,图像大小归一化和去噪;步骤2,提出关键帧提取算法,通过图片直方图相似度阈值筛选以及离群相似度图片剔除相结合的方法,来提取细微动作序列中的关键帧;步骤3,根据选择的关键帧,建立具有低时间采样率的3D深度学习网络(3D‑LTS)以检测各种打哈欠行为,本发明通过关键帧提取算法提取细微动作的关键帧,然后通过建立的3D‑LTS网络,提取时空特征和检测各种面部细微动作;在识别率和整体性能方面优于现有方法,能有效区分打哈欠和其他面部细微动作,有效降低了驾驶员打哈欠行为的误检率。

    一种基于特征相似度度量和深度学习的车辆再识别方法

    公开(公告)号:CN115661769A

    公开(公告)日:2023-01-31

    申请号:CN202211391572.8

    申请日:2022-11-08

    Applicant: 南昌大学

    Abstract: 本发明提供了一种基于特征相似度度量和深度学习的车辆再识别方法,包括两个阶段:第一个阶段是基于半监督的跨域联合预训练,第二阶段则是预训练模型在目标域上的微调。本发明提出了一种新的特征相似性度量方法——重叠特征重排序(OFR),并设计了一种新的无监督车辆再识别框架。该框架采用一种有效的半监督域训练方式,称为半监督跨域联合学习(JCLS)。OFR将提取的特征进行交叉划分得到特征分区,并将所有特征分区的测量结果相加,作为进行更准确的聚类的基础。在JCLS中,摒弃了以往的单域训练,而是引入目标域风格的样本,共同训练Re‑ID模型。这种方法可以提取出更加具有代表性的特征参与相似性度量,提高识别率。

    一种基于三维残差神经网络和视频序列的动态手语识别方法

    公开(公告)号:CN110110602A

    公开(公告)日:2019-08-09

    申请号:CN201910282569.4

    申请日:2019-04-09

    Applicant: 南昌大学

    Abstract: 本发明提供了一种基于三维残差神经网络和视频序列的动态手语识别方法,所述方法提出了基于三维残差神经网络的新模型B3D ResNet,包括以下步骤:步骤1,在视频帧中,采用Faster R-CNN模型检测手的位置,并从背景中分割出手;步骤2,利用B3D ResNet模型对输入的视频序列进行手势的时空特征提取和特征序列分析;步骤3,通过对输入的视频序列进行分类,可以识别手势,有效地实现动态手语识别。本发明通过分析视频序列的时空特征,可以提取有效的动态手势时空特征序列,从而达到识别不同手势的目的,并且在复杂或类似的手语识别上也获得了良好的性能。通过测试数据集的实验结果表明,本发明可以准确有效地区分不同的手语,以及相似的手势对。

Patent Agency Ranking