基于点对点框架的人群计数方法及系统

    公开(公告)号:CN118537793A

    公开(公告)日:2024-08-23

    申请号:CN202410632368.3

    申请日:2024-05-21

    Abstract: 本发明提供一种基于点对点框架的人群计数方法及系统,属于基于计算机视觉的人群计数技术领域,获取待识别的图像;利用预先训练好的人群计数识别模型对获取的图像进行处理,得到人群计数识别结果;其中,训练模型包括:将训练集图像输入进骨干网络进行特征图的提取;将特征图分别输入到坐标预测头和置信度计算头的三层卷积网络中,分别得到预测点坐标和置信度;损失函数计算,利用PyTorch框架的自动求导机制,根据得到的损失值计算模型参数梯度方向,更新模型参数。本发明利用数据集中的点标注信息,在不引入额外的标注工作量的情况下对样本尺寸信息进行了估计,以此计算出每个标注点对于最终的损失函数的影响权重,提升了模型检测不同尺度目标的能力。

    基于多子空间表示的偏多标记学习方法

    公开(公告)号:CN111581469B

    公开(公告)日:2024-03-01

    申请号:CN202010412162.1

    申请日:2020-05-15

    Abstract: 本发明提供了一种基于多子空间表示的偏多标记学习方法。该方法包括利用真实标记矩阵构建标记子空间,利用特征映射矩阵构建特征子空间,通过标记子空间和特征子空间学习得到基于多子空间表示的偏多标记学习模型;对基于多子空间表示的偏多标记学习模型进行交替优化训练学习,求解基于多子空间表示的偏多标记学习模型,得到最优的预测模型;将未知样本输入到最优的预测模型,最优的预测模型输出未知样本的标记信息。本发明解决了特征存在噪声和冗余标记的问题,使用映射矩阵将特征空间映射到子空间,减少特征噪声对预测模型的影响;使用矩阵分解技术将标记空间降维到标记子空间,使用图拉普拉斯约束标记子空间,消除冗余标记噪声对预测模型的影响。

    任务自适应的小样本行为识别方法及系统

    公开(公告)号:CN115240106B

    公开(公告)日:2023-06-20

    申请号:CN202210815080.0

    申请日:2022-07-12

    Abstract: 本发明提供一种任务自适应的小样本行为识别方法及系统,属于计算机视觉技术领域,获取待识别的视频数据;利用预先训练好的识别模型,对获取的所述待识别的视频数据进行处理,得到动作类别结果加入注意力层,提取行为主体在图片帧中的位置信息以及图像内容信息,通过注意力机制对提取的特征特征进行调制,获取同一类动作的类内特征共性以及不同类动作的类间的差异性。本发明提取特征时加入注意力层,产生更具分辨性的特征表示;对同类行为中不同样本进行随机多模态融合,扩充了支持集数据,使得模型对行为主体所在环境的变换鲁棒性更强;通过task级的特征调制,使特征更符合当前任务的需求并聚焦于行为主体,有助于提高分类准确率。

    一种少样本胸部X-Ray图像的辅助检测方法

    公开(公告)号:CN113496481A

    公开(公告)日:2021-10-12

    申请号:CN202110550635.9

    申请日:2021-05-20

    Abstract: 本发明提供了一种少样本胸部X‑Ray图像的辅助检测方法。该方法包括:采集胸部的CXR图像,通过自适应的X‑Ray图像降噪模块对所述CXR图像进行图像预处理,利用预处理后的X‑Ray图像组成训练集和验证集;构造基于迁移学习的量子卷积神经网络,利用训练集和验证集对基于迁移学习的量子卷积神经网络和分类网络模型进行迭代优化处理,将迭代优化处理后的分类网络模型与量子卷积神经网络进行融合,得到辅助检测网络模型;利用辅助检测网络模型对待诊断的胸部的CXR图像进行诊断,输出待诊断的胸部的CXR图像的诊断结果。本发明通过融合基于迁移学习的分类网络模型与量子卷积神经网络得到辅助检测网络模型,结合了不同模型的优势,对检测准确率大大提升。

    基于显著性场景图分析的文本合成图像方法及系统

    公开(公告)号:CN112734881A

    公开(公告)日:2021-04-30

    申请号:CN202011381287.9

    申请日:2020-12-01

    Abstract: 本发明提供了一种基于显著性场景图分析的文本合成图像方法及系统。该方法包括:根据依赖关系解析将文本描述构建成依赖树,进行树转换以得到语义图,构建一个基于规则的场景图解析器,该解析器从依赖项语法表示映射到场景图;利用背景检索模块对场景图进行检索,得到与给定场景图最相关的候选分割图;通过背景融合模块对候选分割图进行编码得到背景特征;将前景对象和背景特征表示都输入到生成对抗网络中,得到文本合成图像模型,使用模型以测试文本描述为输入,生成具有前景和背景视觉上一致的高分辨率图像。本发明将基于显著性的场景图引入到图像合成中,通过探索跨模态文本语义空间配置,有效的提高了图像合成的准确率。

    基于多中心度量损失的多视角环境下车辆重识别方法

    公开(公告)号:CN111814584A

    公开(公告)日:2020-10-23

    申请号:CN202010560236.6

    申请日:2020-06-18

    Abstract: 本发明提供了一种基于多中心度量损失的多视角环境下车辆重识别方法。该方法包括:获取包含车辆身份标签的车辆样本图像,经过空间变换网络对图像进行仿射变换后,将图像经过深度卷积神经网络进行特征提取,得到图像的特征向量;根据图像的特征向量分别计算出分类任务损失和多中心度量学习损失并相加,得到综合损失的值;根据综合损失的值计算深度卷积神经网络的参数和视角中心向量的梯度,得到训练好的深度卷积神经网络模型;利用训练好的深度卷积神经网络模型对车辆图像进行特征提取和身份识别处理。本发明使用空间变换网络对图像进行仿射变换,采用K-means聚类的方法的估计视角信息,可以增加车辆视角估计的准确性,提高车辆重识别的准确率。

    基于图像和文本语义相似度的图像语义消歧方法和装置

    公开(公告)号:CN108647705B

    公开(公告)日:2019-04-05

    申请号:CN201810368937.2

    申请日:2018-04-23

    Abstract: 本发明提供了一种基于图像和文本语义相似度的图像语义消歧方法和装置。该方法包括:将一个多义词的一个意思用一个均值向量表示,使用图像显著性标签对待处理图像进行标注,得到待处理图像的标签,将待处理图像的标签和图像内容转换成向量的形式,得到待处理图像的融合向量;使用余弦相似度分别计算出待处理图像的融合向量与每个均值向量之间的相似度,找出相似度最大的均值向量,将该相似性最高的均值向量对应的意思确定为待处理图像的正确解释。本发明采用图像、文本结合的方法,将图像转换为向量,解决了图像翻译和图像查询歧义的问题,并开创性地实现了有效消除图像歧义性。大大提高了图像查询和解释的准确性,降低了图像解释的错误率。

Patent Agency Ranking