一种基于YOLOv5改进的人体检测算法

    公开(公告)号:CN118411660A

    公开(公告)日:2024-07-30

    申请号:CN202410221638.1

    申请日:2024-02-28

    Abstract: 本发明涉及图像处理和目标识别定位领域,尤其涉及一种基于YOLOv5改进的人体检测算法,包括:步骤S1,采集并预处理至少包括一个数据源,构建用于训练和验证的数据集;步骤S2,建立YOLOv5模型并进行结构性改进,引入动态蛇形卷积层替换选定的标准卷积层进行迭代,并将边界框回归损失函数从CIOU更换为WIOU损失函数,完成改进后的YOLOv5模型构建;步骤S3,将步骤S1中的数据集对步骤S2中改进的YOLOv5模型进行训练和验证,以实现对人体目标的精确检测和识别。本发明通过在主干网络中的卷积操作中引入动态蛇形卷积以学习累积形变偏移,提升模型在渔船甲板上这种背景环境复杂、前景特征不明显的场景下的人体检测精度,此外,将CIOU换为WIOU,提高模型的整体检测性能。

    一种考虑空间位置的视觉大模型预训练方法

    公开(公告)号:CN118072082A

    公开(公告)日:2024-05-24

    申请号:CN202410126969.7

    申请日:2024-01-30

    Abstract: 本发明涉及人工智能图像视觉算法开发技术领域,尤其涉及一种考虑空间位置的视觉大模型预训练方法,包括:S1:输入大量图像数据,将所述图像数据分割成若干子区块并将所属子区块进行顺序编码来构建自监督标签;S2:将所述子区块打散,并将所述打散的子区块输入VI T模型进行特征提取;S3:在所述所述VI T模型的输出端将每个所述子区块映射到16*16长度的一维向量;S4:对输出的每个所述一维向量输入Softmax函数转成概率分布;S5:将所述自监督标签和所述概率分布输入交叉熵构建训练损失函数。通过设计以图像空间位置联系进行网络监督监督的预训练方式,提取图像通用语义信息,提升下游图像分类、检测精度。

    一种基于YOLOv5的安全帽检测方法
    5.
    发明公开

    公开(公告)号:CN117853973A

    公开(公告)日:2024-04-09

    申请号:CN202311845482.6

    申请日:2023-12-28

    Abstract: 本发明涉及图像处理技术领域,尤其涉及一种基于YOLOv5的安全帽检测方法,包括以下步骤:S1:根据安全帽图片建立安全帽数据集,根据YOLOv5的数据格式转化为数据集;S2:训练集根据预训练模型权重通过第一YOLOv5神经网络模型进行训练以得到第一训练模型;S3:测试集根据第一训练模型验证模型效果,调整第一训练参数以得到达到最优性能的第二训练模型,并保留训练模型权重;S4:监控视频输入到第二训练模型进行检测,得到安全帽检测结果和置信度概率。本发明引入了Transformer模块,对全局语义特征提取能力增强;优化特征融合模块为Weighted BiFPN,避免非相邻层特征不能直接交互导致的信息丢失问题,整体增强网络的表征能力;使用带困难样本挖局的损失函数更加鲁棒和具有泛化性。

    一种适用于边缘AI设备的检测方法、设备及存储介质

    公开(公告)号:CN117853878A

    公开(公告)日:2024-04-09

    申请号:CN202311816678.2

    申请日:2023-12-27

    Abstract: 本发明涉及AI人工智能技术领域,具体地,涉及一种适用于边缘AI设备的检测方法、设备及存储介质。与现有技术相比,本申请提出的技术方案具有如下的有益效果:本发明从模型结构、硬件加速和动态调整策略等多个角度出发,提供了一套综合而创新的技术方案。通过引入NVIDIA‑DALI并行处理,提升预处理速度。推理优化方面使用Triton inference server(模型推理服务器)架构,实现异步多模型推理,通过硬件并行计算,充分发挥GPU硬件平台的性能。此外,本发明提出动态调整输入分辨率和推理精度的方法,以在不同场景下平衡性能和速度。

    一种基于视觉识别技术的人员安全移动检测方法及系统

    公开(公告)号:CN119919966A

    公开(公告)日:2025-05-02

    申请号:CN202510040531.1

    申请日:2025-01-10

    Abstract: 本发明提供一种基于视觉识别技术的人员安全移动检测方法及系统,包括如下步骤:S1:对视频画面进行图像采集,识别获取视频画面中的行走路线区域;S2:通过基于YOLOv5预训练的人体检测模型识别获取视频画面中的目标人体区域,并通过基于YOLOv5预训练的车辆检测模型识别获取视频画面中的目标车辆区域;S3:判断目标人体区域是否位于目标车辆区域或行走路线区域内部,当存在目标人体区域同时位于目标车辆区域及行走路线区域外部时,判定目标人体处于安全行走路线外部,触发警报。通过本发明,可实现安全行走路线中的人员移动路径检测,且可有效规避车辆驾驶人员对于检测结果的干扰。

    一种融合人体属性特征与向量嵌入的跨模态检索方法

    公开(公告)号:CN119829799A

    公开(公告)日:2025-04-15

    申请号:CN202411916565.4

    申请日:2024-12-24

    Abstract: 本发明公开了一种融合人体属性特征与向量嵌入的跨模态检索方法:从监控视频流定期抽取图片,编码缓存。提取图片的人脸特征向量、人体特征向量、文本向量和人体结构化属性特征。将人脸特征向量与人体特征向量相互关联,实现人脸融合,并存储到向量库中。将人体结构化属性特征与向量数据进行关联,并存储到搜索引擎中。通过对输入图像或文字进行特征提取和向量化,将向量数据与向量库中的数据进行匹配,再通过搜索引擎根据人体结构化属性特征进行过滤,得到搜索结果。本发明通过引入人脸人体融合技术、结构化人体属性特征,结合深度学习模型能够在多摄像头下快速、准确地检索出录像中的人员信息,从而高效稳定地生成对应时间段的录像回看。

    考虑多粒度语义对齐的多模态人体大模型训练方法及系统

    公开(公告)号:CN119625351A

    公开(公告)日:2025-03-14

    申请号:CN202411703678.6

    申请日:2024-11-26

    Abstract: 本发明涉及人工智能多模态大模型技术领域,公开了一种考虑多粒度语义对齐的多模态人体大模型训练方法及系统,所述方法包括:通过改进网络结构对大规模训练集进行前缀构造,基于人体特征对所述训练集中的数据附加描述相关的前缀;分批训练所述多模态人体大模型,将每一批训练数据中每张图像与每个文本进行配对,通过相似度计算和语义松弛进行对比损失的改进,优化视觉及文本模态编码器参数,通过以上方法,实现了一种考虑多粒度语义对齐的多模态人体大模型训练系统,针对当前多模态大模型在人体跨模态检索应用中遇到的多粒度语义对齐难题,分别从网络结构与损失函数两个方面对通用多模态大模型进行改进,增强在多粒度语义下跨模态人体检索的性能。

Patent Agency Ranking