-
公开(公告)号:CN119763004A
公开(公告)日:2025-04-04
申请号:CN202411631918.6
申请日:2024-11-15
Applicant: 上海国际港务(集团)股份有限公司 , 上港集团物流有限公司浦东分公司 , 上海网达软件股份有限公司
IPC: G06V20/40 , G06V10/764 , G06V10/82 , G06V40/10 , G06N3/0464 , G06N3/08
Abstract: 本发明公开一种基于视频分类的佩戴肩闪灯识别方法及系统,获取视频流并获取所述视频流每帧数据中人体的位置坐标;将每帧数据中人体的位置坐标输入追踪器得到每个人的位置坐标信息;持续记录每帧视频帧人体位置坐标信息以识别每个人的移动方向并判断其人体朝向;将每个人两种相反移动方向各自的连续N张人体截图输入视频分类模型以分别获取每个朝向的分类结果,当两个方向识别的分类结果均为未佩戴肩闪灯则触发告警。通过连续帧识别作业人员是否佩戴肩闪灯,捕捉到肩闪灯在时间上的动态变化特征,视频分类模型可以实现自动化监控,减少人工干预,提高监督效率。
-
公开(公告)号:CN119723280A
公开(公告)日:2025-03-28
申请号:CN202411653310.3
申请日:2024-11-19
Applicant: 上海国际港务(集团)股份有限公司 , 上港集团物流有限公司浦东分公司 , 上海网达软件股份有限公司
Abstract: 本发明公开一种基于空间位置约束优化的yolov8撑伞识别方法及系统,实时获取视频数据并进行预处理;将预处理后的所述视频数据输入训练好的YOLO v8检测模型,其中,训练好的所述YOLO v8检测模型的CSPDarknet中的Backbone网络使用Swin‑Transformer主干进行代替、PAFPN网络中的Conv卷积使用形变卷积进行替换;所述YOLO v8检测模型基于实时获取的视频数据输出检测结果。通过对yolov8目标检测算法进行网络结构优化、训练过程中通过引入关键点分支和空间位置约束损失辅助模型训练,显著提升了模型对人员违规撑伞识别的准确率和检测效率。
-
公开(公告)号:CN118411660A
公开(公告)日:2024-07-30
申请号:CN202410221638.1
申请日:2024-02-28
Applicant: 上海网达软件股份有限公司
IPC: G06V20/52 , G06V20/40 , G06V10/25 , G06V10/766 , G06V10/82
Abstract: 本发明涉及图像处理和目标识别定位领域,尤其涉及一种基于YOLOv5改进的人体检测算法,包括:步骤S1,采集并预处理至少包括一个数据源,构建用于训练和验证的数据集;步骤S2,建立YOLOv5模型并进行结构性改进,引入动态蛇形卷积层替换选定的标准卷积层进行迭代,并将边界框回归损失函数从CIOU更换为WIOU损失函数,完成改进后的YOLOv5模型构建;步骤S3,将步骤S1中的数据集对步骤S2中改进的YOLOv5模型进行训练和验证,以实现对人体目标的精确检测和识别。本发明通过在主干网络中的卷积操作中引入动态蛇形卷积以学习累积形变偏移,提升模型在渔船甲板上这种背景环境复杂、前景特征不明显的场景下的人体检测精度,此外,将CIOU换为WIOU,提高模型的整体检测性能。
-
公开(公告)号:CN118072082A
公开(公告)日:2024-05-24
申请号:CN202410126969.7
申请日:2024-01-30
Applicant: 上海网达软件股份有限公司
IPC: G06V10/764 , G06V10/774 , G06V10/77 , G06V10/26 , G06V10/82 , G06N3/045 , G06N3/047 , G06N3/0895 , G06N3/084
Abstract: 本发明涉及人工智能图像视觉算法开发技术领域,尤其涉及一种考虑空间位置的视觉大模型预训练方法,包括:S1:输入大量图像数据,将所述图像数据分割成若干子区块并将所属子区块进行顺序编码来构建自监督标签;S2:将所述子区块打散,并将所述打散的子区块输入VI T模型进行特征提取;S3:在所述所述VI T模型的输出端将每个所述子区块映射到16*16长度的一维向量;S4:对输出的每个所述一维向量输入Softmax函数转成概率分布;S5:将所述自监督标签和所述概率分布输入交叉熵构建训练损失函数。通过设计以图像空间位置联系进行网络监督监督的预训练方式,提取图像通用语义信息,提升下游图像分类、检测精度。
-
公开(公告)号:CN117853973A
公开(公告)日:2024-04-09
申请号:CN202311845482.6
申请日:2023-12-28
Applicant: 上海网达软件股份有限公司
IPC: G06V20/40 , G06V20/52 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464
Abstract: 本发明涉及图像处理技术领域,尤其涉及一种基于YOLOv5的安全帽检测方法,包括以下步骤:S1:根据安全帽图片建立安全帽数据集,根据YOLOv5的数据格式转化为数据集;S2:训练集根据预训练模型权重通过第一YOLOv5神经网络模型进行训练以得到第一训练模型;S3:测试集根据第一训练模型验证模型效果,调整第一训练参数以得到达到最优性能的第二训练模型,并保留训练模型权重;S4:监控视频输入到第二训练模型进行检测,得到安全帽检测结果和置信度概率。本发明引入了Transformer模块,对全局语义特征提取能力增强;优化特征融合模块为Weighted BiFPN,避免非相邻层特征不能直接交互导致的信息丢失问题,整体增强网络的表征能力;使用带困难样本挖局的损失函数更加鲁棒和具有泛化性。
-
公开(公告)号:CN117853878A
公开(公告)日:2024-04-09
申请号:CN202311816678.2
申请日:2023-12-27
Applicant: 上海网达软件股份有限公司
Abstract: 本发明涉及AI人工智能技术领域,具体地,涉及一种适用于边缘AI设备的检测方法、设备及存储介质。与现有技术相比,本申请提出的技术方案具有如下的有益效果:本发明从模型结构、硬件加速和动态调整策略等多个角度出发,提供了一套综合而创新的技术方案。通过引入NVIDIA‑DALI并行处理,提升预处理速度。推理优化方面使用Triton inference server(模型推理服务器)架构,实现异步多模型推理,通过硬件并行计算,充分发挥GPU硬件平台的性能。此外,本发明提出动态调整输入分辨率和推理精度的方法,以在不同场景下平衡性能和速度。
-
公开(公告)号:CN119919966A
公开(公告)日:2025-05-02
申请号:CN202510040531.1
申请日:2025-01-10
Applicant: 上海网达软件股份有限公司
Abstract: 本发明提供一种基于视觉识别技术的人员安全移动检测方法及系统,包括如下步骤:S1:对视频画面进行图像采集,识别获取视频画面中的行走路线区域;S2:通过基于YOLOv5预训练的人体检测模型识别获取视频画面中的目标人体区域,并通过基于YOLOv5预训练的车辆检测模型识别获取视频画面中的目标车辆区域;S3:判断目标人体区域是否位于目标车辆区域或行走路线区域内部,当存在目标人体区域同时位于目标车辆区域及行走路线区域外部时,判定目标人体处于安全行走路线外部,触发警报。通过本发明,可实现安全行走路线中的人员移动路径检测,且可有效规避车辆驾驶人员对于检测结果的干扰。
-
公开(公告)号:CN119829799A
公开(公告)日:2025-04-15
申请号:CN202411916565.4
申请日:2024-12-24
Applicant: 上海网达软件股份有限公司
IPC: G06F16/783 , G06V20/40 , G06V20/52 , G06V40/10 , G06V40/16
Abstract: 本发明公开了一种融合人体属性特征与向量嵌入的跨模态检索方法:从监控视频流定期抽取图片,编码缓存。提取图片的人脸特征向量、人体特征向量、文本向量和人体结构化属性特征。将人脸特征向量与人体特征向量相互关联,实现人脸融合,并存储到向量库中。将人体结构化属性特征与向量数据进行关联,并存储到搜索引擎中。通过对输入图像或文字进行特征提取和向量化,将向量数据与向量库中的数据进行匹配,再通过搜索引擎根据人体结构化属性特征进行过滤,得到搜索结果。本发明通过引入人脸人体融合技术、结构化人体属性特征,结合深度学习模型能够在多摄像头下快速、准确地检索出录像中的人员信息,从而高效稳定地生成对应时间段的录像回看。
-
公开(公告)号:CN119625351A
公开(公告)日:2025-03-14
申请号:CN202411703678.6
申请日:2024-11-26
Applicant: 上海网达软件股份有限公司
IPC: G06V10/74 , G06V10/764 , G06V10/80 , G06V10/40 , G06F16/583 , G06F16/51 , G06N3/0455 , G06N3/084 , G06N5/04
Abstract: 本发明涉及人工智能多模态大模型技术领域,公开了一种考虑多粒度语义对齐的多模态人体大模型训练方法及系统,所述方法包括:通过改进网络结构对大规模训练集进行前缀构造,基于人体特征对所述训练集中的数据附加描述相关的前缀;分批训练所述多模态人体大模型,将每一批训练数据中每张图像与每个文本进行配对,通过相似度计算和语义松弛进行对比损失的改进,优化视觉及文本模态编码器参数,通过以上方法,实现了一种考虑多粒度语义对齐的多模态人体大模型训练系统,针对当前多模态大模型在人体跨模态检索应用中遇到的多粒度语义对齐难题,分别从网络结构与损失函数两个方面对通用多模态大模型进行改进,增强在多粒度语义下跨模态人体检索的性能。
-
公开(公告)号:CN118069878A
公开(公告)日:2024-05-24
申请号:CN202410126965.9
申请日:2024-01-30
Applicant: 上海网达软件股份有限公司
IPC: G06F16/583 , G06V40/10 , G06V20/70 , G06V10/25 , G06V10/52 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/778 , G06V10/82 , G06V10/80 , G06N3/045 , G06N3/048 , G06N3/0464 , G06N3/08
Abstract: 本说明涉及图像识别检索技术领域,公开了一种多尺度多细粒度的行人检索模型优化方法,包括:S1:输入大量不同人体的图片并进行标注,来构建人体检索数据集;S2:使用EfficientNetV2M模型作为所述行人检索模型的主要网络模型,并对所述模型作出修改,然后输入所述人体检索数据集来训练修改后的所述EfficientNetV2M模型;S3:训练过程中使用数据增强遮挡明显的人体特征,并使用UCE loss训练所述模型直至收敛。通过使用更强力的特征提取网络、网络主动学习细粒度特征、使网络学习每类与其他类的区别等优化方案,优化后的模型相比于现有的行人检索模型在准确率上得到了很大的提升。
-
-
-
-
-
-
-
-
-