-
公开(公告)号:CN110363095A
公开(公告)日:2019-10-22
申请号:CN201910536393.0
申请日:2019-06-20
Applicant: 华南农业大学
Abstract: 本发明公开的一种针对表格字体的识别方法,包括以下步骤:获取表格图像,对表格图像进行预处理,包括:图像灰度化、图像去噪、图像倾斜校正;然后进行表格提取,提取表格横线、提取表格竖线、合并表格线段,去除不合格的表格线,得到完整表格;对完整表格进行定位截取,获取表格内容在完整表格中的定位;对定位截取内容进行表格内容提取,获取表格内容;使用识别技术对表格内容进行识别,得到初步识别结果,并分别训练对应的语言库,使用对应的语言库对初步识别结果进行选举,得到最终识别结果;本发明能够对多种格式的表格进行准确定位提取表格线和表格结构,能避免虚线和细线的对表格提取的干扰,能同时对印刷体和手写体进行准确识别。
-
公开(公告)号:CN119107484A
公开(公告)日:2024-12-10
申请号:CN202411062384.X
申请日:2024-08-05
Applicant: 华南农业大学
IPC: G06V10/764 , G06V10/80 , G06V10/74 , G06N3/0455 , G06N3/0464 , G06N3/084
Abstract: 本发明设计了一种基于深度学习的零样本图像目标检测方法,属于基于大模型的图像目标检测领域。本发明设计的视觉语言模型包含RO‑Yolo‑Backbone、HWD‑RepVL‑PAN、MCJ‑Text Contrastive Head和回归边界框目标检测模块,通过对卷积核参数共享、感受野范围的优化,增强特征提取能力,利用小波变换减少下采样纹理损失,引入多距离公式弱化类内差异和增强类间差异,旨在有效提升大数据时代下的零样本图像目标检测能力。
-
公开(公告)号:CN118506245A
公开(公告)日:2024-08-16
申请号:CN202410712244.6
申请日:2024-06-04
Applicant: 华南农业大学
IPC: G06V20/40 , G06V10/44 , G06V10/42 , G06V10/62 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种基于STMUnet的视频异常检测算法。本发明针对基于帧预测的视频异常检测算法的时间和空间的强相关性提出了STMUnet网络,该网络利用了Unet网络优秀的重构能力又结合了本发明时空转换模块的时空建模能力;为了加强网络对正常视频帧的重构能力而又抑制异常视频帧的重构能力,本发明在Unet网络的原始解码器D的倒数第二个上采样后插入了一个自监督掩码卷积Transformer方差模块SSMCTVB(Self‑Supervised Masked Convolutional Transformer Variance Block for Anomaly Detection),该模块使用掩码卷积将局部特征信息整合为全局特征信息,同时融合方差注意力与Transformer通道注意力,以加强网络对异常帧的区分能力。本发明基于STMUnet的视频异常检测算法具有泛化性强、精度高的特点。
-
公开(公告)号:CN118486083A
公开(公告)日:2024-08-13
申请号:CN202410712601.9
申请日:2024-06-04
Applicant: 华南农业大学
IPC: G06V40/20 , G06V20/40 , G06V10/25 , G06V10/44 , G06V10/42 , G06V10/52 , G06V10/54 , G06V10/80 , G06V10/764 , G06V10/766 , G06V10/82 , G06N3/0464 , G06N3/0455 , G06N3/0985 , G06N3/048
Abstract: 本发明公开了一种基于MS‑YOWOv2的人体行为识别方法,该方法包括:使用RGB摄像头采集RGB视频数据,对RGB视频数据进行预处理,将获取得到的视频帧和关键帧输入到MS‑YOWOv2模型中获得人体行为识别结果。MS‑YOWOv2模型具体指将YOWOv2的2D主干网络CSPDarknet53网络替换为MS‑ResNeSt网络,其中MS‑ResNeSt网络是指将ResNeSt中的SA模块替换为DP‑SA模块、在网络末端增加PSA‑PPM模块、增加可变形卷积层和与特征金字塔结合所得,其中DP‑SA模块是通过将ResNeSt中的SA模块的单支路全局平均池化替换为并行的全局最大池化和全局平均池化双分支结构并进一步通过5×5卷积处理所得;PSA‑PPM模块是通过在PPM模块中增加PSA模块和替换STM模块所得。
-
公开(公告)号:CN119919771A
公开(公告)日:2025-05-02
申请号:CN202510001111.2
申请日:2025-01-02
Applicant: 华南农业大学
IPC: G06V10/82 , G06V10/774 , G06N3/0464 , G06N3/045 , G06V10/80 , G06V20/70
Abstract: 本发明公开了一种基于热红外识别的路面开放场景目标检测方法,该方法通过采集热红外行车记录仪前向视角场景的图像样本,通过半自动标注工具和RectLabel标注工具完成图像的标注,并采用数据增广技术获取多样化的训练样本;改进YOLOv8s中颈部的C2f模块,并引入改进的SimAM注意力机制层;设计YOLOv8s的颈部网络结构和主干网络特征提取网络,以及改进主干网络中的SPPF模块;改进YOLOv8s的头部网络,增加解耦合微小目标检测头,并在头部引入改进的SE注意力机制层。该方法显著提升了在复杂路面环境下的目标检测性能,特别是在应对光照变化、车辆灯光影响以及不同类型车辆的多样性等挑战性条件下,实现了目标检测任务的高鲁棒性、准确率和效率。
-
公开(公告)号:CN119478517A
公开(公告)日:2025-02-18
申请号:CN202411576405.X
申请日:2024-11-06
Applicant: 华南农业大学
IPC: G06V10/764 , G06V10/82 , G06V10/80 , G06V10/40 , G06V10/54 , G06V10/77 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/082 , G06N3/084
Abstract: 本发明公开一种基于深度学习的复杂条件下杂草目标识别方法,该方法首先对数据集通过LabelMe软件完成半自动标注后借助CVAT,即ComputerVisionAnnotation Tool,进行手动标注;然后,改进CoatNet检测网络的Transformer架构,在DCMHA中引入高斯噪声检测层,并引入Dropout正则化技术,提高计算效率;进一步,改进Coatnet网络结构并加深网络层次以提高网络对复杂目标的特征提取能力;再此基础上,设计非对称平滑焦点损失函数,即Asymmetric SmoothedFocal Loss函数,将交叉熵函数换为焦点损失函数,即Focal Loss函数,引入标签平滑策略和非对称性;最后,将原始视频图像输入训练所得的深度网络,得到最终杂草识别的结果。该方法增强细节信息的表达能力,对于复杂条件下杂草目标识别任务有更强的鲁棒性。
-
公开(公告)号:CN118486086A
公开(公告)日:2024-08-13
申请号:CN202410712696.4
申请日:2024-06-04
Applicant: 华南农业大学
IPC: G06V40/20 , G06V20/40 , G06V10/44 , G06V10/42 , G06V10/80 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/045 , G06N3/048
Abstract: 本发明公开了一种基于TR‑SlowFast的人体跌倒检测方法,该方法包括:通过摄像头获取含跌倒行为的可见光视频数据,对图像帧进行数据增强、剪裁和抽帧;将预处理得到的图像帧序列输入到由SlowFast修改得到的TR‑SlowFast网络中获得跌倒检测结果。TR‑SlowFast网络模型具体指将SlowFast网络的fast支路的ResNet模块替换为F‑Res2Net模块,F‑Res2Net改进了Res2Net对于分组特征的处理方式,使用跳跃连接实现fast支路的不同模块的连接,在每个F‑Res2Net模块之后增加CA注意力模块,在最后一个CA注意力模块之后增加通道混洗模块;将slow支路的ResNet模块替换为S‑GhostNet模块,其中S‑GhostNet为通过特征融合和增加EGC注意力模块修改GhostNet所得,EGC注意力模块为修改的GC注意力模块。
-
公开(公告)号:CN110674779A
公开(公告)日:2020-01-10
申请号:CN201910943722.3
申请日:2019-09-30
Applicant: 华南农业大学
Abstract: 本发明公开了一种基于特征融合的单目远红外行人检测方法,包括以下步骤:对原始红外图像按不同比例进行缩放,得到相应的缩放红外图像;对缩放红外图像使用局部自适应双阈值分割二值化;将得到的二值图进行形态学处理;搜索处理后的二值图,并进行过滤,得到初步候选区域(ROIs);将初步ROIs进行滑窗,得到一系列滑窗ROIs;对ROIs计算特征值,再进行归一化处理后输入第一个支持向量机(SVM)分类器和第二个SVM个分类器级联进行决策,得到初步行人检测框;调用非极大值抑制算法对初步行人检测框进行计算,得到最终行人检测框;本发明能适应不同距离检测,克服行人图像断裂情况,且提高了行人检测准确性。
-
-
-
-
-
-
-