-
公开(公告)号:CN116363481A
公开(公告)日:2023-06-30
申请号:CN202310335334.3
申请日:2023-03-31
Applicant: 桂林经开信息产业投资有限责任公司 , 桂林电子科技大学
IPC: G06V10/82 , G06V10/764 , G06V10/80 , G06V10/52 , G06V10/774 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08 , G06V10/94
Abstract: 本发明涉及基于YOLOv7的少样本小尺度训练以及文件部署方法,包括:采集待检测物品的小尺度的小样本数据,对所述小样本数据进行处理,获取训练数据;基于YOLOv7构建小尺度目标检测模型,改进所述小尺度目标检测模型,通过所述训练数据对改进后的所述小尺度目标检测模型进行训练,获取最终模型;将所述最终模型的模型文件存放于指定文件夹,并进行模型编译,生成可执行文件,完成文件部署,实现对目标的检测。本发明方法对于YOLOv7在jetson nano上的部署步骤进行了总结归纳,可以使得模型能够在该设备上快速部署使用。
-
公开(公告)号:CN117351637A
公开(公告)日:2024-01-05
申请号:CN202311379030.3
申请日:2023-10-24
Applicant: 桂林经开信息产业投资有限责任公司 , 桂林电子科技大学
Abstract: 本申请公开了一种基于YOLO的电动车棚起火预警系统及方法,系统包括:智能摄像头、部署模块、起火识别模块和报警模块;智能摄像头用于采集视频信号;部署模块用于将起火识别模块加速部署至智能摄像头内;起火识别模块用于对视频信号进行监测,利用目标识别模型识别是否存在火情,若存在火情,则提取视频信号中的火情图像;报警模块用于将火情图像和时间发送给负责人。本申请相较于传统的方法,基于学习的特征提取器更加鲁棒,特征点数量和特征描述的区分度也都更优,能够实现发生火灾时及时报警,通过在嵌入式平台对起火报警系统进行模型推理和优化,使目标识别的效率可以做到实时处理,同时可以在离线实时部署,更好保护个人隐私。
-
公开(公告)号:CN119296148A
公开(公告)日:2025-01-10
申请号:CN202411046431.1
申请日:2024-08-01
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于状态空间的2D屏幕注视点预测方法。其主要特征在于:(1)使用基于CNN网络的局部特征提取模块提取人脸图像的局部特征获取初始特征图;(2)初始特征图输入基于SSM的全局特征提取模块,其采用SS2D(2D选择性扫描)和FFN进行全局特征融合获得最终特征图并通过注视方向融合回归模块获得注视方向;(3)利用校准阶段获取的用户人脸图像和注视点坐标数据确定注视点映射模块的映射矩阵,最终通过注视点映射模块将预测阶段的注视方向转换为2D屏幕上的注视点。本发明方法可以有效提高用户的自由度与注视点预测的准确性。
-
公开(公告)号:CN118821047A
公开(公告)日:2024-10-22
申请号:CN202410928015.8
申请日:2024-07-11
Applicant: 桂林电子科技大学
IPC: G06F18/25 , G06F18/214 , G06F18/213 , G06V20/40 , G06N3/0455 , G06N3/0464 , G06F3/01 , H04N21/233 , H04N21/234 , H04N21/2343 , H04N21/439 , H04N21/44 , H04N21/4402
Abstract: 本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。
-
公开(公告)号:CN118095357A
公开(公告)日:2024-05-28
申请号:CN202410277725.9
申请日:2024-03-12
Applicant: 桂林电子科技大学
IPC: G06N3/0455 , G06N3/042 , G06N5/04 , G06V10/82 , G06V10/80 , G06V10/764 , G06V10/74
Abstract: 本发明公开了Transformer及其改进的显式位置编码方法,包括:步骤S1、获取原始数据;步骤S2、将所述原始数据映射为Token序列;步骤S3、基于应用场景,设计显示位置编码方式;步骤S4、通过拼接方式,对所述Token序列添加显示位置编码,获得具有位置信息的输入序列;步骤S5、将所述具有位置信息的输入序列输入至Transformer编码器/解码器中,获取显式位置编码注意力运算机制;步骤S6、基于所述显示位置编码注意力运算机制计算位置信息并融合,重复步骤S5至步骤S6直至迭代次数结束;步骤S7、获得所述显式位置编码注意力模型的推理结果。
-
公开(公告)号:CN115565100A
公开(公告)日:2023-01-03
申请号:CN202211091323.7
申请日:2022-09-07
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种基于时间和运动增强的视频动作识别方法。包括步骤:设计一个多路径时间增强模块,聚合由各种激发模块激发的多路径时间信息;设计一个长短程运动增强模块,编码相邻和非相邻视频帧之间的运动特征;将多路径时间增强模块和长短程运动增强模块依次连接在一起,形成时间和运动增强模块,并将其嵌入到一个二维卷积神经网络中;在动作识别的数据集上进行参数学习,将输入的视频进行稀疏采样并获得8帧图像,然后对它们进行预处理后导入上述步骤得到的网络进行训练;在动作识别的数据集上对上述步骤得到的算法进行评估,并输出对应的测试结果。本发明有效利用了时间特征和运动信息,大大提高了动作识别的准确性和实时性。
-
公开(公告)号:CN114913466A
公开(公告)日:2022-08-16
申请号:CN202210616931.9
申请日:2022-06-01
Applicant: 桂林电子科技大学
Abstract: 本发明涉及一种基于双流信息与稀疏表示的视频关键帧提取方法,包括:拆分待提取的视频文件,获得图像帧,基于图像帧,分别构建视频空间流矩阵与视频时间流矩阵;通过视频空间流矩阵与视频时间流矩阵,得到双流信息矩阵,对双流信息矩阵进行特征提取,得到双流特征矩阵;将双流特征矩阵输入到稀疏表示模型中,计算稀疏系数矩阵,基于稀疏系数矩阵,获取关键帧索引;通过关键帧索引提取所述待提取视频文件中的关键帧。本发明可以高效提取一个视频中较少的关键帧,使提取的关键帧数量减少,降低关键帧提取的压缩率,同时提高关键帧提取算法的计算速度。
-
公开(公告)号:CN114463680A
公开(公告)日:2022-05-10
申请号:CN202210122460.6
申请日:2022-02-09
Applicant: 桂林电子科技大学
Abstract: 本发明公开一种基于MCP稀疏表示的视频关键帧提取方法,包括以下步骤:拆分视频,获得图像帧,基于所述图像帧,构建视频信号矩阵;利用MCP稀疏约束构建稀疏表示模型;将所述视频信号矩阵输入所述稀疏表示模型,利用DC编码优化所述稀疏表示模型,计算稀疏系数矩阵,基于所述稀疏系数矩阵,获取关键帧索引;基于所述关键帧索引,提取所述视频中的关键帧。本发明提高了关键帧提取算法的计算速度,同时使提取的关键帧数量减少,降低压缩率。
-
公开(公告)号:CN115761858B
公开(公告)日:2025-05-09
申请号:CN202211509716.5
申请日:2022-11-29
Applicant: 桂林电子科技大学
Abstract: 本申请公开了一种基于人脸外观的注视方向预测方法及系统,方法包括:采集待预测对象的人脸图片,得到原始预测图像;基于所述原始预测图像,裁剪出左眼和右眼的图片,得到人眼预测图像;构建注视方向预测模型;所述人眼预测图像输入至所述注视方向预测模型中,得到人脸注视方向。通过设计自注意力静态模块去融合粗粒度人脸特征和细粒度人眼特征,提高了不同粒度特征的融合程度;通过设计差分动态模块去显式获得动态特征,增强了对原有数据集的动态特征的利用程度。
-
公开(公告)号:CN114220059B
公开(公告)日:2024-10-29
申请号:CN202111548537.8
申请日:2021-12-17
Applicant: 桂林电子科技大学
IPC: G06V20/40 , G06F17/16 , G06V10/774
Abstract: 本发明公开了一种基于解析稀疏表示的关键帧提取方法,包括步骤:将视频转化为矩阵表示,视频矩阵的每一列为视频的每一帧信号;设计一个基于minimax concave penalty (MCP)稀疏正则化的解析稀疏编码模型;将视频矩阵作为原信号,视频矩阵的转置矩阵作为解析字典,带入解析稀疏编码模型;通过解析稀疏编码算法计算出稀疏系数矩阵,其中稀疏系数矩阵的非零行代表关键帧的索引;根据关键帧的索引选择出对应的该视频关键帧。本发明将提高选取关键帧的压缩率,同时降低计算复杂度,提高关键帧的提取速度。此外,本发明通过对许多具有挑战性的现实世界场景进行验证,相较于传统的关键帧提取方法具有更高的提取效率。
-
-
-
-
-
-
-
-
-