基于状态空间的2D屏幕注视点预测方法

    公开(公告)号:CN119296148A

    公开(公告)日:2025-01-10

    申请号:CN202411046431.1

    申请日:2024-08-01

    Abstract: 本发明公开了一种基于状态空间的2D屏幕注视点预测方法。其主要特征在于:(1)使用基于CNN网络的局部特征提取模块提取人脸图像的局部特征获取初始特征图;(2)初始特征图输入基于SSM的全局特征提取模块,其采用SS2D(2D选择性扫描)和FFN进行全局特征融合获得最终特征图并通过注视方向融合回归模块获得注视方向;(3)利用校准阶段获取的用户人脸图像和注视点坐标数据确定注视点映射模块的映射矩阵,最终通过注视点映射模块将预测阶段的注视方向转换为2D屏幕上的注视点。本发明方法可以有效提高用户的自由度与注视点预测的准确性。

    一种基于多模态深度学习的第一人称视角注视点预测方法

    公开(公告)号:CN118821047A

    公开(公告)日:2024-10-22

    申请号:CN202410928015.8

    申请日:2024-07-11

    Abstract: 本发明提供了一种基于多模态深度学习的第一人称视角注视点预测方法,包括:获取待预测的第一人称视角视频数据,对视频进行预处理以及提取音频操作,获得若干视频图像帧和对应计算获得的音频梅尔频谱图两种模态的训练样本;构建基于多模态深度学习的第一人称视角注视点预测模型,将所述训练样本输入所述注视点预测模型,输出第一人称视角注视点预测结果;其中,首先通过模型中的编码器提取所述训练样本的音频特征和视频特征,将所述提取的特征分别经过模型中的全局和局部融合模块进行特征融合,将所述融合特征经过模型中解码器上采样生成最终注视点预测图像。本发明方法充分利用多模态的信息互补特性,在全局和局部尺度上进行了多模态融合建模,结合多尺度编解码器设计,有效提高了第一人称视角注视点预测的准确性。

    Transformer及其改进的显式位置编码方法

    公开(公告)号:CN118095357A

    公开(公告)日:2024-05-28

    申请号:CN202410277725.9

    申请日:2024-03-12

    Abstract: 本发明公开了Transformer及其改进的显式位置编码方法,包括:步骤S1、获取原始数据;步骤S2、将所述原始数据映射为Token序列;步骤S3、基于应用场景,设计显示位置编码方式;步骤S4、通过拼接方式,对所述Token序列添加显示位置编码,获得具有位置信息的输入序列;步骤S5、将所述具有位置信息的输入序列输入至Transformer编码器/解码器中,获取显式位置编码注意力运算机制;步骤S6、基于所述显示位置编码注意力运算机制计算位置信息并融合,重复步骤S5至步骤S6直至迭代次数结束;步骤S7、获得所述显式位置编码注意力模型的推理结果。

    基于时间和运动增强的视频动作识别方法

    公开(公告)号:CN115565100A

    公开(公告)日:2023-01-03

    申请号:CN202211091323.7

    申请日:2022-09-07

    Abstract: 本发明公开了一种基于时间和运动增强的视频动作识别方法。包括步骤:设计一个多路径时间增强模块,聚合由各种激发模块激发的多路径时间信息;设计一个长短程运动增强模块,编码相邻和非相邻视频帧之间的运动特征;将多路径时间增强模块和长短程运动增强模块依次连接在一起,形成时间和运动增强模块,并将其嵌入到一个二维卷积神经网络中;在动作识别的数据集上进行参数学习,将输入的视频进行稀疏采样并获得8帧图像,然后对它们进行预处理后导入上述步骤得到的网络进行训练;在动作识别的数据集上对上述步骤得到的算法进行评估,并输出对应的测试结果。本发明有效利用了时间特征和运动信息,大大提高了动作识别的准确性和实时性。

    一种基于双流信息与稀疏表示的视频关键帧提取方法

    公开(公告)号:CN114913466A

    公开(公告)日:2022-08-16

    申请号:CN202210616931.9

    申请日:2022-06-01

    Abstract: 本发明涉及一种基于双流信息与稀疏表示的视频关键帧提取方法,包括:拆分待提取的视频文件,获得图像帧,基于图像帧,分别构建视频空间流矩阵与视频时间流矩阵;通过视频空间流矩阵与视频时间流矩阵,得到双流信息矩阵,对双流信息矩阵进行特征提取,得到双流特征矩阵;将双流特征矩阵输入到稀疏表示模型中,计算稀疏系数矩阵,基于稀疏系数矩阵,获取关键帧索引;通过关键帧索引提取所述待提取视频文件中的关键帧。本发明可以高效提取一个视频中较少的关键帧,使提取的关键帧数量减少,降低关键帧提取的压缩率,同时提高关键帧提取算法的计算速度。

    一种基于MCP稀疏表示的视频关键帧提取方法

    公开(公告)号:CN114463680A

    公开(公告)日:2022-05-10

    申请号:CN202210122460.6

    申请日:2022-02-09

    Abstract: 本发明公开一种基于MCP稀疏表示的视频关键帧提取方法,包括以下步骤:拆分视频,获得图像帧,基于所述图像帧,构建视频信号矩阵;利用MCP稀疏约束构建稀疏表示模型;将所述视频信号矩阵输入所述稀疏表示模型,利用DC编码优化所述稀疏表示模型,计算稀疏系数矩阵,基于所述稀疏系数矩阵,获取关键帧索引;基于所述关键帧索引,提取所述视频中的关键帧。本发明提高了关键帧提取算法的计算速度,同时使提取的关键帧数量减少,降低压缩率。

    一种多尺度特征金字塔网络融合ViT的手机外壳缺陷检测方法

    公开(公告)号:CN119445227A

    公开(公告)日:2025-02-14

    申请号:CN202411514557.7

    申请日:2024-10-29

    Abstract: 本发明提供了一种多尺度特征金字塔网络融合ViT的手机外壳表面缺陷检测方法,属于人工智能图像处理领域。其包括:分析手机外壳缺陷特征,确定缺陷类型;采集手机外壳图像并预处理;对图像进行像素级标注并添加标签信息,构建数据集;通过裁剪、翻转、加噪等进行数据增强,生成训练集、验证集和测试集;构建融合多尺度特征金字塔网络与ViT的缺陷检测模型;将训练集、验证集和测试集输入模型进行训练与评估,获得训练好的模型;将待检测图像输入模型,输出缺陷类型及标注缺陷位置的结果图像。本发明通过特征金字塔网络实现多尺度目标检测与语义分割,融合ViT获取全局信息和位置关联性,提高缺陷检测的准确性与定位能力。

    一种基于改进YOLOv8的钢材表面缺陷检测方法

    公开(公告)号:CN118469964A

    公开(公告)日:2024-08-09

    申请号:CN202410625096.4

    申请日:2024-05-20

    Abstract: 本发明涉及一种基于改进YOLOv8的钢材表面缺陷检测方法,包括:获取待检测钢材表面缺陷图像;构建改进的YOLOv8网络模型,其中,改进的YOLOv8网络模型利用训练集训练获得,训练集包括钢材表面缺陷图像和标注表面缺陷的标签,YOLOv8网络模型在进行下采样过程中引入动态蛇形卷积组合模块,利用BiFPN结构模块进行多尺度特征融合,基于小目标检测层增强边缘分割;将待检测钢材表面缺陷图像输入改进后的YOLOv8网络模型,获取钢材表面的缺陷检测结果。本发明旨在有效识别各种尺寸的缺陷,提高检测的准确性,并在工业环境中实现高效的实时检测。

Patent Agency Ranking