基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统

    公开(公告)号:CN116258931B

    公开(公告)日:2023-09-15

    申请号:CN202211611986.7

    申请日:2022-12-14

    Abstract: 基于ViT和滑窗注意力融合的视觉指代表达理解方法,包括:获取训练图像和对应的指代表达文本;对图像和指代表达文本进行预处理;构建基于ViT和滑窗注意力融合策略的视觉指代网络;输入训练的图像及对应的指代表达文本,对视觉指代网络进行训练;将测试图像及描述图像中感兴趣目标的指代表达文本,输入到训练好的视觉指代网络模型,获得视觉指代表达理解的结果。本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统。本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征,大大降低了模型的计算量和推理时间,同时视觉指代表达理解能够帮助机器人对人的意图进行理解,从而提高人机交互的能力。

    一种共时与跨域异步融合驱动的行为识别方法

    公开(公告)号:CN115761885B

    公开(公告)日:2023-08-29

    申请号:CN202211433310.3

    申请日:2022-11-16

    Abstract: 一种共时与跨域异步融合驱动的行为识别方法,包括:获取多人人体彩色图像作为图像序列;从截取图像中估计二维人体姿态,计算二维人体姿态的关键点热图作为姿态序列;建立表观网络,以图像序列作为输入并提取图像特征;同时,建立姿态网络,以姿态序列作为输入并提取姿态特征;以图像特征和姿态特征作为输入,将图像特征和姿态特征进行缩放、对齐和融合;将融合后的图像特征和姿态特征归一化,拼接归一化后的双流特征得到全局特征,输入到分类器中求解概率最大的行为类别;采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集,对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。

    基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统

    公开(公告)号:CN116258931A

    公开(公告)日:2023-06-13

    申请号:CN202211611986.7

    申请日:2022-12-14

    Abstract: 基于ViT和滑窗注意力融合的视觉指代表达理解方法,包括:获取训练图像和对应的指代表达文本;对图像和指代表达文本进行预处理;构建基于ViT和滑窗注意力融合策略的视觉指代网络;输入训练的图像及对应的指代表达文本,对视觉指代网络进行训练;将测试图像及描述图像中感兴趣目标的指代表达文本,输入到训练好的视觉指代网络模型,获得视觉指代表达理解的结果。本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统。本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征,大大降低了模型的计算量和推理时间,同时视觉指代表达理解能够帮助机器人对人的意图进行理解,从而提高人机交互的能力。

    一种语境知识引导的视觉关系检测方法和装置

    公开(公告)号:CN116091413A

    公开(公告)日:2023-05-09

    申请号:CN202211585880.4

    申请日:2022-12-09

    Abstract: 本发明公开了一种语境知识引导的视觉关系检测方法和装置,包括:获取场景图像,确定场景图像中物体对的语义向量和语境向量,从场景图像中提取包含物体对的局部图像并确定物体对的位置掩码;利用语境知识生成模块根据物体对的语境向量提取物体对的语境知识,利用视觉特征提取模块根据局部图像和物体对的位置掩码提取物体对的视觉特征,利用语义特征提取模块根据物体对的语义向量提取物体对的语义特征,利用视觉关系检测模块根据物体对的视觉特征和语义特征计算物体对的视觉预测结果,利用综合判断模块依据视觉预测结果与物体对的语境知识综合判断得到语境知识引导的物体对的视觉关系。该方法和装置通过语境知识引导提升视觉关系检测的准确性。

    一种基于情感分类的视频情感定位方法

    公开(公告)号:CN115761569A

    公开(公告)日:2023-03-07

    申请号:CN202211288216.3

    申请日:2022-10-20

    Abstract: 一种基于情感分类的视频情感定位方法,包括:通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征,使用视觉transformer算法获取情感类别;判断各帧之间情感类别关系,删除误检或者异常结果;将相同表情识别结果,且时序距离较近作为视频中情感定位候选片段;基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。本发明能够改善定位片段预设鲁棒性不佳的缺点,保证情感分类准确性的同时提升视频情感定位速率。

    一种基于情感分类的视频情感定位方法

    公开(公告)号:CN115761569B

    公开(公告)日:2023-07-04

    申请号:CN202211288216.3

    申请日:2022-10-20

    Abstract: 一种基于情感分类的视频情感定位方法,包括:通过人脸识别模型进行视频预处理,将人脸识别的检测结果作为情感定位网络训练集;建立情感定位网络,使用卷积神经网络提取图像局部特征,建立多分支图像特征,使用视觉transformer算法获取情感类别;判断各帧之间情感类别关系,删除误检或者异常结果;将相同表情识别结果,且时序距离较近作为视频中情感定位候选片段;基于情感类别获取的情感定位片段,获取视频候选片段特征,过滤判断错误候选片段;输出模型对视频情感定位结果,具体包括情感片段首尾时间及对应情感类别。本发明能够改善定位片段预设鲁棒性不佳的缺点,保证情感分类准确性的同时提升视频情感定位速率。

    手势识别方法、电子装置、手势识别系统和存储介质

    公开(公告)号:CN116246344A

    公开(公告)日:2023-06-09

    申请号:CN202310190451.5

    申请日:2023-02-24

    Abstract: 本申请涉及一种手势识别方法、电子装置、手势识别系统和存储介质,通过根据目标对象的三维姿态信息,构建目标对象的左右两侧躯干中至少其中一侧躯干的投影平面,以及确定左右两手中至少其中一只手的指向向量;确定第一手的指向向量与第一躯干的投影平面之间的空间位置关系,第一手为左右两手中最靠近第一躯干的手;根据空间位置关系确定第一手是否处于指向状态,解决了相关技术中无法准确区分左右手指向手势的问题,实现了独立并行地识别左右手指向手势。

    一种共时与跨域异步融合驱动的行为识别方法

    公开(公告)号:CN115761885A

    公开(公告)日:2023-03-07

    申请号:CN202211433310.3

    申请日:2022-11-16

    Abstract: 一种共时与跨域异步融合驱动的行为识别方法,包括:获取多人人体彩色图像作为图像序列;从截取图像中估计二维人体姿态,计算二维人体姿态的关键点热图作为姿态序列;建立表观网络,以图像序列作为输入并提取图像特征;同时,建立姿态网络,以姿态序列作为输入并提取姿态特征;以图像特征和姿态特征作为输入,将图像特征和姿态特征进行缩放、对齐和融合;将融合后的图像特征和姿态特征归一化,拼接归一化后的双流特征得到全局特征,输入到分类器中求解概率最大的行为类别;采集多人人体彩色图像序列、二维人体姿态及其对应的类别标签作为训练数据集,对表观网络、姿态网络、共时缩放单元和跨域融合单元进行预训练优化。

    基于双向RGB-D特征融合的物体姿态估计方法及装置

    公开(公告)号:CN115578461A

    公开(公告)日:2023-01-06

    申请号:CN202211419607.4

    申请日:2022-11-14

    Abstract: 本发明公开了一种基于双向RGB‑D特征融合的物体姿态估计方法及装置,该方法的核心创新点为特征双向融合模块,通过将RGB与点云特征投影到标准空间以实现对齐,互补和相互增强的作用,提升了最终RGB‑D特征的显著性与代表性。此外,本发明还创新性地引入了感兴趣区域检测,特征恒等映射与残差融合,多任务协同训练,关键点投票与聚类,最小二乘法姿态解算等关键方法,极大改善了传统物体六自由度姿态估计中存在的抗干扰能力弱,精度不足等痛点问题。经多个实际场景测试,本发明可在杂乱环境下,高鲁棒性和高精度地实现对遮挡物体的六自由度姿态估计。

Patent Agency Ranking