一种基于层级多视角的自监督动作识别方法及装置

    公开(公告)号:CN115147676A

    公开(公告)日:2022-10-04

    申请号:CN202210724589.4

    申请日:2022-06-23

    Abstract: 本发明公开了一种基于层级多视角的自监督动作识别方法及装置,该方法包括:先是对比学习的预训练阶段,原始数据通过数据增强和重组分别通过key编码器和query编码器提取特征构造正负样本。特征提取时通过视角生成模块得到不同尺度的子视角,分别通过Transformer编码、聚合、拼接后得到时间特征、空间特征以及两者的组合:时空特征。时空特征通过对比损失达到拉近正样本、推远负样本的目标以获取特征表示能力。通过时间特征和空间特征间的一致性损失拉近不同视角间的特征距离。本发明是骨架动作识别领域一种新颖的层级化视角的建模方法,可以深入挖掘不同视角间的互补信息,能够实现比现有方法性能更好的骨架动作识别。

    一种基于视觉和音频内容相关度挖掘的视频推荐方法

    公开(公告)号:CN111274440B

    公开(公告)日:2022-03-25

    申请号:CN202010060686.9

    申请日:2020-01-19

    Abstract: 本发明公开了一种基于视觉和音频内容相关度挖掘的视频推荐方法,该方法通过分析视频的视觉和音频内容挖掘视频之间的相关度。考虑现有的视频特征表示不是专门针对推荐任务设定的,本发明提出级联多特征融合映射网络对现有视频特征进行映射,并通过负样本增强三元损失函数训练模型,最终得到更适合视频推荐任务的二级特征表示,从而更好的衡量视频之间的相关度。为了充分挖掘视频的内容特征,本发明还提出特征交叉门控融合模块有效地对视频视觉和音频特征进行融合,该模块通过类似注意力机制衡量不同特征之间的交互作用,通过权重来加强特征中的重要信息,剔除冗余信息。本发明方法可以有效地解决视频的冷启动问题,并能够有效提高视频推荐性能。

    一种剧场环境下基于近红外防伪油墨的演员身份重识别方法

    公开(公告)号:CN113920164A

    公开(公告)日:2022-01-11

    申请号:CN202111252678.5

    申请日:2021-10-27

    Abstract: 本发明公开了一种剧场环境下基于近红外防伪油墨的演员身份重识别方法。该方法通过近红外相机获取彩色相机中不可见的近红外防伪油墨标记,然后将图像送入训练好的检测器与分类器中,最终实现对舞台上表观相似演员跟踪时的身份重识别。本方法用仅近红外相机可见的近红外防伪油墨标记替代已有的演员表观信息或传感器作为区分演员身份的关键特征,具有以下优势:极大程度减少了舞台复杂光照对演员跟踪过程中身份识别稳定性的干扰,以及通过引入特有近红外防伪油墨标记信息解决了演员表观相似所带来的跟踪困难问题。与基于传感器的身份识别方法相比,该方法成本低,操作性强,在舞台演出中具有普遍的适用性。

    基于位姿融合优化的室内地图构建方法、系统及存储介质

    公开(公告)号:CN113674412B

    公开(公告)日:2023-08-29

    申请号:CN202110924699.0

    申请日:2021-08-12

    Abstract: 本发明提供一种基于位姿融合优化的室内地图构建方法、系统及存储介质,所述方法包括:根据KINECT和IMU获取的实时数据解算机器人的位姿数据;根据IMU的线加速度数据和里程计数据判断机器人的当前运动状态;若机器人处于静止状态,则采用扩展卡尔曼滤波算法对所述位姿数据进行融合处理,若机器人处于运动状态,则采用动态加权方法对所述位姿数据进行融合处理;根据融合处理结果构建室内地图。该方法具有更高的位姿估计精度、更高的二维地图建模精度以及更优的建模效果,能够应用于贫特征、高动态、弱光影的场景中。

    一种基于CNN-Transformer双流网络的细粒度服饰检索方法

    公开(公告)号:CN115410067A

    公开(公告)日:2022-11-29

    申请号:CN202211014352.3

    申请日:2022-08-23

    Abstract: 本发明公开了一种基于CNN‑Transformer双流网络的细粒度服饰检索方法,该方法包括:首先将图像输入到CNN网络中提取特征;将服饰属性映射为特征向量,然后引导注意力模块提取与属性相关的粗粒度图像特征,其中生成的注意力矩阵用于定位图像中与属性相关的局部区域;将图像中的局部区域以及服饰属性输入到Transformer网络中提取细粒度图像特征;最后将两分支的特征进行融合,得到服饰图像的鲁棒性表达并使用相似性计算进行服饰检索;在原始Transformer的基础上引入Dilated‑Transformer变体,减少模型计算量,加快训练和推理速度。本发明使用新颖的CNN‑Transformer双流结构,利用两种网络结构的互补性对服饰图像进行由粗到精的特征表示,最终融合粗粒度和细粒度的特征以实现较高性能的检索。

    一种面向剧场环境的多演员目标跟踪方法

    公开(公告)号:CN111882586B

    公开(公告)日:2022-09-13

    申请号:CN202010583994.X

    申请日:2020-06-23

    Abstract: 本发明公开了一种面向剧场环境的多演员目标跟踪方法。该方法首先构建并训练目标分类器,以对具有相似特征的演员进行分类;然后将视频帧送入目标检测器中,得到各个演员的检测框;将检测框送入训练好的目标分类器中进行演员ID预测;最后联合目标分类器预测得到的演员ID与轨迹关联算法形成多演员的跟踪轨迹。本发明在数据关联与轨迹初始化上加入目标类别预测,一定程度上解决了演员ID变化问题;在目标分类器上引入了三元组损失和交叉熵损失相结合的损失函数,增加了分类器对演员表观特征的辨识度;在预处理阶段引入了模板匹配和距离度量的方法,一定程度上解决了剧场、舞台等复杂光照环境对演员识别跟踪的影响,提高了检测、跟踪算法的准确率。

    一种基于加速Transformer模型的视频分类方法

    公开(公告)号:CN114048818A

    公开(公告)日:2022-02-15

    申请号:CN202111358049.0

    申请日:2021-11-16

    Abstract: 本发明公开了一种基于加速Transformer模型的视频分类方法,该方法包括:首先对原始视频进行预处理得到一个视频特征序列,在序列的位首添加分类token向量;将特征长序列输入到加速Transformer模型中,最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列,使用原始Transformer模型将耗费巨大的计算成本,因此本发明设计了一种加速Transformer模型,使用泰勒一阶展开公式对Softmax函数进行展开,得到一个逼近于Softmax的线性函数,运用此线性函数进行输入元素之间的注意力权值计算,利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度,从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题,使得Transformer模型更适用于视频分类任务。

    一种基于视觉和音频内容相关度挖掘的视频推荐方法

    公开(公告)号:CN111274440A

    公开(公告)日:2020-06-12

    申请号:CN202010060686.9

    申请日:2020-01-19

    Abstract: 本发明公开了一种基于视觉和音频内容相关度挖掘的视频推荐方法,该方法通过分析视频的视觉和音频内容挖掘视频之间的相关度。考虑现有的视频特征表示不是专门针对推荐任务设定的,本发明提出级联多特征融合映射网络对现有视频特征进行映射,并通过负样本增强三元损失函数训练模型,最终得到更适合视频推荐任务的二级特征表示,从而更好的衡量视频之间的相关度。为了充分挖掘视频的内容特征,本发明还提出特征交叉门控融合模块有效地对视频视觉和音频特征进行融合,该模块通过类似注意力机制衡量不同特征之间的交互作用,通过权重来加强特征中的重要信息,剔除冗余信息。本发明方法可以有效地解决视频的冷启动问题,并能够有效提高视频推荐性能。

Patent Agency Ranking