基于业务标签的目标检测方法、系统、介质及电子设备

    公开(公告)号:CN118172604A

    公开(公告)日:2024-06-11

    申请号:CN202410326737.6

    申请日:2024-03-21

    Abstract: 本公开提供一种基于业务标签的目标检测方法、系统、介质及电子设备,其中,基于业务标签的目标检测方法,包括:获取图像样本数据集,图像样本数据集中的样本图像标注有业务标签;对图像样本数据集中的样本图像进行聚类处理,确定样本图像的二级标签,二级标签包括业务标签和聚类标签;根据图像样本数据集中的样本图像和样本图像的二级标签对预设的目标检测网络进行模型训练,确定训练完成的目标检测网络模型;将待检测的图像输入目标检测网络模型中,确定待检测的图像的目标检测结果。通过本公开,对行业领域内具有业务标签的样本图像数据进行二级划分,提高目标检测网络的模型训练的收敛性和目标检测性能。

    VR/AR场景下人体与多物体交互动作生成方法及系统

    公开(公告)号:CN118429493A

    公开(公告)日:2024-08-02

    申请号:CN202410670268.X

    申请日:2024-05-28

    Abstract: 本发明提供一种VR/AR场景下人体与多物体交互动作生成方法及系统,包括:采集人体与多物体交互的动作捕捉数据集;基于所述动作捕捉数据集,建立并训练文本生成人与物体交互的扩散模型;使用训练好的扩散模型,以物体的几何信息,物体和人的初始姿态,描述希望生成的人与物体交互的文本为扩散条件,通过高斯扩散去噪得到对应的人体动作与物体运动序列。本发明提出3D人体与多物体进行交互的数据集,同时基于该数据集提出了一种通过文本生成人体与物体运动的扩散模型;相比于现有技术,本发明能够生成更加真实自然的人物交互动作序列,且用途更加广泛。

    基于视觉上下文的远程会议实时语音识别优化方法和系统

    公开(公告)号:CN119207406A

    公开(公告)日:2024-12-27

    申请号:CN202411313835.2

    申请日:2024-09-20

    Abstract: 本发明提供一种基于视觉上下文的远程会议实时语音识别优化方法和系统,包括:根据所述投屏画面,采集视觉上下文信息;获取语音音频并输入到语音识别模型中,获得语音识别结果;利用所述上下文信息,对所述语音识别结果进行调整。本发明在传统远程会议语音实时识别功能的基础上,通过分析当前投屏画面的文字与图像内容信息,并将这些信息融入语音识别模型中,以实现对识别概率较低或存在歧义的单词进行优化。该方法能有效降低错误识别率,解决专业领域词汇识别难题,进而提高实时语音翻译功能的整体性能。

    一种用于人人交互场景的三维人体反应生成方法与系统

    公开(公告)号:CN117934704A

    公开(公告)日:2024-04-26

    申请号:CN202311729804.0

    申请日:2023-12-15

    Abstract: 本发明公开了一种用于人人交互场景的三维人体反应生成方法与系统,涉及三维成像技术领域,主要包括步骤:通过扩散模型将动作反应方的人体反应,进行随机采样时间步长下的正向过程加噪;将条件输入和加噪后的人体反应分别由全连接层处理并拼接后获得最终表征;将随机采样时间步长和条件输入所对应的动作类别由全连接层处理并拼接,拼接结果与最终表征合并获得合并结果;将合并结果输入逆过程模型,在基于距离的双人动作表征损失函数约束,以及扩散模型损失函数对扩散模型的约束下进行训练;动作反应方人体反应的实时生成。本发明通过构建扩散模型和自注意力机制解码器结构的人体反应生成网络,获取人体实时反应结果,优化了可视化效果。

    基于条件对抗生成网络的运动序列生成方法

    公开(公告)号:CN108596149A

    公开(公告)日:2018-09-28

    申请号:CN201810441345.9

    申请日:2018-05-10

    Abstract: 本发明提供了一种基于条件对抗生成网络的运动序列生成方法,包括:获取初始运动序列图片;检测出所述初始运动序列图片对应的骨架序列图片;将所述骨架序列图片和所述初始运动序列图片对应的外观图片作为条件对抗生成网络的输入条件,以使所述条件对抗生成网络输出目标运动序列图片。本发明采用骨架序列图片和外观图片作为条件对抗生成网络的两个输入,从而能够提供给运动画面较强的结构、几何方面的约束,得到流畅清晰的运动轨迹,实现对视频序列的准确预测。

    基于行人换衣的行人重识别方法、系统、介质及电子设备

    公开(公告)号:CN118397305A

    公开(公告)日:2024-07-26

    申请号:CN202410350754.3

    申请日:2024-03-26

    Abstract: 本公开提供一种基于行人换衣的行人重识别方法、系统、介质及电子设备,其中,基于行人换衣的行人重识别方法,包括:获取图像数据集;将图像数据集中任意两张具有不同服装种类的行人图像输入预设的行人换衣模型中,确定换衣的行人图像;采用图像数据集中的具有服装的行人图像和换衣的行人图像对预设的行人识别模型进行模型训练,确定换衣行人重识别模型;将待识别行人图像输入换装行人识别模型中,确定待识别行人的身份信息。通过本公开,解耦行人换衣目标与行人识别目标,实现多目标优化,并实现在复杂背景的情况下的行人换衣,通过行人换衣进行数据增强,提高换衣行人重识别模型对换衣行人的识别性能。

    一种可驱动三维人体的生成方法及系统

    公开(公告)号:CN118314253A

    公开(公告)日:2024-07-09

    申请号:CN202410349788.0

    申请日:2024-03-26

    Abstract: 本公开提供一种可驱动三维人体的生成方法及系统,可驱动三维人体的生成方法包括:获取人体的第一隐码和第二隐码;将第一隐码输入基于样式的生成对抗网络中,确定三平面表征;将预设的人体参数输入蒙皮多人线性模型,对输出的三维人体网格数据进行采样处理,确定采样点;根据三平面表征和采样点,确定三维人体点云表征;将局部特征信息、第一隐码、第二隐码、三维人体点云表征的坐标输入预训练的外貌预测神经网络,确定外貌属性;根据三维人体点云表征和外貌属性,确定可驱动三维人体。通过本公开,采用神经点云人体表征方式,实现高分辨率渲染的可驱动三维人体,并实现自动化批量生产,降低生产成本。

    具有高泛化能力的行人搜索方法、系统、终端及介质

    公开(公告)号:CN117612211A

    公开(公告)日:2024-02-27

    申请号:CN202311674817.2

    申请日:2023-12-07

    Abstract: 本发明提供了一种具有高泛化能力的行人搜索方法及系统,包括:对行人搜索基础模型进行训练,获得具有高泛化能力的行人搜索模型;将待检索图像输入行人搜索模型,得到跨境场景下的目标行人;其中:在一次训练迭代中,计算行人搜索基础模型的检测分支的分类和回归损失函数以及行人搜索基础模型的识别分支的OIM损失和triplet损失函数,自动分配权重并反向传播后,对行人搜索基础模型的特征参数进行更新;重复训练过程,直至完成对行人搜索基础模型的训练过程,获得具有高泛化能力的行人搜索模型。本发明能够以较高的性能泛化至全新的行人搜索场景上;可以在任意新场景下不经过采集训练数据和重新训练,而直接推理,并取得可观的性能。

    基于掩膜的有遮挡人脸识别方法

    公开(公告)号:CN105095856A

    公开(公告)日:2015-11-25

    申请号:CN201510363022.9

    申请日:2015-06-26

    CPC classification number: G06K9/00288 G06K9/00268

    Abstract: 本发明公开一种基于掩膜的遮挡人脸识别方法,该方法包括以下步骤:第一步、训练过程,根据样本数据,训练PLDA人脸分类模型MDL;第二步、训练过程,根据样本数据,训练遮挡检测模型;第三步、识别过程,对待识别数据根据遮挡检测模型检测遮挡类型,依据相应的PLDA人脸分类模型MDL,进行人脸识别。本发明利用了人脸遮挡检测算法,使用掩膜覆盖遮挡物,形成新的人脸子空间。针对不同的遮挡,在不同的人脸子空间中训练PLDA分类器,最后通过人脸比对计算样本对的相似度。本发明是一种能提高有遮挡情况下人脸识别率的方法,通过添加掩膜充分利用不同的人脸子空间,提高人脸识别准确率。

Patent Agency Ranking