-
公开(公告)号:CN116309207A
公开(公告)日:2023-06-23
申请号:CN202211106968.3
申请日:2022-09-09
Applicant: 之江实验室
Abstract: 本发明涉及图像处理技术领域,尤其是涉及一种基于多维模展开张量与t‑SVD的图像重构方法和装置,该方法包括:步骤一,获取待修复图像,构建低秩张量补全模型;步骤二,通过两段t‑SVD约束对所述低秩张量补全模型进行优化,得到基于多维度模展开张量与两段t‑SVD的张量补全模型,后输入待修复图像;步骤三,通过交替方向乘子法优化张量补全模型,利用优化后的张量补全模型迭代输出修复的图像。本发明对高阶图像数据丢失进行修复的过程中,通过输入图像得到不同维度的模展开张量,并联合两段t‑SVD约束将其整合到统一的目标函数,构建修复模型,使整体图像修复更加精准。
-
公开(公告)号:CN115620356A
公开(公告)日:2023-01-17
申请号:CN202211019716.7
申请日:2022-08-24
Applicant: 之江实验室
IPC: G06V40/16 , G06V40/20 , G06V20/40 , G06V10/82 , G06F18/25 , G06N3/0464 , G06N3/047 , G06N3/08 , G10L15/02 , G10L15/06 , G10L15/16 , G10L15/22 , G10L25/03 , G10L25/24
Abstract: 本发明属于视听处理、机器学习技术领域,公开了一种基于音频和面部输入的受话方检测框架和方法,前端包括音频流编码器和视频流编码器;后端包括交叉注意力模块;双线性融合模块以及自注意力模块;本发明框架输入可变长度的音频和面部区域信息,并通过联合分析音频和面部特征,预测每帧中的受话方。它使用在人对人和人对机器人混合设置中记录的数据集。因此,所述框架可应用并适用于机器人,以区分机器人是否为受话方。使得机器人具有智能视听感知能力,提高了机器人智能化程度。
-
公开(公告)号:CN115546254A
公开(公告)日:2022-12-30
申请号:CN202211398601.3
申请日:2022-11-09
Applicant: 之江实验室
Abstract: 本发明公开了一种双进程多目标跟踪方法,包括在主进程中运行的主线跟踪器和在子进程中运行的辅线修正器两条分支,所述主线跟踪器分支使用高速低精度模型进行多目标跟踪,所述辅线修正器分支使用低速高精度模型对所述主线跟踪器进行修正。所述两条分支的结果通过融合器融合后得到最终的多目标跟踪结果。本发明能够在不降低所述主线跟踪器跟踪速度的同时,提升其跟踪精度。
-
公开(公告)号:CN114819110B
公开(公告)日:2022-10-21
申请号:CN202210717252.0
申请日:2022-06-23
Applicant: 之江实验室
IPC: G06N3/04 , G06V20/40 , G06V40/16 , G06V10/774 , G06V10/82
Abstract: 本发明公开了一种实时识别视频中说话人的方法及装置,该方法包括:获取同一时刻开始且连续的图像序列和音频序列;根据所述图像序列中最新一帧的图像,检测并跟踪人脸,更新已有的人脸序列信息库;将所述人脸序列信息库中的人脸序列信息和所述音频序列输入训练好的说话人检测网络中,检测说话状态,更新说话状态数据库;根据所述说话状态数据库,获取所有人的当前状态,从而识别视频中的可能的说话人。
-
公开(公告)号:CN116246344A
公开(公告)日:2023-06-09
申请号:CN202310190451.5
申请日:2023-02-24
Applicant: 之江实验室
Abstract: 本申请涉及一种手势识别方法、电子装置、手势识别系统和存储介质,通过根据目标对象的三维姿态信息,构建目标对象的左右两侧躯干中至少其中一侧躯干的投影平面,以及确定左右两手中至少其中一只手的指向向量;确定第一手的指向向量与第一躯干的投影平面之间的空间位置关系,第一手为左右两手中最靠近第一躯干的手;根据空间位置关系确定第一手是否处于指向状态,解决了相关技术中无法准确区分左右手指向手势的问题,实现了独立并行地识别左右手指向手势。
-
公开(公告)号:CN115861387A
公开(公告)日:2023-03-28
申请号:CN202211599044.1
申请日:2022-12-14
Applicant: 之江实验室
Abstract: 本申请涉及一种机器人目标跟踪方法、装置、机器人及存储介质,该方法包括:对第一图像和第二图像进行目标检测,得到至少一个第一对象和至少一个第二对象;第一图像基于第一相机采集,第二图像基于第二相机采集,第二相机的视野范围大于第一相机的视野范围,且与第一相机的视野范围存在交叠;提取各第一对象、第二对象在第一图像、第二图像中的图像特征和位置特征;基于图像特征和位置特征确定第一对象和第二对象中处于交叠视野范围内的目标对象;将目标对象所对应的图像特征融合后得到第三图像特征,基于第三图像特征跟踪目标对象,扩展了目标对象的跟踪视野,解决了相关技术中存在的机器人难以实现对被跟踪目标整体运动过程跟踪的问题。
-
公开(公告)号:CN115830633A
公开(公告)日:2023-03-21
申请号:CN202211484307.4
申请日:2022-11-24
Applicant: 之江实验室
IPC: G06V40/10 , G06V10/40 , G06V10/74 , G06V10/764 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 一种基于多任务学习残差神经网络的行人重识别方法,包括:从公开数据集中获取场景的图片与行人的信息,根据标注的人物位置信息,生成人物的裁剪图与对应人物的身份信息;构建多任务学习残差神经网络;构建“分类‑检索‑二元分类”联合损失函数;基于数据集训练好多任务学习残差神经网络和“分类‑检索‑二元分类”联合损失函数;基于待识别的人物裁剪图,经过训练好的多任务学习残差神经网络获得人物视觉特征向量;基于人物视觉特征向量,经过特征匹配算法,得到人物在人物库中对应的人物信息。本发明还包括一种基于多任务学习残差神经网络的行人重识别系统。本发明解决了由于非结构环境下,人物遮挡、衣服相似的行人重识别的问题。
-
-
-
-
-
-