-
公开(公告)号:CN115810209A
公开(公告)日:2023-03-17
申请号:CN202211491204.0
申请日:2022-11-25
Applicant: 之江实验室
Abstract: 一种基于多模态特征融合的说话人识别方法,包括:获取包含图像序列等多模态序列信息;获取人脸图像序列信息;获取人脸图像序列对应的其他模态信息序列;建立多模态特征融合网络,将所述人脸多模态序列信息作为训练集,训练所述多模态特征融合网络;将待识别人脸多模态序列信息输入所述多模态特征融合网络,得到当前人说话状态。本发明还包括一种基于多模态特征融合的说话人识别装置。本发明能够融合不同模态的特征,丰富所提取特征的信息量,提升说话人识别准确度。
-
公开(公告)号:CN115376187A
公开(公告)日:2022-11-22
申请号:CN202210966740.5
申请日:2022-08-12
Applicant: 之江实验室
Abstract: 本发明属于计算机技术领域,公开了一种多人机交互场景下说话对象检测装置及方法,包括音频视频采集模块、文本生成模块、人脸检测跟踪模块、说话人特征提取检测模块、说话对象特征提取检测模块;本发明实时地采集带时间戳的彩色图像和带时间戳的音频信息;实时地通过音频帧数据进行语音识别,生成带有词语级、句子级、对话主题级等不同层级的时间戳的文本信息,并在连续的图像帧中识别跟踪同一个人物;通过人脸序列数据信息与音频帧数据信息识别人群中的说话者;通过检测到的说话人物信息、音频帧数据信息、文本数据信息、场景数据信息,检测说话者的说话对象是否是机器人。提升了机器人的人机交互过程中对交互的理解能力与人机交互体验。
-
公开(公告)号:CN117863175A
公开(公告)日:2024-04-12
申请号:CN202311793745.3
申请日:2023-12-25
Applicant: 之江实验室
Abstract: 本发明公开了一种弹琴机器人离线评优系统及方法,首先通过一组三套麦克风系统进行数据采集和筛选,进而通过模式选择器选择曲符、曲片段或者曲全谱作为特征提取模块的输入,特征提取模块对数据进行提取并转化为时频谱图,进而做时频灰度化、生成灰度共生矩阵、提取特征参数,将待测特征参数导入等级筛选模块与标准曲谱的特征参数进行对比,等级筛选器按照偏差百分比进行等级划分,最后输出待测曲谱的等级标准。本发明方法原理简单,等级筛选的准确度高,可以有效地对弹琴机器人的演奏进行客观评价,提高评价的效率和准确性。
-
公开(公告)号:CN117853649A
公开(公告)日:2024-04-09
申请号:CN202311624789.3
申请日:2023-11-30
Applicant: 之江实验室
Abstract: 本发明公开了一种基于SFM和渲染技术的图像‑位姿数据库生成方法及装置,该方法包括:使用图像采集设备采集多组图像,并进行三维重建,获取图像的位姿;采用图像渲染方法对图像位姿进行迭代优化,生成三维模型的渲染图像,获取真实图像和渲染图像的匹配结果以及真实图像和三维模型的匹配结果,进行PnP算法位姿求解得到优化位姿;构建图像‑位姿数据库。本发明仅使用普通相机和软件算法层面的三维重建和渲染技术,实现了低成本全自动构建高精度的采集图像‑位姿数据库;可用于视觉定位算法的运行和评估,对机器人、自动驾驶等领域具有重要意义;降低了硬件成本和人力资源投入,为视觉定位算法研究和应用提供了有力支持。
-
公开(公告)号:CN117011924B
公开(公告)日:2024-02-13
申请号:CN202311278365.6
申请日:2023-10-07
Applicant: 之江实验室
Abstract: 一种基于语音和图像的说话人数目估计方法和系统,其方法包括:获取图像数据和麦克风阵列数据;检测图像中人脸数量;根据人脸数量生成one‑hot向量;使用麦克风阵列数据计算频域谱;将频域信号输入到噪声估计神经网络中估计噪声嵌入空间中的噪声向量;将噪声向量和频域信号输入到神经网络中估计人声嵌入空间的人声向量;将人脸数量的one‑hot向量和人声向量融合成一个混合向量;将混合向量通过多层全连接层;将全连接层结果输出到说话人数嵌入空间估计说话人数向量;将说话人数向量输入到softmax分类器中,估计出说话人个数。本发明提升了噪声环境下说话人数目估计的准确性和抗
-
公开(公告)号:CN117226854B
公开(公告)日:2024-02-02
申请号:CN202311505956.2
申请日:2023-11-13
Applicant: 之江实验室
Abstract: 本说明书公开了一种夹取任务的执行方法、装置、存储介质及电子设备。所述方法包括:获取包含有目标物的图像数据,并确定目标物对应的轮廓信息以及目标物所处环境的环境信息;根据轮廓信息,确定目标物中包含的每个部件所对应的位姿信息、形体信息以及语义信息;根据环境信息、位姿信息、形体信息、语义信息以及每种夹取姿态对应的预设夹取姿态信息,确定通过不同夹取姿态夹取目标物中每种部件时的夹取损失值;根据夹取损失值,在各夹取姿态中确定出目标夹取姿态,以及在目标物的各部件中确定出目标部件,并按照目标夹取姿态执行针对目标部件的夹取任务。
-
公开(公告)号:CN117351935A
公开(公告)日:2024-01-05
申请号:CN202311444418.7
申请日:2023-11-01
Applicant: 之江实验室
IPC: G10L13/047 , G10L13/08 , H04L67/06
Abstract: 本申请涉及一种机器人的语音合成方法、装置和机器人系统,其中,该机器人的语音合成方法包括:从语音合成服务器中下载分句集合中当前分句的语音合成结果;其中,分句集合为预先基于预设的分句规则对待合成文本进行分句得到;在播放当前分句的语音合成结果的同时,判断语音合成服务器是否完成分句集合中下一条分句的语音合成,若是,则从语音合成服务器中下载下一条分句的语音合成结果。通过本申请,能够实现语音文本的合成、下载以及播放的并行执行,从而降低了播放之前等待语音文本合成和下载的时长,进而提高了机器人语音播放的效率。
-
公开(公告)号:CN116728419B
公开(公告)日:2023-12-22
申请号:CN202310996252.3
申请日:2023-08-09
Applicant: 之江实验室
Abstract: 本发明公开了一种弹琴机器人的连续弹琴动作规划方法、系统、设备及介质,包括:解析乐谱获取演奏信息;获取弹琴机器人的左/右机械臂末端在琴键上的覆盖范围;对琴键进行分区,基于分区分配每个音符对应的执行手臂;根据左/右机械臂分别对应的音符序列,以机械臂末端的移动距离总和最小为优化目标,规划每个音符对应的执行手指,得到左/右机械臂上每个手指对应的手指动作序列;根据手指的动作序列和手指的活动范围,得到每个音符起止时刻的左/右机械臂末端演奏序列;将每个音符起止时刻的左/右机械臂末端演奏序列在时间上进行连续插值,获得整个演奏序列的左/右机机械臂末端的移动轨迹和手指动作轨迹序列。
-
公开(公告)号:CN116728419A
公开(公告)日:2023-09-12
申请号:CN202310996252.3
申请日:2023-08-09
Applicant: 之江实验室
Abstract: 本发明公开了一种弹琴机器人的连续弹琴动作规划方法、系统、设备及介质,包括:解析乐谱获取演奏信息;获取弹琴机器人的左/右机械臂末端在琴键上的覆盖范围;对琴键进行分区,基于分区分配每个音符对应的执行手臂;根据左/右机械臂分别对应的音符序列,以机械臂末端的移动距离总和最小为优化目标,规划每个音符对应的执行手指,得到左/右机械臂上每个手指对应的手指动作序列;根据手指的动作序列和手指的活动范围,得到每个音符起止时刻的左/右机械臂末端演奏序列;将每个音符起止时刻的左/右机械臂末端演奏序列在时间上进行连续插值,获得整个演奏序列的左/右机机械臂末端的移动轨迹和手指动作轨迹序列。
-
公开(公告)号:CN116394277B
公开(公告)日:2023-08-25
申请号:CN202310676079.9
申请日:2023-06-08
Applicant: 之江实验室
Abstract: 本说明书公开了一种仿人钢琴演奏机器人,仿人钢琴演奏机器人可以包括手爪、手臂、腰部、颈部、腿部、控制系统以及底座,其中,颈部对应两个自由度,以带动头部进行回转运动与俯仰运动,腰部对应两个自由度,以带动上半身进行回转运动与俯仰运动,该仿人钢琴演奏机器人可以通过视觉感知单元,对琴键的位置进行准确定位,并且可以智能化的识别出曲谱的内容,以及自动化地按照曲谱进行钢琴演奏。通过腰部、头部的两个自由度,以及对两个机械臂位姿的控制,使得本说明书中的钢琴演奏机器人可以灵巧并智能化的弹奏钢琴。
-
-
-
-
-
-
-
-
-