-
公开(公告)号:CN115620110B
公开(公告)日:2023-03-21
申请号:CN202211619599.8
申请日:2022-12-16
Applicant: 华南理工大学 , 广东广物互联网科技有限公司
IPC: G06V10/80 , G06V10/764 , G06V10/77 , G06V20/40 , G06V10/82 , G06N3/047 , G06N3/048 , G06N3/0464 , G10L25/30 , G10L25/51
Abstract: 本发明公开了一种视频事件定位与识别方法、装置及存储介质,其中方法包括:获取同步的视频数据和音频数据;提取视觉特征和音频特征;利用声音引导的视觉注意力机制模块和视觉引导的声音注意力机制模块进行特征增强;将增强的特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。本发明有效地建模和利用了音视频模态内和模态间的关系,实现跨模态信息互相补充,具有更强的表征能力;同时,能够有效缓解复杂视频背景和音频无关声音带来的干扰,因而事件的定位和识别的准确度更高。本发明可广泛应用于智能识别技术领域。
-
公开(公告)号:CN107957730B
公开(公告)日:2020-02-18
申请号:CN201711059466.9
申请日:2017-11-01
Applicant: 华南理工大学
IPC: G05D1/10
Abstract: 本发明公开了一种无人飞行器稳定飞行控制方法,包括如下步骤:1)获取飞行器自身的实时飞行运行数据,对飞行器的运动学问题进行相应的解析处理,建立飞行器动力学模型;2)根据获取的飞行器实时运行数据与目标姿态数据,构建偏差函数;利用多层零化神经动力学方法,构建基于偏差函数的神经动力学方程;所有参数对应的基于偏差函数的神经动力学方程,共同构成无人飞行器的控制器,控制器的微分方程解算的输出量为飞行器电机的输出控制量;3)将求解结果传递给飞行器的电机调速器控制飞行器运动。本发明基于多层零化神经动力学方法,可快速、准确、实时地逼近问题正确解,能够很好地解决时变问题。
-
公开(公告)号:CN115633956A
公开(公告)日:2023-01-24
申请号:CN202211391638.3
申请日:2022-11-08
Applicant: 华南理工大学
IPC: A61B5/107
Abstract: 本发明公开了一种婴儿身高自动测量方法、系统、装置和存储介质,其中方法包括:获取包括婴儿的图像信息以及采集图像信息的相机参数;根据彩色图像对婴儿的骨架关节点进行检测,判断检测结果是否满足预设要求,若满足,根据检测结果获取关键骨架关节点;获取关键骨架关节点的像素坐标,根据像素坐标、相机参数和深度图像获取关键骨架关节点在第一坐标系下的三维坐标;第一坐标系为以相机的光心为原点的坐标系;根据关键骨架关节点的三维坐标计算节点之间的距离,根据计算获得的距离获取婴儿的身高。本发明在确定骨架关节点的检测结果满足预设要求后,自动根据骨架关节点计算婴儿的身高,提高测量的精准度,可广泛应用于身高测量技术领域。
-
公开(公告)号:CN107957730A
公开(公告)日:2018-04-24
申请号:CN201711059466.9
申请日:2017-11-01
Applicant: 华南理工大学
IPC: G05D1/10
Abstract: 本发明公开了一种无人飞行器稳定飞行控制方法,包括如下步骤:1)获取飞行器自身的实时飞行运行数据,对飞行器的运动学问题进行相应的解析处理,建立飞行器动力学模型;2)根据获取的飞行器实时运行数据与目标姿态数据,构建偏差函数;利用多层零化神经动力学方法,构建基于偏差函数的神经动力学方程;所有参数对应的基于偏差函数的神经动力学方程,共同构成无人飞行器的控制器,控制器的微分方程解算的输出量为飞行器电机的输出控制量;3)将求解结果传递给飞行器的电机调速器控制飞行器运动。本发明基于多层零化神经动力学方法,可快速、准确、实时地逼近问题正确解,能够很好地解决时变问题。
-
公开(公告)号:CN116929359A
公开(公告)日:2023-10-24
申请号:CN202310684966.0
申请日:2023-06-09
Applicant: 华南理工大学
Abstract: 本发明公开了一种多目标导航方法、系统、装置及存储介质,涉及移动智能体对室内环境的探索与感知。其中方法包括:在预设的多目标导航策略上加入摄像头转动策略;以智能体为中心获取障碍物地图;设计启发式规则,为摄像头转动策略提供先验知识;结合启发式规则提供的转动参考方向、地图以及导航动作,利用深度神经网络预测摄像头转动参考方向;使用以探索为导向的奖励函数,对摄像头转动策略进行优化。本发明将摄像头转动策略建模为深度强化学习过程,通过训练实现摄像头转动和身体移动的协调工作,解决了被动摄像头转动策略探索效率低的问题,可以有效地提高多目标物体导航性能。
-
公开(公告)号:CN116499471B
公开(公告)日:2023-09-12
申请号:CN202310788171.4
申请日:2023-06-30
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于开放场景地图的视觉语言导航方法、装置及介质,属于智能导航技术领域。其中方法包括:获取智能体在环境中的视觉图像数据;根据视觉图像数据构建开放场景地图表征,所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图;根据构建的开放场景地图表征预测子目标点的位置及导航进度,并执行对应动作。本发明将物体属性层级信息结合开放场景物体和指令标志物的语义信息,将以上信息结合构建开放场景地图,提升该地图对开放场景中多样化物体的属性、位置的表征能力,使地图表征不局限于固定的少量物体类别,且增加的物体属性信息可帮助智能体消除物体类别歧义,准确定位感兴趣物体。
-
公开(公告)号:CN116576861A
公开(公告)日:2023-08-11
申请号:CN202310561684.1
申请日:2023-05-17
Applicant: 华南理工大学
IPC: G01C21/20
Abstract: 本发明公开了一种视觉语言导航方法、系统、装置及存储介质,其中方法包括:获取智能体在环境中的视觉图像数据;所述视觉图像数据包括RGB图像和深度图像;根据视觉图像数据构建地图表征,以及提取指令标志物;根据地图表征和指令标志物,执行弱监督指令标志物定位任务,构建指令标志物地图;预测子目标点位置及导航进度,并执行对应动作。本发明通过建立指令中相关物体与语义地图的对应关系,从而提升指令特征和地图特征的表征能力,实现两种模态的对齐和融合。本发明可广泛应用于智能导航技术领域。
-
公开(公告)号:CN116499471A
公开(公告)日:2023-07-28
申请号:CN202310788171.4
申请日:2023-06-30
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于开放场景地图的视觉语言导航方法、装置及介质,属于智能导航技术领域。其中方法包括:获取智能体在环境中的视觉图像数据;根据视觉图像数据构建开放场景地图表征,所述开放场景地图表征包括物体属性层级地图、开放场景物体语义地图和标志物语义层级地图;根据构建的开放场景地图表征预测子目标点的位置及导航进度,并执行对应动作。本发明将物体属性层级信息结合开放场景物体和指令标志物的语义信息,将以上信息结合构建开放场景地图,提升该地图对开放场景中多样化物体的属性、位置的表征能力,使地图表征不局限于固定的少量物体类别,且增加的物体属性信息可帮助智能体消除物体类别歧义,准确定位感兴趣物体。
-
公开(公告)号:CN115715671A
公开(公告)日:2023-02-28
申请号:CN202211398455.4
申请日:2022-11-08
Applicant: 华南理工大学
IPC: A61B5/0205 , A61B5/107 , A61B5/00 , G06N3/098
Abstract: 本发明公开了一种云边端协同智能婴儿护理系统及方法,其中系统包括:传感器模块,用于采集婴儿床上的图像信息和声音信息;边缘设备,用于根据采集的图像信息和声音信息进行哭声识别以及体征识别;云端设备,用于对检测模型进行训练以及更新,以及根据识别结果输出提示信息;其中,采用跨边云的协同框架来实现边缘端与云端设备之间的应用管理、外设管理、部署以及通信。本发明在边缘与云端之间进行协同,合理优化任务分配策略,拆解智能算法,利用云端强大的计算能力承担公共的计算任务,减轻边缘的计算压力,满足智能算法、算力需求。本发明可广泛应用于婴儿监护技术领域。
-
公开(公告)号:CN115620110A
公开(公告)日:2023-01-17
申请号:CN202211619599.8
申请日:2022-12-16
Applicant: 华南理工大学 , 广东广物互联网科技有限公司
IPC: G06V10/80 , G06V10/764 , G06V10/77 , G06V20/40 , G06V10/82 , G06N3/047 , G06N3/048 , G06N3/0464 , G10L25/30 , G10L25/51
Abstract: 本发明公开了一种视频事件定位与识别方法、装置及存储介质,其中方法包括:获取同步的视频数据和音频数据;提取视觉特征和音频特征;利用声音引导的视觉注意力机制模块和视觉引导的声音注意力机制模块进行特征增强;将增强的特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。本发明有效地建模和利用了音视频模态内和模态间的关系,实现跨模态信息互相补充,具有更强的表征能力;同时,能够有效缓解复杂视频背景和音频无关声音带来的干扰,因而事件的定位和识别的准确度更高。本发明可广泛应用于智能识别技术领域。
-
-
-
-
-
-
-
-
-