-
公开(公告)号:CN115294265A
公开(公告)日:2022-11-04
申请号:CN202210740281.9
申请日:2022-06-27
Applicant: 北京大学深圳研究生院
Abstract: 本发明涉及一种基于图骨架注意力利用二维人体姿态重建三维人体网格的方法和系统。该方法的步骤包括:1)关节特征化,将输入的二维关节线性映射为高维特征向量;2)关节特征学习,通过Skeletal MHA获得人体拓扑结构信息,同时GCN强化局部信息交互能力,使得训练后的模型能够学习人体的全局和局部的特征,更好地适用于人体重建任务;3)进行网格顶点的回归,再加到基于人体模型提供的网格模板上,得到三维人体网格输出。本发明通过引入人体结构的先验信息,结合Transformer的全局感知能力和GCN的局部聚合与传递功能,使得GSAT网络能够在全局和局部水平进行学习,从而重建出更加准确的三维人体网格。
-
公开(公告)号:CN114611546A
公开(公告)日:2022-06-10
申请号:CN202210137621.9
申请日:2022-02-15
Applicant: 北京大学深圳研究生院
Abstract: 本发明涉及一种基于空间和频谱时序信息建模的多移动声源定位方法和系统。本发明将直达路径相位差和声源活跃程度信息以加权求和的方式编码到学习目标中,从而指导网络学习具有竞争性和时变性的多移动声源的直达路径相位差特征,避免了多目标回归框架面临的分配歧义以及输出维度不确定问题;通过迭代地检测和定位主导声源来确定多移动声源的位置,降低了多声源之间的相互影响;引入频谱特征提取网络,建立了声源位置与声源身份之间的关联,通过对空间和频谱的时序信息进行建模实现了可靠的多移动声源跟踪。
-
公开(公告)号:CN113297948A
公开(公告)日:2021-08-24
申请号:CN202110550672.X
申请日:2021-05-19
Applicant: 北京大学深圳研究生院 , 鹏城实验室
Abstract: 本发明公开了一种目标检测方法,包括以下步骤:获取图像采集装置采集的图像数据;将残差网络各个阶段提取的特征作为预设的递归特征金字塔模型的输入;获取所述预设的递归特征金字塔模型以所述特征为输入时的反馈信息,并根据所述反馈信息修正所述残差网络。本发明还公开了一种终端设备及计算机可读存储介质,达成了提高目标识别模型的鲁棒性的效果。
-
公开(公告)号:CN108986832B
公开(公告)日:2020-12-15
申请号:CN201810765266.3
申请日:2018-07-12
Applicant: 北京大学深圳研究生院
IPC: G10L21/0208 , G10L21/0216 , G10L21/0232
Abstract: 本发明公开一种基于语音出现概率和一致性的双耳语音去混响方法和装置。该方法包括:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音信号;2)进行加窗分帧处理,并通过傅里叶变换使语音信号从时域变换到频域;3)基于语音出现概率估计低频段部分的混响功率谱;4)计算语音信号的不同信号分量的一致性;5)基于一致性估计高频段部分的混响功率谱;6)根据高低频段的划分阈值对结合高低频的混响功率谱进行估计;7)利用递归平滑算法计算得到最终的混响功率谱;8)通过增益函数得到去混响后的频域信号;9)利用短时傅立叶逆变换得到去混响后的时域信号。本发明能够有效去除整个频带上的混响,提高语音感知质量。
-
公开(公告)号:CN107019901B
公开(公告)日:2020-10-20
申请号:CN201710208525.8
申请日:2017-03-31
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于图像识别及自动化控制的棋牌类游戏自动博弈机器人的建立方法。该方法包括:基于图像识别技术自动识别游戏场景;对每一个游戏场景执行相应操作,进入游戏对战博弈场景;识别当前游戏参与人的行动序列和当前游戏信息;将识别的信息传入人工智能计算系统,由人工智能计算系统给出应对策略;采用自动化操作技术根据人工智能计算系统给出的应对策略进行自动化操作。本发明使得机器博弈系统与人类玩家的大规模测试成为可能,为人工智能领域开展与人类玩家的博弈问题研究提供了新的对战测试方法、大规模实验方法及数据库数据积累方法。
-
公开(公告)号:CN110517705A
公开(公告)日:2019-11-29
申请号:CN201910808413.5
申请日:2019-08-29
Applicant: 北京大学深圳研究生院
Abstract: 本发明公开了一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统,首先对双耳声音信号提取双耳能量差和互相关函数;接着将提取的双耳能量差和互相关函数输入训练完成的级联神经网络,在深度神经网络分支中判别声音源的方向,在卷积神经网络中提取声音源前后向区分的细节信息,得出声音源在机器人头部前半平面或后半平面的信息;最后,综合深度神经网络和卷积神经网络的输出结果,得出最终的定位结果。本发明能够在一定程度上抵抗噪声和混响的干扰,完成声源前后向及角度的判别问题,实现全向声源定位。
-
公开(公告)号:CN109086659A
公开(公告)日:2018-12-25
申请号:CN201810607403.0
申请日:2018-06-13
Applicant: 深圳市感动智能科技有限公司 , 北京大学深圳研究生院
Abstract: 本发明涉及一种基于多模道特征融合的人体行为识别方法和装置。该方法包括:1)针对输入的深度图像序列构建自适应分层结构;2)在自适应分层结构的每个层级提取DMM特征;3)串联每个层级的DMM特征,构建自适应深度运动图特征作为深度图像通道特征;4)针对输入的骨架图像序列选取相对稳定的骨架关节点作为参考关节点;5)计算每帧内的其余关节点与参考关节点的位移差,作为每帧内的特征表达;6)联合整个骨架图像序列,得到一个动作序列的特征表达作为骨架图像通道特征;7)通过特征融合并对融合后的特征进行分类,得到人体行为识别结果。本发明能够同时描述人体的时序运动信息以及空间结构信息,具有良好的识别效果和鲁棒性。
-
公开(公告)号:CN108986832A
公开(公告)日:2018-12-11
申请号:CN201810765266.3
申请日:2018-07-12
Applicant: 北京大学深圳研究生院
IPC: G10L21/0208 , G10L21/0216 , G10L21/0232
Abstract: 本发明公开一种基于语音出现概率和一致性的双耳语音去混响方法和装置。该方法包括:1)将两个麦克风接收到的语音信号进行时延补偿,得到时间上对齐后的语音信号;2)进行加窗分帧处理,并通过傅里叶变换使语音信号从时域变换到频域;3)基于语音出现概率估计低频段部分的混响功率谱;4)计算语音信号的不同信号分量的一致性;5)基于一致性估计高频段部分的混响功率谱;6)根据高低频段的划分阈值对结合高低频的混响功率谱进行估计;7)利用递归平滑算法计算得到最终的混响功率谱;8)通过增益函数得到去混响后的频域信号;9)利用短时傅立叶逆变换得到去混响后的时域信号。本发明能够有效去除整个频带上的混响,提高语音感知质量。
-
公开(公告)号:CN107358629A
公开(公告)日:2017-11-17
申请号:CN201710549596.4
申请日:2017-07-07
Applicant: 北京大学深圳研究生院 , 深圳市银星智能科技股份有限公司
IPC: G06T7/73
Abstract: 本发明涉及一种基于目标识别的室内定位与建图方法,其步骤包括:1)输入颜色深度图像,根据颜色深度图像建立目标物体模型数据库;2)输入实时测量的颜色深度图像,将其转换成3D点云,并求出当前视角能看到的场景表面;3)根据3D点云并基于最近迭代点估计相机的姿态;4)根据3D点云和建立的目标物体模型数据库,利用点对特征进行物体识别并估计物体的姿态;5)利用相机姿态和物体姿态优化姿态图;6)根据姿态图得到最优的物体姿态,利用已知的目标物体模型数据库进行表面渲染,得到当前环境的三维地图。本发明能在具有大量物体的场景下进行室内定位和地图建立,建图精度高,所用计算资源少。
-
公开(公告)号:CN106843216A
公开(公告)日:2017-06-13
申请号:CN201710081181.9
申请日:2017-02-15
Applicant: 北京大学深圳研究生院 , 深圳市银星智能科技股份有限公司
Abstract: 本发明公开了一种基于回溯搜索的生物激励机器人完全遍历路径规划方法,该方法融合了生物激励神经网络算法、回溯算法、D*(D Star)算法的优点,实现机器人在复杂环境下的完全遍历路径规划。具体方法为:1)利用生物激励神经网络模型来模拟动态环境,引导机器人进行往复运动;2)当机器人陷入死锁,首先用回溯算法快速找到逃离死锁的目标位置,然后用D*算法规划出一条从当前位置到目标位置的最短路径。本发明不仅保持了生物激励算法生成的路径平滑,转弯较少的优点,还加快了机器人逃离死锁的速度,使机器人能够快速覆盖整个工作空间。本发明不存在局部极小值问题,计算量小,实现简单,在动态未知环境下有很好的适应性。
-
-
-
-
-
-
-
-
-