Patent search ap:("北京大学") AND inv:"刘宏" Page 1

1.

发明授权
一种基于加权模板匹配的双耳声源定位方法和装置有权

公开(公告)号：CN112731289B

公开(公告)日：2024-05-07

申请号：CN202011456914.0

申请日：2020-12-10

Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院

Inventor： 丁润伟 , 孙永恒 , 杨冰 , 刘宏

IPC: G01S5/18

Abstract: 本发明公开了一种基于加权模板匹配的双耳声源定位方法和装置。在训练阶段，首先从训练数据中提取不同方向的双耳互相关函数和双耳强度差，为提取的各个方向的双耳互相关函数和双耳强度差建立模板；然后通过梯度下降法训练不同方向、不同频带的权重值。在线定位阶段，同样首先对信号提取特征，接着在不同特征和不同频带上将所提取的特征与各个方向的模板进行相似度匹配，最后通过加权融合不同特征不同频带的相似度，得到最终的声源方向相似度，取最大相似度方向为声源方向。实验在不同种类噪声环境下进行，实验结果表明本发明可以在一定程度上抵抗噪声的干扰，实现声源的角度定位问题。

2.

发明公开
协同双通道时频掩码估计任务学习的双耳声源定位方法及系统有权

公开(公告)号：CN112731291A

公开(公告)日：2021-04-30

申请号：CN202011096916.3

申请日：2020-10-14

Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院

Inventor： 丁润伟 , 吴璐璐 , 杨冰 , 刘宏

IPC: G01S5/22 , G06N3/04

Abstract: 本发明公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及系统。该方法为：1)使用双耳信号的短时傅里叶变换系数作为输入特征；2)使用对数维纳滤波作为目标时频掩码，同时估计双通道对数频谱特征的时频掩码；3)将估计得到的时频掩码与对数频谱特征相乘，得到增强后的对数频谱特征；4)利用增强后的对数频谱特征及相位谱特征作为输入，估计声源的方位角；5)利用两阶段训练模式，在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系，微调所有网络参数。本发明能够利用卷积神经网络同时估计双通道时频掩码，提升定位特征的鲁棒性，并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。

3.

发明授权
协同双通道时频掩码估计任务学习的双耳声源定位方法及系统有权

公开(公告)号：CN112731291B

公开(公告)日：2024-02-20

申请号：CN202011096916.3

申请日：2020-10-14

Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院

Inventor： 丁润伟 , 吴璐璐 , 杨冰 , 刘宏

IPC: G01S5/22 , G06N3/0464

Abstract: 本发明公开了一种协同双通道时频掩码估计任务学习的双耳声源定位方法及系统。该方法为：1)使用双耳信号的短时傅里叶变换系数作为输入特征；2)使用对数维纳滤波作为目标时频掩码，同时估计双通道对数频谱特征的时频掩码；3)将估计得到的时频掩码与对数频谱特征相乘，得到增强后的对数频谱特征；4)利用增强后的对数频谱特征及相位谱特征作为输入，估计声源的方位角；5)利用两阶段训练模式，在初步训练好的双通道时频掩码估计网络和声源定位网络之间建立端到端的联系，微调所有网络参数。本发明能够利用卷积神经网络同时估计双通道时频掩码，提升定位特征的鲁棒性，并且利用时频掩码增强后的定位特征实现有效的端到端的声源定位。

4.

发明公开
一种基于加权模板匹配的双耳声源定位方法和装置有权

公开(公告)号：CN112731289A

公开(公告)日：2021-04-30

申请号：CN202011456914.0

申请日：2020-12-10

Applicant: 深港产学研基地(北京大学香港科技大学深圳研修院) , 北京大学深圳研究生院

Inventor： 丁润伟 , 孙永恒 , 杨冰 , 刘宏

IPC: G01S5/18

Abstract: 本发明公开了一种基于加权模板匹配的双耳声源定位方法和装置。在训练阶段，首先从训练数据中提取不同方向的双耳互相关函数和双耳强度差，为提取的各个方向的双耳互相关函数和双耳强度差建立模板；然后通过梯度下降法训练不同方向、不同频带的权重值。在线定位阶段，同样首先对信号提取特征，接着在不同特征和不同频带上将所提取的特征与各个方向的模板进行相似度匹配，最后通过加权融合不同特征不同频带的相似度，得到最终的声源方向相似度，取最大相似度方向为声源方向。实验在不同种类噪声环境下进行，实验结果表明本发明可以在一定程度上抵抗噪声的干扰，实现声源的角度定位问题。

5.

发明授权
一种基于空间和频谱时序信息建模的多移动声源定位方法和系统有权

公开(公告)号：CN114611546B

公开(公告)日：2025-04-15

申请号：CN202210137621.9

申请日：2022-02-15

Applicant: 北京大学深圳研究生院

Inventor： 刘宏 , 杨冰 , 李一迪

IPC: G06F18/22 , G06F18/2131 , G06F18/241 , G01S5/22 , G06F18/25 , G06N3/045 , G06N3/042 , G06N3/0464 , G06N3/044 , G06F123/00

Abstract: 本发明涉及一种基于空间和频谱时序信息建模的多移动声源定位方法和系统。本发明将直达路径相位差和声源活跃程度信息以加权求和的方式编码到学习目标中，从而指导网络学习具有竞争性和时变性的多移动声源的直达路径相位差特征，避免了多目标回归框架面临的分配歧义以及输出维度不确定问题；通过迭代地检测和定位主导声源来确定多移动声源的位置，降低了多声源之间的相互影响；引入频谱特征提取网络，建立了声源位置与声源身份之间的关联，通过对空间和频谱的时序信息进行建模实现了可靠的多移动声源跟踪。

6.

发明公开
基于主动跟踪和自适应手势识别的交接方法、装置及设备

公开(公告)号：CN117576787A

公开(公告)日：2024-02-20

申请号：CN202410060569.0

申请日：2024-01-16

Applicant: 北京大学深圳研究生院

Inventor： 刘梦源 , 王帝 , 刘宏 , 张添威 , 丁润伟

IPC: G06V40/20 , G06V20/40 , G06V10/22 , G06V10/82 , G06N3/0464 , G06N3/08

Abstract: 本申请公开了一种基于主动跟踪和自适应手势识别的交接方法、装置及设备，方法包括通过机器人安装的深度相机采集视频图像；基于视频图像通过媒体管道获取相机坐标系下的第一手部地标；将第一手部地标转换至预设的世界坐标系以得到第二手部地标；将第二手部地标输入经过训练的手势识别模型，通过手势识别模型确定所述视频图像对应的用户手势；通过机器人将交互对象交互给用户。本申请实施例通过使用包括媒体管道提示手部地标和通过手势识别模型识别用户手势的两阶段方法，在面对不同物体和不同照明条件时均能准确识别到用户手势，提高了人机交互的准确性，确保了与人类抓握一致的平稳和自然的交接过程。

7.

发明授权
基于小目标搜索缩放技术的水下目标检测方法和系统有权

公开(公告)号：CN112419227B

公开(公告)日：2024-02-20

申请号：CN202011096905.5

申请日：2020-10-14

Applicant: 北京大学深圳研究生院 , 鹏城实验室

Inventor： 刘宏 , 宋品皓 , 丁润伟 , 戴林辉

IPC: G06V20/05 , G06V10/25 , G06V10/82 , G06V10/80 , G06N5/04 , G06N3/045 , G06N3/08 , G06V10/24

Abstract: 本发明涉及一种基于小目标搜索缩放技术的水下目标检测方法和系统。该方法的步骤为：将待检测图片输入至目标检测网络Faster‑RCNN+FPN，得到第一检测结果；提取FPN中特征图的热力图，并提取FPN中特征图的边缘图，将热力图和边缘图进行结合，得到综合热力图；在综合热力图上进行搜索，找到激活值之和最大的窗口，提取待检测图片中该窗口内的图片并输入目标检测网络，得到第二检测结果；将第一检测结果和第二检测结果进行决策融合，得到最终的目标检测结果。本发明通过分析FPN激活值对原图进行缩放，关注密集小目标部分，从而进行多尺度推断，能够提高模型对小目标的检测能力。

8.

发明公开
基于域混合对比学习的鲁棒水下目标检测方法和系统审中-实审

公开(公告)号：CN116363493A

公开(公告)日：2023-06-30

申请号：CN202310312898.5

申请日：2023-03-28

Applicant: 北京大学深圳研究生院

Inventor： 陈阳 , 刘宏 , 宋品皓 , 戴林辉 , 丁润伟 , 张小川 , 李胜全

IPC: G06V20/05 , G06V10/82 , G06V10/778 , G06V10/774 , G06N3/0464 , G06N3/045 , G06N3/082 , G06N3/0895 , G06N3/084

Abstract: 本发明涉及一种基于域混合对比学习的鲁棒水下目标检测方法和系统，采用域混合对比训练方法和对比学习的方法和系统来解决水下目标检测的域泛化问题。该方法的步骤主要包括：1)利用条件双边风格迁移模型将一张水下图像从一种水质转换到另外一种；2)将域混合作用于特征层面，将两个不同的域进行插值合成新的域的数据，用CBST和DMX增加训练数据的域多样性；3)将空间选择性间隔对比损失对模型学到的域特定特征进行正则化。本发明通过域混合对比训练来极大提高模型的域泛化能力，能够辅助模型学习域无关的表征，并且超越其他域泛化方法的性能。

9.

发明公开
面向多人场景的视听融合唤醒词识别方法及装置审中-实审

公开(公告)号：CN116312512A

公开(公告)日：2023-06-23

申请号：CN202310101018.X

申请日：2023-02-01

Applicant: 北京大学深圳研究生院

Inventor： 刘宏 , 李一迪 , 王国权

IPC: G10L15/22 , G06V20/40 , G06V40/16 , G06V10/82 , G06F18/25 , G06N3/0464 , G06N3/08 , G10L15/06 , G10L15/16 , G10L15/02

Abstract: 本发明公开了一种面向多人场景的视听融合唤醒词识别方法及装置，所述方法包括：采集多人场景下的原始音频和每个人的唇部运动视频；将所述原始音频和所述唇部运动视频一同送入唤醒词识别网络，以得到唤醒词识别结果。本发明通过引入注意力机制来计算时间得分矩阵，并通过比较每个帧的视听得分结果来检测潜在的说话人；通过知识蒸馏将知识从大模型转移到设备上的轻量化模型，以达到降低模型计算复杂度的目的。

10.

发明授权
一种基于多模道特征融合的人体行为识别方法和装置有权

公开(公告)号：CN109086659B

公开(公告)日：2023-01-31

申请号：CN201810607403.0

申请日：2018-06-13

Applicant: 深圳市感动智能科技有限公司 , 北京大学深圳研究生院

Inventor： 丁润伟 , 何侵嵚 , 金永庆 , 刘宏

IPC: G06V40/20 , G06V10/44 , G06V10/764

Abstract: 本发明涉及一种基于多模道特征融合的人体行为识别方法和装置。该方法包括：1)针对输入的深度图像序列构建自适应分层结构；2)在自适应分层结构的每个层级提取DMM特征；3)串联每个层级的DMM特征，构建自适应深度运动图特征作为深度图像通道特征；4)针对输入的骨架图像序列选取相对稳定的骨架关节点作为参考关节点；5)计算每帧内的其余关节点与参考关节点的位移差，作为每帧内的特征表达；6)联合整个骨架图像序列，得到一个动作序列的特征表达作为骨架图像通道特征；7)通过特征融合并对融合后的特征进行分类，得到人体行为识别结果。本发明能够同时描述人体的时序运动信息以及空间结构信息，具有良好的识别效果和鲁棒性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification