Patent search ap:("华南理工大学") AND inv:"王梓里" Page 1

1.

发明公开
一种能识别婴儿哭声的婴儿监护器及婴儿哭声识别方法失效

公开(公告)号：CN103489282A

公开(公告)日：2014-01-01

申请号：CN201310440063.4

申请日：2013-09-24

Applicant: 华南理工大学

Inventor： 李艳雄 , 王梓里 , 钟林 , 卫鑫

IPC: G08B21/02

Abstract: 本发明公开了一种能识别婴儿哭声的婴儿监护器，包括主控模块、婴儿哭声识别模块和短信发送模块，其中婴儿哭声识别模块实时采集周围环境中的语音信息，并对语音信息进行处理，将婴儿的哭声与环境中的其他声音区分开，将婴儿哭闹信息发送给主控模块；主控模块向预设的手机号码发送警报短信。本发明的系统及方法，能够实时监控婴儿是否哭闹，自动化程度高、使用方便。

2.

发明授权
一种能识别婴儿哭声的婴儿监护器及婴儿哭声识别方法失效

公开(公告)号：CN103489282B

公开(公告)日：2016-01-20

申请号：CN201310440063.4

申请日：2013-09-24

Applicant: 华南理工大学

Inventor： 李艳雄 , 王梓里 , 钟林 , 卫鑫

IPC: G08B21/02

Abstract: 本发明公开了一种能识别婴儿哭声的婴儿监护器，包括主控模块、婴儿哭声识别模块和短信发送模块，其中婴儿哭声识别模块实时采集周围环境中的语音信息，并对语音信息进行处理，将婴儿的哭声与环境中的其他声音区分开，将婴儿哭闹信息发送给主控模块；主控模块向预设的手机号码发送警报短信。本发明的系统及方法，能够实时监控婴儿是否哭闹，自动化程度高、使用方便。

3.

发明授权
基于长时特征和短时特征的重叠语音与单人语音区分方法失效

公开(公告)号：CN102968986B

公开(公告)日：2015-01-28

申请号：CN201210442113.8

申请日：2012-11-07

Applicant: 华南理工大学

Inventor： 李艳雄 , 陈祝允 , 贺前华 , 李广隆 , 杜佳媛 , 吴伟 , 王梓里

IPC: G10L15/02 , G10L15/06 , G10L25/03

Abstract: 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法，包括如下步骤：读入语音；语音预处理，包括预加重、分帧、加窗；提取短时特征参数，从每帧语音中提取各种短时特征参数；提取长时特征参数，计算短时特征参数的统计特征；训练高斯混合模型：采用期望最大化算法训练四个高斯混合模型；模型融合判决：从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入，将这两种模型的输出概率进行加权得到总的概率输出值，根据该概率输出值的大小将测试语音判为重叠语音或单人语音，实现两者的区分。与采用短时特征的方法相比，本方法取得了更好的区分效果，区分准确率平均提高了5.9%。

4.

发明公开
一种具有语音提取功能的会议记录器及语音提取方法无效

公开(公告)号：CN103530432A

公开(公告)日：2014-01-22

申请号：CN201310439113.7

申请日：2013-09-24

Applicant: 华南理工大学

Inventor： 王梓里 , 李艳雄 , 李广隆

IPC: G06F17/40 , G10L13/00

Abstract: 本发明公开了一种具有说话人语音提取功能的会议记录器，包括主控模块、录音与放音模块、可移动存储模块、交互与显示模块和说话人语音处理模块，其中说话人语音处理模块包含说话人分割模块和说话人聚类模块。主控模块将会议语音流传输至说话人分割模块，说话人分割模块检测上述语音流中说话人改变点，根据这些改变点将语音流分成多个语音段；说话人聚类模块利用谱聚类算法对分割出来的语音段进行说话人聚类，把相同说话人的语音段按顺序拼接在一起，得到说话人个数以及各个说话人的语音。本发明的会议记录器及语音提取方法，可以从会议语音中自动提取出各个说话人的语音，功能全面且使用方便。

5.

发明公开
一种多人会话语音中的说话人重要程度估计方法无效

公开(公告)号：CN103400580A

公开(公告)日：2013-11-20

申请号：CN201310311072.3

申请日：2013-07-23

Applicant: 华南理工大学

Inventor： 李艳雄 , 王梓里 , 吴伟 , 贺前华

IPC: G10L17/00

Abstract: 本发明公开了一种多人会话语音中的说话人重要程度估计方法，包括S1读入记录有多人会话语音的音频文件；S2说话人分割：检测上述多人会话语音中的说话人改变点，将相邻两个改变点之间的语音样点作为一个语音段，将音频文件分成多个语音段；S3说话人聚类：把相同说话人的语音段聚在一类，得到音频文件中说话人个数、各个说话人的语音及各个说话人的语音段数；S4说话人语速估计：分别从上述各个说话人的语音中提取能量包络，找出能量包络的局部最大值点，确定音节数，估计各个说话人的语速；S5基于语速、语音时长及语音段数，估计说话人的重要程度，本发明为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。

6.

发明公开
基于长时特征和短时特征的重叠语音与单人语音区分方法失效

公开(公告)号：CN102968986A

公开(公告)日：2013-03-13

申请号：CN201210442113.8

申请日：2012-11-07

Applicant: 华南理工大学

Inventor： 李艳雄 , 陈祝允 , 贺前华 , 李广隆 , 杜佳媛 , 吴伟 , 王梓里

IPC: G10L15/02 , G10L15/06 , G10L25/03

Abstract: 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法，包括如下步骤：读入语音；语音预处理，包括预加重、分帧、加窗；提取短时特征参数，从每帧语音中提取各种短时特征参数；提取长时特征参数，计算短时特征参数的统计特征；训练高斯混合模型：采用期望最大化算法训练四个高斯混合模型；模型融合判决：从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入，将这两种模型的输出概率进行加权得到总的概率输出值，根据该概率输出值的大小将测试语音判为重叠语音或单人语音，实现两者的区分。与采用短时特征的方法相比，本方法取得了更好的区分效果，区分准确率平均提高了5.9%。

Patent Agency Ranking