-
公开(公告)号:CN111081261A
公开(公告)日:2020-04-28
申请号:CN201911356454.1
申请日:2019-12-25
Applicant: 华南理工大学
Abstract: 本发明涉及一种基于LDA的文本无关声纹识别方法,包括:S1,提取待识别语音样本的声学特征序列,计算所述声学特征序列在预先构建的声学特征分布空间中的分布特征矢量;S2,对所述分布特征矢量进行模规整,使用LDA对模规整后的分布特征矢量进行降维;S3,计算降维后的分布特征矢量与预先构建的基于模规整和LDA映射分布特征的文本无关说话人声纹模型之间的似然度,将似然度最大的文本无关说话人声纹模型对应的声纹作为识别结果。本发明使用LDA对待识别语音以及语音样本的分布特征矢量中的文本内容信息进行补偿,减少文本内容不同带来的干扰。
-
公开(公告)号:CN106448661B
公开(公告)日:2019-07-16
申请号:CN201610847518.8
申请日:2016-09-23
Applicant: 华南理工大学
IPC: G10L15/06 , G10L15/08 , G10L15/14 , G10L15/20 , G10L21/0216 , G10L21/0264
Abstract: 本发明提供一种基于纯净语音与背景噪声两极建模的音频类型检测方法,包括步骤:S1、构建纯净语音GMM模型以及纯粹背景噪声GMM模型;S2、计算纯净语音模型自身各高斯混元间的距离,判断高斯混元是否位于特征重叠空间;S3、剔除位于特征重叠空间中的高斯混元,重新构建纯净语音统计模型、纯粹背景噪声统计模型;S4、计算新的纯净语音统计模型、纯粹背景噪声统计模型的概率,以及估算音频样本信噪比;S5、根据计算得到的概率以及估算信噪比,构建特征矢量且利用SVM模型进行判决,将样本判别为纯净语音、背景噪声或含噪声语音。本发明在降低GMM‑SVM运算量的同时,能有效地区分纯净语音、纯净背景噪声和含噪声语音。
-
公开(公告)号:CN107293286A
公开(公告)日:2017-10-24
申请号:CN201710389619.X
申请日:2017-05-27
Applicant: 华南理工大学
Abstract: 本发明提供了一种基于网络配音游戏的语音样本收集方法,包括:步骤101语音样本收集环节,通过用户点播视频,然后跟随视频字幕进行配音,配音后用户可在客户端对自己的原声进行变声处理,后台服务器端结合基于PESQ的客观语音质量评价和语音识别对原始音频进行机器打分;步骤102语音样本抽样主观评价环节,抽取语音样本在游戏首页展示,用户对展示语音样本进行试听评价后,选择“符合原文”或“不符原文”按钮,对用户选择“不符原文”按钮数量较多的语音样本,后台进行人工试听,人工试听后确实与文本不符的语音样本从样本库中剔除。本发明解决了现有人工现场录制语音样本方案录制成本高、时间长,和人工电话录制方案语音样本包含信道噪声的缺点。
-
公开(公告)号:CN103559882B
公开(公告)日:2016-08-10
申请号:CN201310479266.4
申请日:2013-10-14
Applicant: 华南理工大学
IPC: G10L17/02
Abstract: 本发明公开了一种基于说话人分割的会议主持人语音提取方法,包括如下步骤:S1、读入记录有会议语音的音频文件;S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3、语音段距离比较:将说话人分割之后的第一个语音段作为会议主持人的语音,并比较该语音段与其他语音段的距离,将距离小于门限的语音段也判为会议主持人语音,从而得到会议主持人的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础,具有能快速有效地提取出会议主持人的语音等优点。
-
公开(公告)号:CN104582166A
公开(公告)日:2015-04-29
申请号:CN201410841587.9
申请日:2014-12-29
Applicant: 华南理工大学
IPC: H05B37/02
CPC classification number: Y02B20/42
Abstract: 本发明公开了一种应对LED光衰的恒光照驱动方法,包括以下步骤:1、随着LED光衰的积累,不断释放驱动功率以维持恒定光照输出,当LED到达寿命点时,驱动功率达到额定功率;2、把光电传感器件采集经灯罩反射回来的LED光信号作为照度测量源,并检测所述的照度测量源以得出测量值,利用所述的测量值推算LED光衰状况;3、利用调节PWM占空比控制电流的方法控制LED的工作功率;4、当LED超过使用寿命后,控制器使得LED在启动时以缓慢渐变方式启动,提醒用户LED已超过使用寿命。具有能让用户知道灯具已超过寿命,以及时更换灯具节约能源等优点。
-
公开(公告)号:CN104009867A
公开(公告)日:2014-08-27
申请号:CN201410198390.8
申请日:2014-05-12
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于FPGA的光纤以太网智能分路器的切换方法,包括以下步骤:步骤1、设置光纤以太网智能分路器的当前工作状态为主用链路状态K2;步骤2、当主用设备发生故障或光纤以太网智能分路器的误码率超过设定的门限值,执行步骤3;否则,执行步骤1;步骤3、把光纤以太网智能分路器的工作状态通过主动切换模式或被动切换模式切换为备用链路状态K3;步骤4、当主用设备的故障被排除且光纤以太网智能分路器的误码率位于设定的门限值范围内时,把光纤以太网智能分路器的当前工作状态从备用链路状态K3切换为主用链路状态K2;步骤5、重复执行步骤1至4。具有能维护关键网络设备稳定和克服了原单一技术应用上的缺陷等优点。
-
公开(公告)号:CN103400580A
公开(公告)日:2013-11-20
申请号:CN201310311072.3
申请日:2013-07-23
Applicant: 华南理工大学
IPC: G10L17/00
Abstract: 本发明公开了一种多人会话语音中的说话人重要程度估计方法,包括S1读入记录有多人会话语音的音频文件;S2说话人分割:检测上述多人会话语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3说话人聚类:把相同说话人的语音段聚在一类,得到音频文件中说话人个数、各个说话人的语音及各个说话人的语音段数;S4说话人语速估计:分别从上述各个说话人的语音中提取能量包络,找出能量包络的局部最大值点,确定音节数,估计各个说话人的语速;S5基于语速、语音时长及语音段数,估计说话人的重要程度,本发明为多人会话语音的快速浏览、摘要提取、说话人检索等奠定基础。
-
公开(公告)号:CN102968986A
公开(公告)日:2013-03-13
申请号:CN201210442113.8
申请日:2012-11-07
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。
-
公开(公告)号:CN102722715A
公开(公告)日:2012-10-10
申请号:CN201210159644.6
申请日:2012-05-21
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于人体姿势状态判决的跌倒检测方法,通过对二值化处理后的图像提取目标区域,对目标区域提取物体Zernike矩特征、高度、宽度、宽高比、目标区域面积、目标区域周长、轮廓面积、轮廓周长、帧差最大行列特征变量、运动物体高度特征变量。将提取出来的这些变量分别送入两个离线训练好的分类器对被监控者的运动情况作出判断,最终判定被监控者的真实运动状况。本发明完全运用图像处理技术,能够准确有效地区分行走、下蹲和跌倒的姿势状态,并可满足在较低性能的硬件平台上实现实时处理的要求。
-
公开(公告)号:CN102543063A
公开(公告)日:2012-07-04
申请号:CN201110403577.3
申请日:2011-12-07
Applicant: 华南理工大学
IPC: G10L11/00
Abstract: 基于说话人分割与聚类的多说话人语速估计方法,它涉及一种估计多说话人语速的方法。本发明的估计多说话人语速的方法:首先读入语音流;接着检测上述语音流中的说话人改变点,根据这些改变点将语音流分割成多个语音段;再对上述语音段进行说话人聚类,把相同说话人的语音段按顺序拼接在一起,得到说话人个数以及各个说话人的语音;最后分别估算各个说话人语音的时长及其所包含的字数,估计出各个说话人的语速。与目前基于语音识别的单说话人语速估计方法相比,本方法不但可以估计多说话人的语速,而且速度更快。
-
-
-
-
-
-
-
-
-