-
公开(公告)号:CN102968986B
公开(公告)日:2015-01-28
申请号:CN201210442113.8
申请日:2012-11-07
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。
-
公开(公告)号:CN104021785A
公开(公告)日:2014-09-03
申请号:CN201410231431.9
申请日:2014-05-28
Applicant: 华南理工大学
IPC: G10L15/02
Abstract: 本发明公开了一种提取会议中最重要嘉宾语音的方法,包括以下步骤:S1、读入记录有会议语音的音频文件;S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,从而将音频文件分成多个语音段;S3、语音段的距离比较及合并:比较上述语音段中最长语音段与第二长语音段之间的距离,根据该距离与门限的关系判断这两个语音段是不是最重要嘉宾的语音,再根据其他语音段(除了最长和第二长语音段之外的语音段)与上述两个语音段之间的距离,判断其他语音段是不是最重要嘉宾的语音,从而得到最重要嘉宾的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础。
-
公开(公告)号:CN103559882A
公开(公告)日:2014-02-05
申请号:CN201310479266.4
申请日:2013-10-14
Applicant: 华南理工大学
IPC: G10L17/02
Abstract: 本发明公开了一种基于说话人分割的会议主持人语音提取方法,包括如下步骤:S1、读入记录有会议语音的音频文件;S2、说话人分割:检测上述会议语音中的说话人改变点,将相邻两个改变点之间的语音样点作为一个语音段,将音频文件分成多个语音段;S3、语音段距离比较:将说话人分割之后的第一个语音段作为会议主持人的语音,并比较该语音段与其他语音段的距离,将距离小于门限的语音段也判为会议主持人语音,从而得到会议主持人的所有语音段。本发明为会议语音的快速浏览、主题提取、说话人检索等奠定了基础,具有能快速有效地提取出会议主持人的语音等优点。
-
公开(公告)号:CN102436810A
公开(公告)日:2012-05-02
申请号:CN201110330598.7
申请日:2011-10-26
Applicant: 华南理工大学
CPC classification number: G10L15/20
Abstract: 本发明涉及智能语音信号处理、模式识别与人工智能技术领域,特别是涉及一种基于信道模式噪声的说话人识别系统中录音回放攻击检测方法和系统。本发明公开了一种说话人识别系统中更加简便和高效的录音回放攻击检测方法,所述方法步骤如下:(1)输入待识别语音信号;(2)对语音信号进行预处理;(3)提取预处理后语音信号中的信道模式噪声;(4)提取基于信道模式噪声的长时统计特征;(5)根据信道噪声分类判决模型对长时统计特征进行分类。本发明利用信道模式噪声进行录音回放攻击检测,所提取的特征维数低,计算复杂度低,错误识别率低。因此,可极大提高说话人识别系统的安全性能,更易于在现实中使用。
-
公开(公告)号:CN101115334B
公开(公告)日:2011-05-18
申请号:CN200710029994.X
申请日:2007-08-30
Applicant: 华南理工大学
CPC classification number: Y02B20/42
Abstract: 本发明提供了一种串联多像素LED灯的PWM控制信号生成方法。该方法首先由显示内容发送器将驱动参数写入到双端口RAM中,然后启动驱动参数读取模块;随后驱动参数读取模块从双端口RAM中读取配置参数提供给各计数单元,再启动PWM控制输出模块;最后PWM控制输出模块生成串联LED像素灯的PWM控制信号。本发明驱动参数可配置,系统结构简单,与灯具连线少(四线),像素驱动成本低。本发明采用移位寄存器驱动的串联多像素灯具,低成本、低复杂度的PWM控制信号生成方法,适合景观灯饰行业的市场需求。
-
公开(公告)号:CN1664926A
公开(公告)日:2005-09-07
申请号:CN200510033765.6
申请日:2005-03-28
Applicant: 华南理工大学
Abstract: 本发明提供一种语音识别装置,包括嵌入式处理器、动态时间归正算法模块,动态时间归正算法模块通过控制总线与嵌入式处理器相连接,嵌入式处理器分别连接有程序存储器、数据存储器、显示器,同时通过模/数转换模块与麦克风连接,嵌入式处理器设置有按键、RS232接口,动态时间归正算法模块包括计算控制模块、处理单元阵列、模板缓冲区。本发明通过计算控制模块产生“运动方向”,把参考模板特征和测试模板特征参数由两个相反的方向输入处理单元阵列,使各处理单元在参考模板和测试模板长度变化情况下仍然能够正确地进行两个模板的匹配过程,同时大大减小了硬件资源和输入接口控制逻辑的复杂度。
-
公开(公告)号:CN111128128B
公开(公告)日:2023-05-23
申请号:CN201911366488.9
申请日:2019-12-26
Applicant: 华南理工大学
Abstract: 本发明提供了一种基于互补模型评分融合的语音关键词检测方法,包括以下步骤:1)在音频特征空间进行关键词建模的基础上,引入基于i‑vector的关键词建模;2)自适应分段窗移:对于待检测的语音样本,从起始信号截取语音段,获取当前段在语音特征空间的分布表达,将其与关键词类属性计算相似度得到当前段的类评分序列,根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段;3)利用关键词候选点的位置进行评分融合。该发明采用两种有差异的模型实现一种有一定互补性的关键词检测算法,对两种模型的评分结果进行融合,能解决在训练样本量少的情况下的语音关键词检出,同时能提升关键词检出准确度。
-
公开(公告)号:CN111179914B
公开(公告)日:2022-12-16
申请号:CN201911227134.6
申请日:2019-12-04
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于改进动态时间规整算法的语音样本筛选方法,包括步骤:使用基于同一文本录制多个语音样本,去除背景音并标注语音样本的元音和辅音,构建样本的语音特征序列表达;根据去除背景音后语音短时帧中元音和辅音的标注类型,通过语音短时帧内信号最大幅值的变化信息来确定过渡音,并对过渡音进行标注;分别对改进DTW算法的局部距离和整体距离进行加权计算,获得两两样本间的距离,构建所有样本的距离矩阵;根据距离矩阵对语音样本进行筛选。本发明解决了在样本数据量大、不能保证样本质量的情况下,对同一文本的语音样本的筛选问题,降低筛选成本,并为后续处理(如语料库的构建、深度神经网络的学习等)提供了更为可靠的样本数据。
-
公开(公告)号:CN108766419B
公开(公告)日:2020-10-27
申请号:CN201810417478.2
申请日:2018-05-04
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于深度学习的非常态语音区分方法,包括以下步骤,获取输入语音,并对输入语音进行重采样、预加重、分帧加窗预处理,得到预处理语音;对预处理语音提取梅尔频率倒谱系数特征矢量;将不同帧数的语音段规整到固定帧数,每个语音段得到一个对应的梅尔频率倒谱系数特征矩阵;建立卷积深度置信网络;将梅尔频率倒谱系数特征矩阵输入卷积深度置信网络,进行训练,并对输入语音的状态进行分类;根据分类结果,调用隐马尔可夫模型进行模板匹配,得到语音识别结果;本发明利用卷积深度置信网络的多个非线性变换层、将输入的MFCC特征映射到更高维空间,并用隐马尔科夫模型对不同状态的语音分别建模,提高了语音的识别准确性。
-
公开(公告)号:CN111582044A
公开(公告)日:2020-08-25
申请号:CN202010295613.8
申请日:2020-04-15
Applicant: 华南理工大学
Abstract: 本发明涉及人脸识别技术,为基于卷积神经网络和注意力模型的人脸识别方法,包括:对人脸图像进行预处理;将预处理后的图像数据输入到卷积神经网络中提取高维特征;将高维特征输入到注意力模型中,通过神经网络的训练方法计算注意力掩膜,获得空间域和通道域的注意力分布特征M(Fc);将注意力分布特征M(Fc)输入到Bottleneck模块中,使用Shortcut机制获取特征H(M(Fc));将特征H(M(Fc))输入到全卷积网络分类结构中,使用Dropout策略和softmax函数,得到最终的人脸识别结果。本发明采用Attention模型和Bottleneck模块来取代VGG模型中的中高层网络,极大的减少了模型所需的参数数量,有效降低了训练时的显存和时间消耗;同时也有效提升了网络对数据的学习能力,增加了系统的稳定性和实用性。
-
-
-
-
-
-
-
-
-