-
公开(公告)号:CN118050170A
公开(公告)日:2024-05-17
申请号:CN202410204426.2
申请日:2024-02-23
IPC: G01M13/045 , G06N3/0464 , G06N3/048 , G06N3/08 , G06N3/006
Abstract: 本发明涉及一种基于BWO‑VMD的改进ConvNeXt网络轴承故障诊断方法,其包括以下步骤:收集多个不同健康状态的轴承振动信号,对这些信号采用BWO‑VMD方法进行分解,获取最优特征IMF分量;将IMF分量作为振动信号的特征样本,选用数据重叠分割的方法获取大量特征样本,将特征样本采用GADF转换为二维图像特征;对特征样本划分训练集和测试集,输入改进ConvNeXt网络中学习特征并进行故障识别;通过本方法的模型训练可以快速达到收敛稳定,且对不同的振动信号均能提取有效故障特征,其识别准确率高,诊断功能好。
-
公开(公告)号:CN114357414B
公开(公告)日:2024-04-02
申请号:CN202111483807.1
申请日:2021-12-07
Applicant: 华南理工大学
Abstract: 本发明公开了一种基于跨梯度训练的情感说话人认证方法,该方法的步骤包括:基于x‑vector系统结合多任务学习搭建网络模型;对训练语音提取声学特征;随机挑选一批训练语音样本的特征序列作为网络输入,同时进行情感分类和说话人分类,通过两个任务的联合损失调整网络参数;利用情感分类部分的损失函数更新特征序列;进行跨梯度训练,再次调整说话人分类部分的网络参数;网络训练完成后设定认证阈值即可进行说话人认证。针对说话人认证系统在注册语音和测试语音情感不匹配时性能下降的问题,结合多任务学习,本发明利用跨梯度训练,对训练数据的情感信息进行扩充,提高了情感语音的说话人认证性能,缓解了在小数据量训练集上的过拟合程度。
-
公开(公告)号:CN116434742A
公开(公告)日:2023-07-14
申请号:CN202310310453.3
申请日:2023-03-28
Applicant: 华南理工大学
Abstract: 本发明公开了基于无监督学习和迁移学习的低资源语音关键词检测方法:使用无标注语音数据进行训练得到无监督网络模型;冻结该模型参数作为特征提取网络,与预编码层和决策网络一同构建语音关键词检测模型;在富资源条件下进行有监督预训练得到富资源语音关键词检测模型;在低资源条件下,将已训练完成的富资源语音关键词检测模型的参数迁移至当前模型,进而微调得到低资源语音关键词检测模型;最后根据模型输出进行解码判断样本是否包含预定关键词。本发明结合了无监督学习和迁移学习,充分利用了无标注数据和有标注数据,提高了在低资源条件下语音关键词检测性能,改善语音关键词检测领域数据不足的情况。
-
公开(公告)号:CN109783683B
公开(公告)日:2022-11-18
申请号:CN201811484229.1
申请日:2018-12-06
Applicant: 华南理工大学
Abstract: 本发明公开了一种用于实时监控的音频聚类方法,包括步骤:(1)音频数据预处理分段:利用基频值特点把基频值不同的时间上相邻的两个音频段分离开;(2)基于特征点对齐的分段快速计算音频距离:对计算的音频样本的N阶特征点进行基于相似性度量的对齐后分段计算样本距离,快速得到两段音频的距离;(3)利用连通距离提高聚类的类内纯净度:对于每段音频,通过连通距离设定距离阈值来剔除噪点以提高类内纯净度,完成聚类。本发明通过切割细分增加了音频样本的事件独立性,通过快速对齐进行分段DTW计算降低时间复杂度同时增加对齐精确度,在聚类过程中控制每一类的类内纯净度,以便后续模型建立中提高训练样本的纯净度,提高模型的描述能力。
-
公开(公告)号:CN108510061B
公开(公告)日:2022-03-29
申请号:CN201810225929.2
申请日:2018-03-19
Applicant: 华南理工大学
IPC: G06N3/04 , G06V10/774 , G06V40/16 , G06V10/82
Abstract: 本发明公开了一种基于条件生成对抗的多监控视频人脸合成正脸的方法,包括采集监控视频中的无约束偏转角度人脸和正脸,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注;对每个人的正脸图像数据集进行人脸对齐;构建条件生成对抗网络,采用对抗训练的策略对生成器模型和卷积神经网络判决器模型进行训练,直到条件生成对抗网络收敛稳定,最后将同一监控视频捕捉到的人脸图像输入训练好的生成器输入,得到一张正脸图像。
-
公开(公告)号:CN111128128A
公开(公告)日:2020-05-08
申请号:CN201911366488.9
申请日:2019-12-26
Applicant: 华南理工大学
Abstract: 本发明提供了一种基于互补模型评分融合的语音关键词检测方法,包括以下步骤:1)在音频特征空间进行关键词建模的基础上,引入基于i-vector的关键词建模;2)自适应分段窗移:对于待检测的语音样本,从起始信号截取语音段,获取当前段在语音特征空间的分布表达,将其与关键词类属性计算相似度得到当前段的类评分序列,根据当前段的得分获得下一段的窗移,逐段处理直至信号结束,待检测的语音样本被分成K段;3)利用关键词候选点的位置进行评分融合。该发明采用两种有差异的模型实现一种有一定互补性的关键词检测算法,对两种模型的评分结果进行融合,能解决在训练样本量少的情况下的语音关键词检出,同时能提升关键词检出准确度。
-
公开(公告)号:CN107342076A
公开(公告)日:2017-11-10
申请号:CN201710560779.6
申请日:2017-07-11
Applicant: 华南理工大学
Abstract: 本发明公开了一种兼容非常态语音的智能家居控制系统及方法,系统包括:语音解析模块、识别模块、决策融合模块、匹配模块、交互反馈模块、控制模块和在线学习模块;语音解析模块,对语音进行声学特征提取;识别模块,对语音采用对应的识别模型进行语音识别;决策融合模块,以加权评分的投票策略进行决策融合;匹配模块,将决策融合的输出结果与预设各模式匹配;交互反馈模块,根据匹配模块的输出结果给出不同的语音交互反馈;控制模块,控制智能家居设备的工作状态;在线学习模块,将语音以在线学习的方式存储到服务器中。本发明简单实用,采用对应的语音模板进行识别和决策融合,在线学习的方式更新语音模板,提高系统的语音识别率和适应性。
-
公开(公告)号:CN106898357A
公开(公告)日:2017-06-27
申请号:CN201710083683.5
申请日:2017-02-16
Applicant: 华南理工大学
IPC: G10L19/012 , G10L19/032 , G10L25/18 , G10L25/51
Abstract: 本发明公开了一种基于正态分布规律的矢量量化方法,在码本生成中,首先将训练样本集的特征中心作为初始码字,然后再对初始码字进行码字分裂,当码字为非首次分裂时,将各码字的码字宽度和隶属于各码字中的训练样本数作乘积,将上述乘积最大的L个码字选取出来作为待分裂码字,得到新的码字均值,实现码字分裂,在码字每完成一次分裂后,进入数据划分阶段;数据划分时将各码字描述为正态分布,计算每个训练样本对各个码字隶属度,划分胞腔更新码字;判断量化失真度是否收敛,若否,继续数据划分;若是,则判断码字总量是否达到一定值,若否,则继续码字分裂,若是,则输出最终码本。本发明方法能够提高码字分裂准确性,降低了矢量量化的误差。
-
公开(公告)号:CN106653019A
公开(公告)日:2017-05-10
申请号:CN201611114768.7
申请日:2016-12-07
Applicant: 华南理工大学
Abstract: 本发明提出了一种基于用户注册信息的人机对话控制方法及系统。方法包括下述步骤:控制基于概率的多层次话题状态机跳转至下一个子状态;根据当前状态从知识主题树提取对话模板或知识素材;利用语句生成器将模板或素材转换成文字语句;将文字语句合成为语音播放给用户听;等待并获取用户语音回答,将语音回复转换成文字,并跳转至第一步。本发明的基于用户注册信息的人机对话控制方法可用于身份验证领域,根据用户身份信息产生用户所熟悉的对话内容,以一种自然亲切的方式主导人机对话,在用户防备心理较低的情况下采集用户声纹。
-
公开(公告)号:CN103137137B
公开(公告)日:2015-07-01
申请号:CN201310061167.4
申请日:2013-02-27
Applicant: 华南理工大学
Abstract: 一种会议音频中的精彩说话人发现方法,步骤如下:读入会议音频;检测上述音频中的掌声音频段,将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到精彩语音段在会议音频中出现的位置;对上述精彩语音段进行说话人聚类,得到精彩说话人个数及其精彩语音段。本发明的有益效果是:基于掌声检测和说话人聚类,快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置,为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。
-
-
-
-
-
-
-
-
-