-
公开(公告)号:CN114678033A
公开(公告)日:2022-06-28
申请号:CN202210253225.2
申请日:2022-03-15
Applicant: 南京邮电大学
IPC: G10L21/0208 , G10L21/0216 , G10L21/0264 , G10L25/03 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种基于无解码的多头注意力机制的语音增强算法的设计方法,涉及语音信号处理技术领域。本发明针对当前现有的注意力机制语音增强算法,提出了一种只包含编码器结构,不包含解码器结构的特征提取方法,并且应用带掩模多头注意力机制使算法对实时因果性语音更加有效。该方法能够缩短模型训练时间并有效抑制带噪语音信号中的噪声部分并增强语音部分,体现出良好的增强性能。
-
公开(公告)号:CN113327632A
公开(公告)日:2021-08-31
申请号:CN202110523125.2
申请日:2021-05-13
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于字典学习的无监督异常声检测方法和装置,包括:生成训练集和测试集,训练集中只有正常运行状态下的机械声音频样本;对训练集中的样本数据进行预处理,分隔得到若干个音频帧;对音频帧进行特征提取,采用K‑SVD算法和OMP算法求解得到音频的本质特征和训练集稀疏系数;将求解得到的音频的本质特征和稀疏系数导入分类模型,对模型进行训练;该分类模型用于对导入的测试集稀疏系数进行处理,输出该测试集稀疏系数对应的音频样本的类别。本发明能够采用传统特征参数进行字典学习和稀疏表示进行样本更加精确的分类从而提高机械检测灵敏度和准确度。
-
公开(公告)号:CN112686137A
公开(公告)日:2021-04-20
申请号:CN202011589547.1
申请日:2020-12-29
Applicant: 南京邮电大学
Abstract: 本发明提供了一种基于循环记忆注意力网络的端到端场景分类方法,首先接收输入图片,对图片进行数据预处理,将处理后的图片输入至特征提取模块,提取初始特征;然后将提取到的初始特征输入至注意力定位模块,在初始特征图上得到定位后的核心目标区域;接着通过循环记忆模块回归出下一阶段需要的位置参数和循环记忆每一阶段的注意力区域特征,同时每一次迭代均输出特征所属类别的预测概率,最终得到该图片的场景分类概率;本发明通过有效的损失函数设计,精准地定位到不同的场景目标区域,并利用LSTM网络结构循环记忆特征最后进行分类概率输出;实验在构造数据集Scene 30和公有室内场景数据集MIT Indoor 67,证明了提出的循环记忆注意力网络的有效性。
-
公开(公告)号:CN111968675A
公开(公告)日:2020-11-20
申请号:CN202010662361.8
申请日:2020-07-10
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于手部识别的弦乐器音符比对系统,包括显示屏、摄像装置、手部关键点识别装置和智能终端,所述显示器与智能终端通信连接,所述智能终端与手部关键点识别装置通信连接,所述手部关键点识别装置与摄像装置通信连接。本发明还公开了基于手部识别的弦乐器音符比对系统的使用方法。本发明的弦乐器音符比对系统能够准确、实时地将弦乐器与吉他用户演奏声音转化成通用的MIDI音频数字信号,方便计算机传输与处理;让用户实时得到自己演奏音符与师傅演奏音符的差别,客观准确地评价自己的演奏水平;教琴者更加直观的得到弹奏者练琴的各项数据,让教琴者更加准确地评价弹奏者的演奏水平,给出指导意见,实现智能教学。
-
公开(公告)号:CN119296563A
公开(公告)日:2025-01-10
申请号:CN202411391984.0
申请日:2024-10-08
Applicant: 南京邮电大学
IPC: G10L21/0232 , G06N3/045 , G06N3/0442 , G06N3/0455 , G06N3/0464 , G06N3/048 , G06N3/0895 , G10L25/18 , G10L25/30
Abstract: 本发明公开了一种基于去统计实例归一化的自监督语音增强方法,包括训练阶段和测试阶段;在训练阶段获取训练语料,构建语音增强模型并进行训练,得到语音增强模型所需的参数和损失函数,而在测试阶段实现含噪语音的增强。语音增强模型包括特征提取模块和语音增强模块,特征提取模块选用自监督学习模型WavLM,语音增强模块选用BLSTM作为主要框架;在特征提取模块和语音增强模块之间提出去统计实例归一化,解决序列数据中的均值和方差等统计属性随时间变化而产生的分布偏移问题,提高模型预测的准确性和去噪效果。本发明自监督语音增强方法能够有效提高语音增强的性能,获得更高的语音感知质量和可懂度,实现高质量的语音增强。
-
公开(公告)号:CN118865938A
公开(公告)日:2024-10-29
申请号:CN202410920631.9
申请日:2024-07-10
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于多特征建模和粒度感知的情感语音转换方法,包括:预训练阶段、微调阶段和转换阶段,其中预训练阶段和微调阶段用于有效实现情感语音语言内容和情感韵律的充分解纠缠,转换阶段则利用训练好的模型分别提取源情感语音的语言内容和目标情感语音的情感韵律以完成测试语料情感状态的转换。为了进一步地提高转换情感语音的情感饱和度,实现高表现力的情感转换效果,本发明还提出了多韵律特征建模和粒度感知的改进方法,分别从韵律特征的多样性和粒度感知性方面来优化韵律空间,从而能够挖掘出更多的韵律信息,有效提升了转换情感语音的情感饱和度。
-
公开(公告)号:CN118859102A
公开(公告)日:2024-10-29
申请号:CN202410837357.9
申请日:2024-06-26
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G01S3/80 , G06F18/15 , G06F18/2131 , G06F18/2321
Abstract: 本发明提出了一种基于改进ESPRIT算法的宽带信号DOA估计方法,将ESPRIT算法所需的阵元偶麦克风阵列通过麦克风复用简化为均匀线阵;并针对阵列位移矢量大于信号最小半波长时出现的相位卷绕问题,在用窄带ESPRIT算法估计宽带信号声源DOA的任务上给出了基于聚类的解卷绕方案。以开始出现相位卷绕的频率点为界限,将整个频带分为两部分。统计无相位卷绕的部分频率点信号DOA估计结果作为聚类中心的初始值,利用先验聚类中心对应的方向角引导存在相位卷绕的部分频率点信号进行相位解卷绕,从而避免拓展孔径阵列对中高频率信号DOA估计造成的误差,实现全频带的无相位卷绕DOA估计。该方法使得麦克风阵列能够藉由拓展阵列孔径获得更准确的估计结果。
-
公开(公告)号:CN118645083A
公开(公告)日:2024-09-13
申请号:CN202410920630.4
申请日:2024-07-10
Applicant: 南京邮电大学
Abstract: 本发明公开了一种基于多尺度信息的编‑解码器结构的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段中编码器对声学特征解耦,获得说话人信息表征和内容表征;编码器和解码器之间采用U型连接,将说话人信息表征从编码器传递到解码器;多尺度信息提取网络进一步提取内容表征中的多尺度信息;解码器将获取的说话人信息表征和包含多尺度信息的内容表征进行重构。本发明在训练阶段引入深度监督机制,在不同解码阶段引入监督信号,学习多尺度的重构特征表示,为最终输出重构特征提供多尺度信息;利用多尺度信息提取网络和深度监督机制,使转换语音包含更详细的多尺度信息,进一步提高转换语音的自然度,从而实现高质量的跨语种语音转换。
-
公开(公告)号:CN118366475A
公开(公告)日:2024-07-19
申请号:CN202410415397.4
申请日:2024-04-08
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
Abstract: 本发明公开了一种基于局部差异信息辅助的小样本类增量音频分类方法,本发明包括计算模块预训练阶段和分类器融合阶段,将音频分类数据集样本按照类别划分为基类、伪新类和新类,这三个类别互不重叠;所述计算模块预训练阶段为训练特征提取网络,基类分类器和小样本分类权重生成器;所述分类器融合阶段为:从基类中选取每个类别的代表性样本与新类样本混合得到混合样本,将基类分类器与新类分类器级联输入到知识保存模块中,基于混合样本训练知识保存模块,输出能够同时识别基类和新类的统一分类器。本发明改善了相似的新类与基类之间的混淆问题,提高了模型同时识别基类和新类的准确率。
-
公开(公告)号:CN118298832A
公开(公告)日:2024-07-05
申请号:CN202410332064.5
申请日:2024-03-22
Applicant: 南京邮电大学
IPC: G10L17/02 , G06F18/241 , G06F18/213 , G06F18/214 , G06N3/048 , G06F18/25 , G10L17/04 , G10L17/06 , G10L17/18 , G10L17/22 , G10L25/24 , G10L25/30 , G10L25/51
Abstract: 本发明公开了一种基于特征增强注意力机制的语音欺骗检测方法,包括训练阶段和测试阶段,在训练阶段获取训练语料并进行预处理,构建语音欺骗检测模型,将训练语料的声学特征输入到检测模型中进行模型训练,检测模型包括特征提取和分类两大部分,在特征提取中提出特征增强注意力机制,包括局部编码模块和全局感知模块,局部编码模块用于聚合局部特征区域,全局感知模块用于捕获特征的全局远程依赖关系,然后将提取到的局部特征和全局特征进行融合得到增强特征,并输入至分类器中进行真伪分类;然后在测试阶段完成对真实语音和合成语音真伪的检测,实现高质量的语音欺骗检测。
-
-
-
-
-
-
-
-
-