-
公开(公告)号:CN118969014A
公开(公告)日:2024-11-15
申请号:CN202411194757.9
申请日:2024-08-29
Applicant: 南京龙垣信息科技有限公司 , 南京邮电大学
Abstract: 本发明涉及医疗检测技术领域,具体涉及一种基于PANNs结构的口吃类型检测方法,包括:获取原始训练数据并进行各种变换处理,生成具有多样性的训练数据,以增加训练数据的多样性,将具有多样性的训练数据置入PANNs‑CNN14模型中对PANNs‑CNN14模型进行预训练,基于预训练好的PANNs‑CNN14模型来提取声音的深层特征,精准的识别和分类不同的口吃类型,将PANNs‑CNN14模型输出进行解码转换为二进制标签,获得具体的口吃事件标签,完成对口吃事件的分类和识别,达到了不依赖于特定语言的语音识别特性,可以适应各种语言的音频数据,提高了系统的通用性和适应性的效果。
-
公开(公告)号:CN118707439A
公开(公告)日:2024-09-27
申请号:CN202410837353.0
申请日:2024-06-26
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G01S3/80 , G10L25/27 , G10L25/51 , G06F18/2131 , G06F18/2132 , G06F18/23 , G06F18/2413 , G06F123/02
Abstract: 本发明提出了一种拓展孔径双麦克风阵列宽带无模糊DOA估计方法,针对麦克风阵列拓展孔径产生相位模糊的问题,在用窄带MUSIC算法估计宽带信号声源DOA的任务上给出了基于聚类的解模糊方案。以开始出现相位模糊的频率点为界限,将整个频带分为两部分。对于无相位模糊的部分频率点,直接用窄带MUSIC算法估计信号的MUSIC谱,读取峰值坐标为当前频率点信号DOA估计结果;并用这部分频带信号的估计结果初始化聚类中心,引导存在相位模糊的部分频率点,对存在伪峰的谱函数进行修正,从修正后的谱函数上读取峰值坐标为当前频率点信号估计结果。从而实现全频带的无模糊DOA估计。该方法使得双麦克风阵列能够藉由拓展阵列孔径获得更准确的DOA估计结果。
-
公开(公告)号:CN118571244A
公开(公告)日:2024-08-30
申请号:CN202410615296.1
申请日:2024-05-17
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G10L21/0216 , G10L21/0264 , G10L21/0208 , G10L25/45
Abstract: 本发明提出了一种基于自适应步长最小均方误差滤波器的广义旁瓣消除方法,根据基于循环插值的双通道互相关算法和宽带MUSIC算法,利用麦克风阵列从音频中收集目标语音的波达方向信息,根据波达方向信息补偿麦克风阵列各通道音频间的时延,并将时延补偿后的音频在时频域上表示,作为波束形成部分的输入,分别计算时延补偿后的音频通过固定波束形成滤波器和阻塞矩阵后得到的固定波束形成结果和多路参考噪声信号;估计音频中噪声的功率谱密度。最后计算固定波束形成器输出和噪声抑制后的参考噪声的残差,作为当前帧算法的输出;再将该输出反馈给噪声抑制滤波器,计算下一帧噪声抑制滤波器的权值,从而消除残留的旁瓣噪声,达到降噪的目的。
-
公开(公告)号:CN117437937A
公开(公告)日:2024-01-23
申请号:CN202311527659.8
申请日:2023-11-16
Applicant: 南京邮电大学
Abstract: 本发明公开了基于时频谱遮蔽的待修复语音的判别与修复方法、系统,该方法包括对原始语音进行处理,并应用掩码分别形成初始训练集的对照数据和性能测试数据集;提取原始语音和对照数据的频谱特征,将时域信号转化为频域信息,分别保存为原始数据集和对照数据集并打标签;构建基于频谱信息的频谱自注意力神经网络模型提取浅层和深层频谱信息特征,通过跳跃链接层链接特征,添加全连接神经网络,得到语音被掩码概率值;构建基于频谱自注意力的卷积神经网络模型,根据损失值进行反向传播,调整模型参数,判断该语音片段是否需要修复;将待修复和已修复音频,忽略时间标记后储存。本发明提高了在固定场景下的判别效率,实现了高精度的判别目标。
-
公开(公告)号:CN118379502B
公开(公告)日:2024-10-11
申请号:CN202410815453.3
申请日:2024-06-24
Applicant: 南京邮电大学
IPC: G06V10/26 , G06V10/774 , G06V10/74 , G06V10/764 , G06V10/82 , G06F17/16
Abstract: 本发明公开基于空间视觉和统计关系蒸馏的持续语义分割方法及系统,属于持续语义分割领域;基于空间视觉和统计关系蒸馏的持续语义分割方法包括基于新旧模型的特征提取网络提取图片的多层特征,并划分为多尺度特征子区域;基于划分的特征子区域,建模特征图的空间视觉相似性关系以及空间统计相似性关系;基于知识蒸馏构建新旧模型特征图的空间视觉、统计相似性关系的一致性约束。能够很好地保存持续语义分割模型学习过的旧知识,同时减轻过于严格的特征或置信度一致性约束对于模型学习新知识的阻碍,从而提高持续语义分割任务的准确性。
-
公开(公告)号:CN118298839A
公开(公告)日:2024-07-05
申请号:CN202410332076.8
申请日:2024-03-22
Applicant: 南京邮电大学
IPC: G10L21/02 , G06N3/0464 , G06N3/045 , G06N3/0985 , G06N3/0442 , G06N3/048 , G06N3/0895 , G10L21/0216 , G10L25/30 , G10L25/48
Abstract: 本发明公开了一种基于全局掩码的自监督语音增强方法,包括训练阶段和测试阶段,构建的语音增强模型,包括特征提取模块、语音增强模块和全局掩码映射器,特征提取模块选用自监督学习模型WavLM,语音增强模块选用BLSTM作为主要框架;在WavLM模型中提出全局掩码,从而实现全局感知,补充语音重建所需要的信息,然后将提取到的声学特征传递到BLSTM模型中进行增强,最后提出全局掩码映射器,对所有被掩码的位置进行采样,并将所有盲点分配到同一层,从而允许损失函数一次性优化所有盲点,加速训练,得到全局去噪后的增强语音。本发明方法能够有效提高语音增强的性能,改善降噪效果,获得更高的语音感知质量和可懂度,实现高质量的语音增强。
-
公开(公告)号:CN120048241A
公开(公告)日:2025-05-27
申请号:CN202510192231.5
申请日:2025-02-21
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G10L13/02 , G10L13/033 , G10L25/18 , G10L25/30 , G10L25/90
Abstract: 本发明涉及语言转换技术领域,具体涉及一种基于图卷积网络的匿名说话人攻击方法;包括如下步骤:将F0特征与原始F0特征进行拼接融合作为新F0特征;提取音频的特征并进行矢量量化;将处理后的F0特征和特征进行拼接,生成匿名化语音;计算来自试验话语和注册话语的说话者嵌入;输出匿名化试验话语嵌入和匿名化注册话语嵌入的相似性分数,根据分数判断是否属于同一说话人;通过多个试验和注册话语对,计算等错误率作为性能指标,评估攻击者系统对匿名化系统的攻击能力;通过考虑F0特征不同帧之间的时间相关性,利用图卷积网络和F0特征协同匿名说话人身份信息,来提升攻击者系统性能。
-
公开(公告)号:CN119993175A
公开(公告)日:2025-05-13
申请号:CN202510157170.9
申请日:2025-02-13
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G10L21/02 , G10L21/0208 , G10L21/0224 , G10L21/0232 , G10L25/30 , G06N3/0464
Abstract: 本发明涉及语音增强技术领域,具体涉及一种基于改进卷积循环网络的轻量化单通道语音增强方法:充分利用改进卷积循环网络在提取特征时的出色能力,使用聚合分组双路径循环网络和卷积混合分组双路径循环网络来提升多通道的深度时频特征以及对各通道之间的特征进行融合,使得深度特征所包含的语音信息更加的丰富,再利用深度特征来训练分离模型,进一步增强语音的性能,并且提出了聚合分组双路径循环网络和卷积混合分组双路径循环网络,改进了分组双路径循环网络架构,不仅使得卷积循环网络的语音增强性能得到了提升,而且保持了模型的轻量化,从而提高了增强模型的有效性,使得增强语音的清晰度和可懂度提高。
-
公开(公告)号:CN118859102A
公开(公告)日:2024-10-29
申请号:CN202410837357.9
申请日:2024-06-26
Applicant: 南京邮电大学 , 南京龙垣信息科技有限公司
IPC: G01S3/80 , G06F18/15 , G06F18/2131 , G06F18/2321
Abstract: 本发明提出了一种基于改进ESPRIT算法的宽带信号DOA估计方法,将ESPRIT算法所需的阵元偶麦克风阵列通过麦克风复用简化为均匀线阵;并针对阵列位移矢量大于信号最小半波长时出现的相位卷绕问题,在用窄带ESPRIT算法估计宽带信号声源DOA的任务上给出了基于聚类的解卷绕方案。以开始出现相位卷绕的频率点为界限,将整个频带分为两部分。统计无相位卷绕的部分频率点信号DOA估计结果作为聚类中心的初始值,利用先验聚类中心对应的方向角引导存在相位卷绕的部分频率点信号进行相位解卷绕,从而避免拓展孔径阵列对中高频率信号DOA估计造成的误差,实现全频带的无相位卷绕DOA估计。该方法使得麦克风阵列能够藉由拓展阵列孔径获得更准确的估计结果。
-
公开(公告)号:CN118379502A
公开(公告)日:2024-07-23
申请号:CN202410815453.3
申请日:2024-06-24
Applicant: 南京邮电大学
IPC: G06V10/26 , G06V10/774 , G06V10/74 , G06V10/764 , G06V10/82 , G06F17/16
Abstract: 本发明公开基于空间视觉和统计关系蒸馏的持续语义分割方法及系统,属于持续语义分割领域;基于空间视觉和统计关系蒸馏的持续语义分割方法包括基于新旧模型的特征提取网络提取图片的多层特征,并划分为多尺度特征子区域;基于划分的特征子区域,建模特征图的空间视觉相似性关系以及空间统计相似性关系;基于知识蒸馏构建新旧模型特征图的空间视觉、统计相似性关系的一致性约束。能够很好地保存持续语义分割模型学习过的旧知识,同时减轻过于严格的特征或置信度一致性约束对于模型学习新知识的阻碍,从而提高持续语义分割任务的准确性。
-
-
-
-
-
-
-
-
-