一种提升合成音频自然度以及降噪的方法

    公开(公告)号:CN119785762A

    公开(公告)日:2025-04-08

    申请号:CN202510003560.0

    申请日:2025-01-02

    Applicant: 东南大学

    Abstract: 本发明涉及一种提升合成音频自然度以及降噪的方法,包括以下步骤:步骤1,构建音素编码器,步骤2,构建方差适配器,步骤3,构建频谱降噪器,实现提升合成音频自然度以及降噪;该方案提出在音素编码器阶段,加入基于Transformer的双向编码器,能够利用较少的训练资源,完成语音合成模型的训练;本发明首次将具有选择性状态空间的线性时间序列建模用于语音合成任务,借助于小波分解在图像去噪领域的应用,将其引入语音合成网络,成功地减少了生成音频的噪声。

    通用的成像物理驱动的CT数据仿真及CT图像噪声伪影抑制方法

    公开(公告)号:CN119151817A

    公开(公告)日:2024-12-17

    申请号:CN202411184729.9

    申请日:2024-08-27

    Applicant: 东南大学

    Abstract: 本发明公开了一种通用的成像物理驱动的CT数据仿真及CT图像噪声伪影抑制方法。本发明分别计算得到真实CT图像和真实CBCT图像中骨头、脂肪、肌肉以及空气的像素值,构建映射函数,将CT图像中各组织的像素值映射为真实CBCT图像中对应部位的像素值,得到仿真的CBCT数据。然后,使用正投影函数得到仿真CBCT数据的投影,通过稀疏采样角度和添加投影域噪声的方式模拟低剂量CBCT的投影数据,然后通过FDK函数将投影域数据重建,以这样一种通用的成像物理驱动的方式得到成对的可支持有监督学习的仿真CBCT数据。测试结果表明,该方法在模拟数据和真实数据上,无论是减少伪影、抑制噪声、恢复图像细节方面都具有良好的结果。

    一种真实场景下的多模态数据集的构建方法

    公开(公告)号:CN115019358A

    公开(公告)日:2022-09-06

    申请号:CN202110951389.8

    申请日:2021-08-18

    Applicant: 东南大学

    Abstract: 本发明公开了一种真实场景下的多模态数据集的构建方法,该方法将慕课授课视频构建成包含音频、图像、视频三个模态的数据集;该方法使用多任务卷积神经网络进行人脸检测,使用FaceNet提取说话人特征并构建人脸库,在扫描视频的过程中逐步扩充完善人脸库,通过计算视频截取的人脸与人脸库中人脸的欧氏距离,对视频进行分类,并结合ffmpeg完成批量自动化视频分类和分割,构造出同时带有说话人面部视觉信息和说话人声音信息的数据集。本发明通过采集慕课网授课视频,保证了数据集的音频多样性和场景真实性,有助于训练音频相关深度学习模型的泛化性能;且全自动批处理方法提高了多模态数据集的构建效率。

    一种使用单个带噪语音样本进行语音去噪的方法

    公开(公告)号:CN113823308A

    公开(公告)日:2021-12-21

    申请号:CN202111100709.5

    申请日:2021-09-18

    Applicant: 东南大学

    Abstract: 本发明提供了一种仅使用单个带噪语音样本进行语音去噪的方法。该方法包括以下步骤:(1)对于干净的语音信号,分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本;(2)对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本;(3)将训练的输入语音转化为频谱图,然后输入去噪网络进行训练,该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块;(4)训练使用的损失函数由基础损失和正则化损失组成,基础损失由网络特点决定,正则化损失可以防止单样本去噪训练出现过度平滑现象。对比使用干净语音以及使用一对带噪语音进行训练的传统方法,该方案在信噪比、语音质量感知评估、短时客观可懂度等多个评估指标上均取得了更好的结果。

    一种基于稀疏贝叶斯学习的源定位方法

    公开(公告)号:CN108802683B

    公开(公告)日:2021-04-27

    申请号:CN201810540578.4

    申请日:2018-05-30

    Applicant: 东南大学

    Abstract: 本发明公开了一种基于可预测简正波的稀疏贝叶斯学习的源定位方法,属于信号处理技术领域。本发明的方法针对现有基于稀疏贝叶斯学习的匹配场处理方法存在环境失配的问题,利用不同简正波受到环境变化影响的差异,提取出受到环境变化影响较少的简正波来计算拷贝场字典。由于声场由简正波叠加而成,提取其中受到环境影响较小的简正波部分作为可预测简正波计算拷贝场字典,从而减少环境失配带来的定位误差,提升了对环境失配的鲁棒性。

    一种融合边界信息的图像目标区提取方法及应用

    公开(公告)号:CN110148145A

    公开(公告)日:2019-08-20

    申请号:CN201910226802.7

    申请日:2019-03-25

    Applicant: 东南大学

    Abstract: 本发明涉及一种融合边界信息的图像目标区提取方法及应用,引入双神经网络先后应用,即采用神经网络RCF模型,以及改进型语义分割网络SegNet,针对目标类型灰度图像中的目标区域图像实现高效提取,其中能够结合局部特征和全局特征,有效克服网络下采样过程中细节特征丢失的问题,因此将设计方案应用于脑组织提取过程中,对于比较难分割的脑组织边界区域,能得到更好的脑组织区域图像提取效果。

    一种结合全局和局部信息的大脑磁共振图像分割方法

    公开(公告)号:CN109472263A

    公开(公告)日:2019-03-15

    申请号:CN201811186880.0

    申请日:2018-10-12

    Applicant: 东南大学

    Abstract: 本发明公开了一种结合全局和局部信息的大脑磁共振图像分割方法,包括:利用构建的端到端卷积神经网络对大脑磁共振图像进行分割,得到各类别的预测概率分布;对于大脑磁共振图像利用线性迭代聚类超体素算法生成超体素;将分割所得预测概率分布和所生成超体素融合得到分割结果的大脑磁共振图像,包括:找出超体素在各类别预测概率分布中的对应区域;统计找出各对应区域中背景、脑脊液、灰质和白质出现次数,并计算各个类别出现的比重;利用超体素类别比例方法对各类别预测概率分布重新赋值;求出其类别概率最大的一类,及将类别作为该像素点的类别标签,得到分割结果的大脑磁共振图像。本发明可提高分割精度,得到较好的大脑磁共振图像分割结果。

    基于三维非线性偏直接相干函数的脑电信号间效应连通性检测方法

    公开(公告)号:CN109124623A

    公开(公告)日:2019-01-04

    申请号:CN201810554759.2

    申请日:2018-06-01

    Applicant: 东南大学

    CPC classification number: A61B5/0476 A61B5/7225

    Abstract: 本发明公开了一种基于三维非线性偏直接相干函数的脑电信号间效应连通性检测方法,包括如下步骤:(1)构造单输入多输出的非线性自回归模型;(2)应用FROLS算法对步骤(1)构造的模型进行系数估计;(3)对三维PDS进行形式变换,得到用频率响应函数描述的信号yi对yj的PDC的定义式;(4)应用Volterra级数核函数的多维傅里叶变换对SIMO NARX模型进行频域分析,计算出模型的非线性频率响应函数;(5)将步骤(4)计算出的非线性频率响应函数代入步骤(3)中的PDC定义式,得到三维NPDC,得出在同时考虑三维信号的情况下某一信号对另一信号的因果影响。该方法可以检测三维脑电信号之间的因果关系。

Patent Agency Ranking