-
公开(公告)号:CN119785762A
公开(公告)日:2025-04-08
申请号:CN202510003560.0
申请日:2025-01-02
Applicant: 东南大学
IPC: G10L13/027 , G10L13/08 , G10L21/0208 , G10L25/30
Abstract: 本发明涉及一种提升合成音频自然度以及降噪的方法,包括以下步骤:步骤1,构建音素编码器,步骤2,构建方差适配器,步骤3,构建频谱降噪器,实现提升合成音频自然度以及降噪;该方案提出在音素编码器阶段,加入基于Transformer的双向编码器,能够利用较少的训练资源,完成语音合成模型的训练;本发明首次将具有选择性状态空间的线性时间序列建模用于语音合成任务,借助于小波分解在图像去噪领域的应用,将其引入语音合成网络,成功地减少了生成音频的噪声。
-
公开(公告)号:CN119415759A
公开(公告)日:2025-02-11
申请号:CN202411318533.4
申请日:2024-09-20
Applicant: 东南大学
IPC: G06F16/951 , G06F16/9537 , G06F16/958 , G06F16/2458 , G06F16/28 , G06F16/353 , G06F40/284 , G06F40/30 , G06Q50/00 , G06N3/0442 , G06N3/045 , G06N3/082 , G06N3/084
Abstract: 本发明公开了基于立场检测的多层次评论分析方法,具体如下:爬取微博中用户发表的评论,进行数据清洗后采用本发明构建的立场检测模型标记评论立场。本发明提供了四种基于立场的分析功能,分别为基于立场的词云分析、基于立场的时间序列分析、基于立场的性别分析和基于立场的地理位置分析,该方案可以根据用户对于评论立场的反馈构建新的数据集,可以用新数据集辅助模型训练,进一步提高立场检测模型的精度。
-
公开(公告)号:CN118447922A
公开(公告)日:2024-08-06
申请号:CN202410614412.8
申请日:2024-05-17
Applicant: 东南大学
Abstract: 本发明公开了一种基于视觉语言模型的EGFR基因突变少样本检测方法,首先,向预训练的视觉语言模型输入少量PET‑CT图像与疾病描述,通过这些少量样本筛选出有效的疾病描述并计算出超参数;然后,输入剩余PET‑CT图像与筛选出的疾病描述,利用已获得的超参数,对剩余样本进行预测分类;最后,统计分类结果,计算识别率与其他指标。本发明构造的基于视觉语言模型的EGFR基因突变少样本检测方法,摒弃了传统的训练神经网络的方法,应用视觉与语言两个模态,构造PET、CT双通道,引入疾病描述的筛选机制,在不训练模型的基础上,发掘了预训练模型的潜能,在非小细胞肺癌EGFR基因突变的检测任务上获得了优秀的结果。
-
公开(公告)号:CN113539232B
公开(公告)日:2024-05-14
申请号:CN202110781210.9
申请日:2021-07-10
Applicant: 东南大学
IPC: G10L13/047 , G10L13/033 , G10L13/08 , G10L25/24 , G10L25/30 , G10L19/16 , G06N3/0464 , G06N3/0442 , G06N3/047 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于慕课语音数据集的语音合成方法,该方法的主要特征在于通过真实场景下的语音构建的数据集进行语音合成,并进行说话人转换和多语种语音合成;该方法运用端到端的语音合成模型生成梅尔频谱,并用基于生成对抗网络的声码器将梅尔频谱转换成最终音频。本发明在真实场景下的语音数据集上有良好的效果,降低了语音合成所需数据的要求,提高了合成音频的质量,使合成音频更贴近真实说话场景。
-
公开(公告)号:CN116385951A
公开(公告)日:2023-07-04
申请号:CN202310366961.3
申请日:2023-04-07
Applicant: 东南大学
Abstract: 本发明公开了一种基于计算机视觉的桌面应用信息提取与组织方法,首先获取目标桌面的应用图像,所述图像为桌面应用软件使用过程中的一系列图像帧;再通过图像处理技术分析应用软件的版面布局信息,所述图像处理技术至少包括灰度处理、边缘检测、长直线检测和连通域分析;通过基于深度学习的文本检测网络和文本识别网络对应用图像进行文本块检测及识别文本内容;所述文本检测网络采用可微分二值化网络DBNet,文本识别网络采用端到端网络CRNN;最后将版面布局信息与文本识别结果进行信息融合,采用JSON格式输出图像的描述文档,完成桌面应用信息的提取和组织。
-
-
公开(公告)号:CN115019358A
公开(公告)日:2022-09-06
申请号:CN202110951389.8
申请日:2021-08-18
Applicant: 东南大学
Abstract: 本发明公开了一种真实场景下的多模态数据集的构建方法,该方法将慕课授课视频构建成包含音频、图像、视频三个模态的数据集;该方法使用多任务卷积神经网络进行人脸检测,使用FaceNet提取说话人特征并构建人脸库,在扫描视频的过程中逐步扩充完善人脸库,通过计算视频截取的人脸与人脸库中人脸的欧氏距离,对视频进行分类,并结合ffmpeg完成批量自动化视频分类和分割,构造出同时带有说话人面部视觉信息和说话人声音信息的数据集。本发明通过采集慕课网授课视频,保证了数据集的音频多样性和场景真实性,有助于训练音频相关深度学习模型的泛化性能;且全自动批处理方法提高了多模态数据集的构建效率。
-
-
公开(公告)号:CN113823308A
公开(公告)日:2021-12-21
申请号:CN202111100709.5
申请日:2021-09-18
Applicant: 东南大学
IPC: G10L21/0208 , G10L21/0232 , G10L21/0264 , G10L25/30 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种仅使用单个带噪语音样本进行语音去噪的方法。该方法包括以下步骤:(1)对于干净的语音信号,分别叠加合成噪声和真实世界的不同噪声类型生成带噪语音样本;(2)对于单个带噪语音样本,使用一个语音下采样器生成一对语音训练样本;(3)将训练的输入语音转化为频谱图,然后输入去噪网络进行训练,该去噪网络在十层深度复数Unet的编码器和解码器之间叠加了复数两级Transformer模块;(4)训练使用的损失函数由基础损失和正则化损失组成,基础损失由网络特点决定,正则化损失可以防止单样本去噪训练出现过度平滑现象。对比使用干净语音以及使用一对带噪语音进行训练的传统方法,该方案在信噪比、语音质量感知评估、短时客观可懂度等多个评估指标上均取得了更好的结果。
-
公开(公告)号:CN106991251B
公开(公告)日:2020-03-31
申请号:CN201710285324.8
申请日:2017-04-27
Applicant: 东南大学
IPC: G06F30/20
Abstract: 本发明公开了一种高速公路交通流元胞机仿真方法,是融合多路段车辆密度和车道个数变化的高速公路交通流元胞机仿真方法,建立一个基于真实的高速公路的流量情况,多路段不同道路特征、车辆情况建立的元胞机的仿真模型。将检测到的流量,映射到道路密度进行道路的状态仿真,做真实的测量数据和元胞机的车辆数的映射;并提出了元胞机的新的一种边界条件,考虑高速公路车道个数变化,多个路段的密度不一样,并且涉及到车道之间的车辆信息传递的一些工作,经过检验,交通流仿真结果更为精确,能够模拟实际的交通流的数据。
-
-
-
-
-
-
-
-
-