-
公开(公告)号:CN116504274B
公开(公告)日:2024-07-30
申请号:CN202310623582.8
申请日:2023-05-30
Applicant: 南开大学
Abstract: 本发明涉及计算机处理技术领域,更具体地,涉及一种利用检索增强的非侵入式语音质量评测方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,将预训练模型作为特征提取器提取语音表征,并将多任务头作为分数解码器在MOS数据集上进行微调;步骤S103,收集表征‑分数键值对构建数据存储集;步骤S104,构建近邻学习网络,为每个语音实例动态调整近邻个数,得到检索分数;步骤S105,构建融合网络,为每个语音实例动态调整预测得分和检索得分比例,获得最终得分。
-
公开(公告)号:CN116645980A
公开(公告)日:2023-08-25
申请号:CN202310794609.X
申请日:2023-06-30
Applicant: 南开大学
Abstract: 本发明涉及计算机处理技术领域,更具体地,涉及一种聚焦样本特征间距的全生命周期语音情感识别方法。在预训练阶段,本发明引入大规模预训练模型提取更为准确的语音表征;在微调阶段,通过交叉熵损失和有监督对比学习损失加权求和的结果,指导模型进行微调,使模型学习到的样本表征间距获得改善;在推理阶段,首先构造数据存储集合,用来存储训练集和验证集的样本表征及样本标签,为进一步利用改善后的样本间距,通过K最近邻检索增强的方法,检索得到数据存储集合中与测试样本最相似的K个样本,将检索得到的标签分布与模型对于测试样本的推理分布结果进行加权求和,得到测试样本的最终预测标签。
-
公开(公告)号:CN115188364A
公开(公告)日:2022-10-14
申请号:CN202211106844.5
申请日:2022-09-13
Applicant: 南开大学
IPC: G10L13/027 , G10L13/08 , G10L25/18 , G10L25/30
Abstract: 本发明公开了一种基于卷积网络和编码器解码器模型的多语种语音合成方法,将待合成的多语种文本信息不经过音素化而是直接按照一定的标准转换为图片,图片中每个字符的长度和宽度是预先定义好的,并且蕴含了重音、韵律、音色、情感等发音信息;然后对生成的图片进行特征提取,再将提取到的图片特征信息送入声学模型中,完成从图片特征到声学特征的映射,最后利用声码器进一步还原为语音波形,生成目标语音。本发明简化了多语种语音合成问题前端处理流程,避免了注音问题和归一化等问题;提升多语种语音合成模块的可扩展性,可以在模型结构不发生变化的情况下将模型功能进行拓展。
-
公开(公告)号:CN118942445A
公开(公告)日:2024-11-12
申请号:CN202410938705.1
申请日:2024-07-14
Applicant: 南开大学
Abstract: 本发明属于语音识别技术领域,更具体地,涉及一种基于原型的构音障碍语音识别方法。该方法包括以下步骤:S1、微调用于特征提取的HuBERT,在构音障碍语音识别任务上对预训练的自监督学习模型HuBERT进行微调,在微调阶段使用CTC损失和监督对比学习损失来有效地指导模型的训练,微调后的HuBERT用作特征提取器;S2、构建每个单词的原型;S3、基于原型的分类。本发明提供了一种快速有效的方法来提高对未见过的构音障碍说话人的语音识别。本发明将CTC损失与SCL损失相结合,以训练DSR模型,通过学习更好的特征表示来提高性能。
-
公开(公告)号:CN116524958B
公开(公告)日:2024-10-22
申请号:CN202310623577.7
申请日:2023-05-30
Applicant: 南开大学
Abstract: 本发明属于计算机处理技术领域,更具体地,涉及一种基于质量对比学习的合成音质量评测模型的训练方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,设置中间任务,并定义正负样本,进行数据集中的正负样本划分;步骤S103,定义带权重的损失函数,控制训练目标,调整正负样本对表征的距离;步骤S104,在预训练模型基础上增加中间任务头,并按照上述规则进行训练;步骤S105,保留步骤S104阶段训练得到的特征提取部分,增加下游任务头,以最小化预测分数和标签分数的均方误差为目标进行训练。
-
公开(公告)号:CN117496961A
公开(公告)日:2024-02-02
申请号:CN202311573939.2
申请日:2023-11-23
Applicant: 南开大学
Abstract: 本发明属于语音识别技术领域,更具体地,涉及一种使用检索增强技术强化CTC解码的语音识别方法。该方法给定一个预训练后的CTC解码模型,首先利用数据经过特征编码器得到帧级别向量,然后以帧级别的向量与CTC伪标签形成键值对,构造细粒度键值数据存储。最后,在解码阶段通过检索帧级向量和对应的CTC伪标签对CTC解码解决进行线性插值,提升语音识别系统的性能。
-
公开(公告)号:CN116504274A
公开(公告)日:2023-07-28
申请号:CN202310623582.8
申请日:2023-05-30
Applicant: 南开大学
Abstract: 本发明涉及计算机处理技术领域,更具体地,涉及一种利用检索增强的非侵入式语音质量评测方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,将预训练模型作为特征提取器提取语音表征,并将多任务头作为分数解码器在MOS数据集上进行微调;步骤S103,收集表征‑分数键值对构建数据存储集;步骤S104,构建近邻学习网络,为每个语音实例动态调整近邻个数,得到检索分数;步骤S105,构建融合网络,为每个语音实例动态调整预测得分和检索得分比例,获得最终得分。
-
公开(公告)号:CN115757860A
公开(公告)日:2023-03-07
申请号:CN202211480294.3
申请日:2022-11-24
Applicant: 南开大学
IPC: G06F16/65 , G06F16/683 , G06F18/2415 , G06F18/25 , G06F40/242 , G06F40/289 , G06N3/0464 , G06N3/048
Abstract: 本发明公开了一种基于多模态融合的音乐情感标签生成方法,构建了基于多模态融合的音乐情感分类模型,该模型包括歌词文本数据特征提取模块、音频梅尔谱图数据特征提取模块、脑电频谱图数据特征提取模块、特征维度调整模块、特征拼接模块以及分类器模块。以音乐的歌词文本、音乐的音频梅尔谱图以及受听者对音乐的脑电频谱图等多个模态数据来预测音乐情感类别,增强了音乐情感标签识别的准确性和客观性。
-
公开(公告)号:CN116524958A
公开(公告)日:2023-08-01
申请号:CN202310623577.7
申请日:2023-05-30
Applicant: 南开大学
IPC: G10L25/60
Abstract: 本发明属于计算机处理技术领域,更具体地,涉及一种基于质量对比学习的合成音质量评测模型的训练方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,设置中间任务,并定义正负样本,进行数据集中的正负样本划分;步骤S103,定义带权重的损失函数,控制训练目标,调整正负样本对表征的距离;步骤S104,在预训练模型基础上增加中间任务头,并按照上述规则进行训练;步骤S105,保留步骤S104阶段训练得到的特征提取部分,增加下游任务头,以最小化预测分数和标签分数的均方误差为目标进行训练。
-
-
-
-
-
-
-
-