一种利用检索增强的非侵入式语音质量评测方法

    公开(公告)号:CN116504274B

    公开(公告)日:2024-07-30

    申请号:CN202310623582.8

    申请日:2023-05-30

    Applicant: 南开大学

    Abstract: 本发明涉及计算机处理技术领域,更具体地,涉及一种利用检索增强的非侵入式语音质量评测方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,将预训练模型作为特征提取器提取语音表征,并将多任务头作为分数解码器在MOS数据集上进行微调;步骤S103,收集表征‑分数键值对构建数据存储集;步骤S104,构建近邻学习网络,为每个语音实例动态调整近邻个数,得到检索分数;步骤S105,构建融合网络,为每个语音实例动态调整预测得分和检索得分比例,获得最终得分。

    基于卷积网络和编码器解码器模型的多语种语音合成方法

    公开(公告)号:CN115188364A

    公开(公告)日:2022-10-14

    申请号:CN202211106844.5

    申请日:2022-09-13

    Applicant: 南开大学

    Abstract: 本发明公开了一种基于卷积网络和编码器解码器模型的多语种语音合成方法,将待合成的多语种文本信息不经过音素化而是直接按照一定的标准转换为图片,图片中每个字符的长度和宽度是预先定义好的,并且蕴含了重音、韵律、音色、情感等发音信息;然后对生成的图片进行特征提取,再将提取到的图片特征信息送入声学模型中,完成从图片特征到声学特征的映射,最后利用声码器进一步还原为语音波形,生成目标语音。本发明简化了多语种语音合成问题前端处理流程,避免了注音问题和归一化等问题;提升多语种语音合成模块的可扩展性,可以在模型结构不发生变化的情况下将模型功能进行拓展。

    一种基于最近邻检索增强的持续学习方法

    公开(公告)号:CN117669682A

    公开(公告)日:2024-03-08

    申请号:CN202311701794.X

    申请日:2023-12-12

    Applicant: 南开大学

    Abstract: 本发明涉及计算机数据处理技术领域,更具体地,涉及一种基于最近邻检索增强的持续学习方法。kNN‑CL引入k最近邻检索技术,无需额外训练成本,有效应对数据不平衡,解决过拟合问题,提高了泛化性能。与传统方法不同,kNN‑CL可通过检索某条测试数据的k近邻,其k近邻仅仅与该条测试数据有关,从而实现了有选择地检索各个任务的数据存储,节约时间和资源。

    一种基于实体空间关系推理的三维场景生成方法

    公开(公告)号:CN117593455A

    公开(公告)日:2024-02-23

    申请号:CN202311573940.5

    申请日:2023-11-23

    Applicant: 南开大学

    Abstract: 本发明属于计算机三维场景生成领域,更具体地,涉及一种基于实体空间关系推理的三维场景生成方法。该方法使用大语言模型的推理能力与特定任务学习能力结合,推理总结文本描述中的实体与空间位置关系。通过这种方式,可以将文本描述的场景转换成具体的三维场景,并在三维引擎中进行渲染和展示。这种方法可以广泛应用于虚拟现实、游戏开发、影视制作等领域,对于提高工作效率和创新能力具有重要价值。

    基于质量对比学习的合成音质量评测模型的训练方法

    公开(公告)号:CN116524958A

    公开(公告)日:2023-08-01

    申请号:CN202310623577.7

    申请日:2023-05-30

    Applicant: 南开大学

    Abstract: 本发明属于计算机处理技术领域,更具体地,涉及一种基于质量对比学习的合成音质量评测模型的训练方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,设置中间任务,并定义正负样本,进行数据集中的正负样本划分;步骤S103,定义带权重的损失函数,控制训练目标,调整正负样本对表征的距离;步骤S104,在预训练模型基础上增加中间任务头,并按照上述规则进行训练;步骤S105,保留步骤S104阶段训练得到的特征提取部分,增加下游任务头,以最小化预测分数和标签分数的均方误差为目标进行训练。

    基于原型的构音障碍语音识别方法

    公开(公告)号:CN118942445A

    公开(公告)日:2024-11-12

    申请号:CN202410938705.1

    申请日:2024-07-14

    Applicant: 南开大学

    Abstract: 本发明属于语音识别技术领域,更具体地,涉及一种基于原型的构音障碍语音识别方法。该方法包括以下步骤:S1、微调用于特征提取的HuBERT,在构音障碍语音识别任务上对预训练的自监督学习模型HuBERT进行微调,在微调阶段使用CTC损失和监督对比学习损失来有效地指导模型的训练,微调后的HuBERT用作特征提取器;S2、构建每个单词的原型;S3、基于原型的分类。本发明提供了一种快速有效的方法来提高对未见过的构音障碍说话人的语音识别。本发明将CTC损失与SCL损失相结合,以训练DSR模型,通过学习更好的特征表示来提高性能。

    基于质量对比学习的合成音质量评测模型的训练方法

    公开(公告)号:CN116524958B

    公开(公告)日:2024-10-22

    申请号:CN202310623577.7

    申请日:2023-05-30

    Applicant: 南开大学

    Abstract: 本发明属于计算机处理技术领域,更具体地,涉及一种基于质量对比学习的合成音质量评测模型的训练方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,设置中间任务,并定义正负样本,进行数据集中的正负样本划分;步骤S103,定义带权重的损失函数,控制训练目标,调整正负样本对表征的距离;步骤S104,在预训练模型基础上增加中间任务头,并按照上述规则进行训练;步骤S105,保留步骤S104阶段训练得到的特征提取部分,增加下游任务头,以最小化预测分数和标签分数的均方误差为目标进行训练。

    一种参数化控制的虚拟城市生成方法

    公开(公告)号:CN117593491A

    公开(公告)日:2024-02-23

    申请号:CN202311582832.4

    申请日:2023-11-24

    Applicant: 南开大学

    Abstract: 本发明属于计算机技术领域,更具体地,涉及一种参数化控制的虚拟城市生成方法,该方法包括以下步骤:步骤1,获取输入城市路网参数和城市地形信息;步骤2,城市路网的初步生成;步骤3,整体路网优化;步骤4,输入城市土地分割参数;步骤5,城市土地规划生成;步骤6,输入城市建筑物控制参数;步骤7,城市场景内建筑生成;步骤8,构建神经网络模型,将生成的城市场景信息输入神经网络模型进行场景优化。本发明将具体的城市场景生成过程进行封装,使用户只需要进行具体的城市参数管理,不需要了解具体的城市场景生成过程,降低了用户的技术门槛。

    一种利用检索增强的非侵入式语音质量评测方法

    公开(公告)号:CN116504274A

    公开(公告)日:2023-07-28

    申请号:CN202310623582.8

    申请日:2023-05-30

    Applicant: 南开大学

    Abstract: 本发明涉及计算机处理技术领域,更具体地,涉及一种利用检索增强的非侵入式语音质量评测方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,将预训练模型作为特征提取器提取语音表征,并将多任务头作为分数解码器在MOS数据集上进行微调;步骤S103,收集表征‑分数键值对构建数据存储集;步骤S104,构建近邻学习网络,为每个语音实例动态调整近邻个数,得到检索分数;步骤S105,构建融合网络,为每个语音实例动态调整预测得分和检索得分比例,获得最终得分。

Patent Agency Ranking