-
公开(公告)号:CN116504274B
公开(公告)日:2024-07-30
申请号:CN202310623582.8
申请日:2023-05-30
Applicant: 南开大学
Abstract: 本发明涉及计算机处理技术领域,更具体地,涉及一种利用检索增强的非侵入式语音质量评测方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,将预训练模型作为特征提取器提取语音表征,并将多任务头作为分数解码器在MOS数据集上进行微调;步骤S103,收集表征‑分数键值对构建数据存储集;步骤S104,构建近邻学习网络,为每个语音实例动态调整近邻个数,得到检索分数;步骤S105,构建融合网络,为每个语音实例动态调整预测得分和检索得分比例,获得最终得分。
-
公开(公告)号:CN116645980A
公开(公告)日:2023-08-25
申请号:CN202310794609.X
申请日:2023-06-30
Applicant: 南开大学
Abstract: 本发明涉及计算机处理技术领域,更具体地,涉及一种聚焦样本特征间距的全生命周期语音情感识别方法。在预训练阶段,本发明引入大规模预训练模型提取更为准确的语音表征;在微调阶段,通过交叉熵损失和有监督对比学习损失加权求和的结果,指导模型进行微调,使模型学习到的样本表征间距获得改善;在推理阶段,首先构造数据存储集合,用来存储训练集和验证集的样本表征及样本标签,为进一步利用改善后的样本间距,通过K最近邻检索增强的方法,检索得到数据存储集合中与测试样本最相似的K个样本,将检索得到的标签分布与模型对于测试样本的推理分布结果进行加权求和,得到测试样本的最终预测标签。
-
-
公开(公告)号:CN118782102A
公开(公告)日:2024-10-15
申请号:CN202410965146.3
申请日:2024-07-18
Applicant: 南开大学
IPC: G10L25/69 , G10L19/022
Abstract: 本发明涉及计算机处理技术领域,特别是涉及一种不确定性感知的语音质量平均意见得分预测方法,用于自动评估合成音频质量。该方法包括以下步骤:步骤S101,利用异方差回归方法建模数据不确定性。步骤S102,引入标量参数对数据不确定性进行线性校准。步骤S103,通过多次前向传播来估计模型的不确定性。步骤S104,设置阈值进行选择性预测和域外样本检测,排除系统的不可靠预测。利用这些不确定性信息,可以实现选择性预测和域外样本检测,从而在复杂和多变的实际应用场景中提供更稳定和可靠的预测。
-
公开(公告)号:CN118942445A
公开(公告)日:2024-11-12
申请号:CN202410938705.1
申请日:2024-07-14
Applicant: 南开大学
Abstract: 本发明属于语音识别技术领域,更具体地,涉及一种基于原型的构音障碍语音识别方法。该方法包括以下步骤:S1、微调用于特征提取的HuBERT,在构音障碍语音识别任务上对预训练的自监督学习模型HuBERT进行微调,在微调阶段使用CTC损失和监督对比学习损失来有效地指导模型的训练,微调后的HuBERT用作特征提取器;S2、构建每个单词的原型;S3、基于原型的分类。本发明提供了一种快速有效的方法来提高对未见过的构音障碍说话人的语音识别。本发明将CTC损失与SCL损失相结合,以训练DSR模型,通过学习更好的特征表示来提高性能。
-
公开(公告)号:CN117496961A
公开(公告)日:2024-02-02
申请号:CN202311573939.2
申请日:2023-11-23
Applicant: 南开大学
Abstract: 本发明属于语音识别技术领域,更具体地,涉及一种使用检索增强技术强化CTC解码的语音识别方法。该方法给定一个预训练后的CTC解码模型,首先利用数据经过特征编码器得到帧级别向量,然后以帧级别的向量与CTC伪标签形成键值对,构造细粒度键值数据存储。最后,在解码阶段通过检索帧级向量和对应的CTC伪标签对CTC解码解决进行线性插值,提升语音识别系统的性能。
-
公开(公告)号:CN116504274A
公开(公告)日:2023-07-28
申请号:CN202310623582.8
申请日:2023-05-30
Applicant: 南开大学
Abstract: 本发明涉及计算机处理技术领域,更具体地,涉及一种利用检索增强的非侵入式语音质量评测方法。该方法包括以下步骤:步骤S101,引入在大规模数据集上训练的模型作为预训练模型;步骤S102,将预训练模型作为特征提取器提取语音表征,并将多任务头作为分数解码器在MOS数据集上进行微调;步骤S103,收集表征‑分数键值对构建数据存储集;步骤S104,构建近邻学习网络,为每个语音实例动态调整近邻个数,得到检索分数;步骤S105,构建融合网络,为每个语音实例动态调整预测得分和检索得分比例,获得最终得分。
-
公开(公告)号:CN116305141A
公开(公告)日:2023-06-23
申请号:CN202310138175.8
申请日:2023-02-20
Applicant: 南开大学
IPC: G06F21/57 , G06F21/55 , G06F21/64 , G06F18/2431 , G06N20/00
Abstract: 本发明属于计算机处理技术领域,更具体地,涉及一种融合全局与局部信息的企业内部威胁行为检测方法。该方法包括以下步骤:S1、采集企业员工操作日志数据,作为数据集;S2、对数据集进行特征工程处理;S3、对步骤S2处理后的数据进行多种粒度下的异常检测,即用户在整个数据集合内异常、用户自身数据集合内异常和用户所属簇群内异常,在三种情况下采用孤立森林算法建立异常监测模型:全局异常检测模型、部门内局部异常检测模型和用户内局部异常检测模型;S4、将以上三种异常检测结果进行集成,得到最终异常值。
-
公开(公告)号:CN117669682A
公开(公告)日:2024-03-08
申请号:CN202311701794.X
申请日:2023-12-12
Applicant: 南开大学
IPC: G06N3/08 , G06N3/0455 , G06F16/58
Abstract: 本发明涉及计算机数据处理技术领域,更具体地,涉及一种基于最近邻检索增强的持续学习方法。kNN‑CL引入k最近邻检索技术,无需额外训练成本,有效应对数据不平衡,解决过拟合问题,提高了泛化性能。与传统方法不同,kNN‑CL可通过检索某条测试数据的k近邻,其k近邻仅仅与该条测试数据有关,从而实现了有选择地检索各个任务的数据存储,节约时间和资源。
-
公开(公告)号:CN117591858A
公开(公告)日:2024-02-23
申请号:CN202311585304.4
申请日:2023-11-24
Applicant: 南开大学
IPC: G06F18/213 , G06F18/24 , G06N3/048 , G06N3/0464 , G06N3/08 , G06F16/35
Abstract: 本发明属于多模态情感识别领域和表征学习领域,更具体地涉及一种细粒度表征解耦学习的情感识别模型构建方法。首先,使用模态共享编码器和模态私有编码器提取模态的共享表征和私有表征。其次,使用细粒度对齐方法约束模态共享表征的学习,从而捕捉模态一致性。使用细粒度差异化方法来学习模态私有表征并增强其多样性。随后,使用细粒度预测方法以确保编码器输出表征的标签保持不变。最后,由跨模态融合方法构建更丰富的表示形式用于情感识别任务。
-
-
-
-
-
-
-
-
-