Patent search ap:("南开大学") AND inv:"秦勇" Page 1

1.

发明公开
一种细粒度表征解耦学习的情感识别模型构建方法审中-实审

公开(公告)号：CN117591858A

公开(公告)日：2024-02-23

申请号：CN202311585304.4

申请日：2023-11-24

Applicant: 南开大学

Inventor： 秦勇 , 孙浩钦 , 赵石顽 , 贺佳贝 , 陈杨 , 刘成 , 王诗瑶

IPC: G06F18/213 , G06F18/24 , G06N3/048 , G06N3/0464 , G06N3/08 , G06F16/35

Abstract: 本发明属于多模态情感识别领域和表征学习领域，更具体地涉及一种细粒度表征解耦学习的情感识别模型构建方法。首先，使用模态共享编码器和模态私有编码器提取模态的共享表征和私有表征。其次，使用细粒度对齐方法约束模态共享表征的学习，从而捕捉模态一致性。使用细粒度差异化方法来学习模态私有表征并增强其多样性。随后，使用细粒度预测方法以确保编码器输出表征的标签保持不变。最后，由跨模态融合方法构建更丰富的表示形式用于情感识别任务。

2.

发明授权
一种利用检索增强的非侵入式语音质量评测方法有权

公开(公告)号：CN116504274B

公开(公告)日：2024-07-30

申请号：CN202310623582.8

申请日：2023-05-30

Applicant: 南开大学

Inventor： 秦勇 , 王卉 , 赵石顽 , 李起成 , 周家名 , 王雪琛 , 贺佳贝

IPC: G10L25/60 , G10L25/03

Abstract: 本发明涉及计算机处理技术领域，更具体地，涉及一种利用检索增强的非侵入式语音质量评测方法。该方法包括以下步骤：步骤S101，引入在大规模数据集上训练的模型作为预训练模型；步骤S102，将预训练模型作为特征提取器提取语音表征，并将多任务头作为分数解码器在MOS数据集上进行微调；步骤S103，收集表征‑分数键值对构建数据存储集；步骤S104，构建近邻学习网络，为每个语音实例动态调整近邻个数，得到检索分数；步骤S105，构建融合网络，为每个语音实例动态调整预测得分和检索得分比例，获得最终得分。

3.

发明公开
一种聚焦样本特征间距的全生命周期语音情感识别方法审中-实审

公开(公告)号：CN116645980A

公开(公告)日：2023-08-25

申请号：CN202310794609.X

申请日：2023-06-30

Applicant: 南开大学

Inventor： 秦勇 , 王雪琛 , 赵石顽 , 王卉 , 周家名 , 贺佳贝

IPC: G10L25/63 , G10L25/27 , G10L25/03

Abstract: 本发明涉及计算机处理技术领域，更具体地，涉及一种聚焦样本特征间距的全生命周期语音情感识别方法。在预训练阶段，本发明引入大规模预训练模型提取更为准确的语音表征；在微调阶段，通过交叉熵损失和有监督对比学习损失加权求和的结果，指导模型进行微调，使模型学习到的样本表征间距获得改善；在推理阶段，首先构造数据存储集合，用来存储训练集和验证集的样本表征及样本标签，为进一步利用改善后的样本间距，通过K最近邻检索增强的方法，检索得到数据存储集合中与测试样本最相似的K个样本，将检索得到的标签分布与模型对于测试样本的推理分布结果进行加权求和，得到测试样本的最终预测标签。

4.

发明公开
基于卷积网络和编码器解码器模型的多语种语音合成方法无效

公开(公告)号：CN115188364A

公开(公告)日：2022-10-14

申请号：CN202211106844.5

申请日：2022-09-13

Applicant: 南开大学

Inventor： 秦勇 , 王卉 , 李起成 , 周家名 , 雪琛 , 贺佳贝

IPC: G10L13/027 , G10L13/08 , G10L25/18 , G10L25/30

Abstract: 本发明公开了一种基于卷积网络和编码器解码器模型的多语种语音合成方法，将待合成的多语种文本信息不经过音素化而是直接按照一定的标准转换为图片，图片中每个字符的长度和宽度是预先定义好的，并且蕴含了重音、韵律、音色、情感等发音信息；然后对生成的图片进行特征提取，再将提取到的图片特征信息送入声学模型中，完成从图片特征到声学特征的映射，最后利用声码器进一步还原为语音波形，生成目标语音。本发明简化了多语种语音合成问题前端处理流程，避免了注音问题和归一化等问题；提升多语种语音合成模块的可扩展性，可以在模型结构不发生变化的情况下将模型功能进行拓展。

5.

发明公开
基于原型的构音障碍语音识别方法审中-实审

公开(公告)号：CN118942445A

公开(公告)日：2024-11-12

申请号：CN202410938705.1

申请日：2024-07-14

Applicant: 南开大学

Inventor： 秦勇 , 王诗瑶 , 赵石顽 , 周家名 , 孔奥博 , 李起成

IPC: G10L15/02 , G10L15/06 , G10L15/26

Abstract: 本发明属于语音识别技术领域，更具体地，涉及一种基于原型的构音障碍语音识别方法。该方法包括以下步骤：S1、微调用于特征提取的HuBERT，在构音障碍语音识别任务上对预训练的自监督学习模型HuBERT进行微调，在微调阶段使用CTC损失和监督对比学习损失来有效地指导模型的训练，微调后的HuBERT用作特征提取器；S2、构建每个单词的原型；S3、基于原型的分类。本发明提供了一种快速有效的方法来提高对未见过的构音障碍说话人的语音识别。本发明将CTC损失与SCL损失相结合，以训练DSR模型，通过学习更好的特征表示来提高性能。

6.

发明授权
基于质量对比学习的合成音质量评测模型的训练方法有权

公开(公告)号：CN116524958B

公开(公告)日：2024-10-22

申请号：CN202310623577.7

申请日：2023-05-30

Applicant: 南开大学

Inventor： 秦勇 , 王卉 , 李起成 , 周家名 , 王雪琛 , 贺佳贝

IPC: G10L25/60 , G10L25/30

Abstract: 本发明属于计算机处理技术领域，更具体地，涉及一种基于质量对比学习的合成音质量评测模型的训练方法。该方法包括以下步骤：步骤S101，引入在大规模数据集上训练的模型作为预训练模型；步骤S102，设置中间任务，并定义正负样本，进行数据集中的正负样本划分；步骤S103，定义带权重的损失函数，控制训练目标，调整正负样本对表征的距离；步骤S104，在预训练模型基础上增加中间任务头，并按照上述规则进行训练；步骤S105，保留步骤S104阶段训练得到的特征提取部分，增加下游任务头，以最小化预测分数和标签分数的均方误差为目标进行训练。

7.

发明公开
一种使用检索增强技术强化CTC解码的语音识别方法审中-实审

公开(公告)号：CN117496961A

公开(公告)日：2024-02-02

申请号：CN202311573939.2

申请日：2023-11-23

Applicant: 南开大学

Inventor： 秦勇 , 周家名 , 赵石顽 , 王卉 , 王雪琛 , 贺佳贝

IPC: G10L15/06 , G10L15/02 , G10L15/14

Abstract: 本发明属于语音识别技术领域，更具体地，涉及一种使用检索增强技术强化CTC解码的语音识别方法。该方法给定一个预训练后的CTC解码模型，首先利用数据经过特征编码器得到帧级别向量，然后以帧级别的向量与CTC伪标签形成键值对，构造细粒度键值数据存储。最后，在解码阶段通过检索帧级向量和对应的CTC伪标签对CTC解码解决进行线性插值，提升语音识别系统的性能。

8.

发明公开
一种利用检索增强的非侵入式语音质量评测方法审中-实审

公开(公告)号：CN116504274A

公开(公告)日：2023-07-28

申请号：CN202310623582.8

申请日：2023-05-30

Applicant: 南开大学

Inventor： 秦勇 , 王卉 , 赵石顽 , 李起成 , 周家名 , 王雪琛 , 贺佳贝

IPC: G10L25/60 , G10L25/03

Abstract: 本发明涉及计算机处理技术领域，更具体地，涉及一种利用检索增强的非侵入式语音质量评测方法。该方法包括以下步骤：步骤S101，引入在大规模数据集上训练的模型作为预训练模型；步骤S102，将预训练模型作为特征提取器提取语音表征，并将多任务头作为分数解码器在MOS数据集上进行微调；步骤S103，收集表征‑分数键值对构建数据存储集；步骤S104，构建近邻学习网络，为每个语音实例动态调整近邻个数，得到检索分数；步骤S105，构建融合网络，为每个语音实例动态调整预测得分和检索得分比例，获得最终得分。

9.

发明公开
一种融合全局与局部信息的企业内部威胁行为检测方法审中-实审

公开(公告)号：CN116305141A

公开(公告)日：2023-06-23

申请号：CN202310138175.8

申请日：2023-02-20

Applicant: 南开大学

Inventor： 李起成 , 王恩志 , 秦勇 , 赵石顽 , 孔奥博

IPC: G06F21/57 , G06F21/55 , G06F21/64 , G06F18/2431 , G06N20/00

Abstract: 本发明属于计算机处理技术领域，更具体地，涉及一种融合全局与局部信息的企业内部威胁行为检测方法。该方法包括以下步骤：S1、采集企业员工操作日志数据，作为数据集；S2、对数据集进行特征工程处理；S3、对步骤S2处理后的数据进行多种粒度下的异常检测，即用户在整个数据集合内异常、用户自身数据集合内异常和用户所属簇群内异常，在三种情况下采用孤立森林算法建立异常监测模型：全局异常检测模型、部门内局部异常检测模型和用户内局部异常检测模型；S4、将以上三种异常检测结果进行集成，得到最终异常值。

10.

发明公开
一种基于多模态融合的音乐情感标签生成方法审中-实审

公开(公告)号：CN115757860A

公开(公告)日：2023-03-07

申请号：CN202211480294.3

申请日：2022-11-24

Applicant: 南开大学

Inventor： 秦勇 , 王雪琛 , 李起成 , 周家名 , 王卉 , 贺佳贝

IPC: G06F16/65 , G06F16/683 , G06F18/2415 , G06F18/25 , G06F40/242 , G06F40/289 , G06N3/0464 , G06N3/048

Abstract: 本发明公开了一种基于多模态融合的音乐情感标签生成方法，构建了基于多模态融合的音乐情感分类模型，该模型包括歌词文本数据特征提取模块、音频梅尔谱图数据特征提取模块、脑电频谱图数据特征提取模块、特征维度调整模块、特征拼接模块以及分类器模块。以音乐的歌词文本、音乐的音频梅尔谱图以及受听者对音乐的脑电频谱图等多个模态数据来预测音乐情感类别，增强了音乐情感标签识别的准确性和客观性。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification