-
公开(公告)号:CN108922518A
公开(公告)日:2018-11-30
申请号:CN201810792672.9
申请日:2018-07-18
Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学
IPC: G10L15/06 , G10L21/02 , G10L21/0208 , G10L21/0216
Abstract: 本发明公开语音数据扩增方法和系统,方法包括:将原始噪音音频数据及与原始噪音音频数据关联的条件合并为训练数据;将训练数据输入生成对抗网络的至少一个生成器中,并获取至少一个生成器的生成数据;将至少一个生成器的生成数据输入至判别器进行判别,并获取判别器的判别结果;基于判别结果对至少一个生成器进行训练优化;向训练优化后的生成器中输入训练数据以获得扩增语音数据。
-
公开(公告)号:CN108108428A
公开(公告)日:2018-06-01
申请号:CN201711367409.7
申请日:2017-12-18
Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学
Abstract: 本发明公开一种构建语言模型的方法,包括:获取文本数据中的句子的未来向量,句子的未来向量为句子反向之后所提取的向量;以文本数据中的句子中的前文为第一输入,以句子的未来向量作为第一输出,训练得到未来向量预测网络;至少以将所述句子中的前文输入未来向量预测网络的输出值作为第二输入,以句子的前文的后续词语为第二输出,训练得到主神经网络;基于未来向量预测网络和主神经网络生成所述语言模型。在本发明通过综合考虑已知前文和相应于已知前文的未来向量的方式来构建语言模型,使得所构建的语言模型能够从整个句子层面(未来向量)结合当前前文信息来预测后续词语,提高了预测的准确性与可靠性。
-
公开(公告)号:CN119397475A
公开(公告)日:2025-02-07
申请号:CN202411497019.1
申请日:2024-10-24
Applicant: 上海交通大学
IPC: G06F18/25 , G10L25/51 , G10L25/30 , G06F18/24 , G06F18/213 , G06N3/0464 , G06N3/042 , G06N3/096 , G06F123/02
Abstract: 本发明公开了一种基于剪枝蒸馏的低复杂度音频场景分类方法,该分类方法包括如下步骤:1.利用重参数技术构建Rep‑Mobile模型,将加入的不同形状的卷积核通过零值补全成原始3×3卷积核形状,通过等价转换将BatchNorm层中的线性映射合并至卷积核的偏置值,将不同的卷积核进行线性加和合并至一个主分支;2.利用多个教师模型融合蒸馏策略,对学生模型进行知识蒸馏,通过蒸馏损失和分类损失共同指导学生模型的优化;3.利用迭代剪枝策略,将单步剪枝压缩为多次小步,降低参数的间隔。本发明能够在不增加参数量和计算量的情况下,大幅提升分类准确率;实现计算资源节约、增强模型泛化能力,模型大小显著减小且计算效率提升。
-
公开(公告)号:CN118093282A
公开(公告)日:2024-05-28
申请号:CN202410217809.3
申请日:2024-02-27
Applicant: 上海交通大学
Abstract: 本发明公开了一种基于自监督预训练模型的机器故障检测方法,涉及机器学习领域。本发明通过状态增强来进行数据增强;引入大规模语音数据预训练的预训练模型来提升模型泛化性;transformer池化的融合策略来进行多声音片段融合故障检测。本发明有效提升了故障检测的性能。
-
公开(公告)号:CN117746840A
公开(公告)日:2024-03-22
申请号:CN202311747416.5
申请日:2023-12-18
Applicant: 上海交通大学
Abstract: 本发明公开了一种实时高保真语音驱动数字人系统,涉及语音驱动数字人技术领域。包括数据采集模块、数据预处理模块、数字人训练模块、数字人推理模块;数据采集模块收集数字人模型训练所需要的训练资料;数据预处理模块将收集到的视频音频转换成数字人训练所需的格式;数字人训练模块训练数字人模型,数字人模型基于3D Gaussian Splatting;数字人推理模块给定任意语音音频和相机参数,渲染合成指定人物形象的说话视频。本发明语音驱动数字人,生成实时性高,画面质量好,极大的减小了数字人的训练代价,丰富了数字人的应用场景。
-
公开(公告)号:CN108389575B
公开(公告)日:2020-06-26
申请号:CN201810025834.6
申请日:2018-01-11
Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学
Abstract: 本发明实施例提供一种音频数据识别方法。该方法包括:将待识别的音频数据按照时间戳的先后顺序划分成多个音频数据片段;基于待识别的音频数据的声学特征,确定每个音频数据片段中各帧音频数据帧的预测概率集合;根据各帧音频数据帧的预测概率集合,确定各帧音频数据帧的类型;通过非空白音频数据帧相邻的上一音频数据帧和下一音频数据帧来确定非空白音频数据帧的最终预测概率集合;基于每个音频数据片段中的各非空白音频数据帧的最终预测概率集合,对各个音频数据片段进行音素同步解码,识别音频数据。本发明实施例还提供一种音频数据识别系统。本发明实施例的音频数据识别方法可用于任意声学模型,并且进一步提升了识别速度。
-
公开(公告)号:CN110569908A
公开(公告)日:2019-12-13
申请号:CN201910854260.8
申请日:2019-09-10
Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学
Abstract: 本发明实施例提供一种说话人计数方法。该方法包括:基于深度卷积神经网络建立端到端说话人计数模型;将原始音频波形作为所述端到端说话人计数模型的输入;根据所述端到端说话人计数模型的输出结果确定说话人个数。本发明实施例提供说话人计数系统并且还提供了一种混叠语音检测模型的优化方法及系统。本发明实施例采用原始波形输入的端到端语音混叠检测与说话人计数方法,利用神经网络直接从原始语音中提取深度特征用于后续任务,更容易得到匹配相应任务的特征,准确的确定出说话人的个数;更适用于实际生活中多人同时说话的场景,为后端语音处理系统提供额外信息,从而推进混叠语音的识别、分离、增强的问题。
-
公开(公告)号:CN108389576A
公开(公告)日:2018-08-10
申请号:CN201810021903.6
申请日:2018-01-10
Applicant: 苏州思必驰信息科技有限公司 , 上海交通大学
IPC: G10L15/06
Abstract: 本发明实施例提供一种压缩后的语音识别模型的优化方法。该方法包括:基于压缩前的语音识别模型,确定教师模型,基于压缩后的语音识别模型和语音数据库中无标注的语音数据,生成学生模型;在语音数据库中提取带标注的语音数据序列作为训练数据集合,通过训练数据集合对学生模型神经网络前向传播,确定学生模型的第一后验概率;通过训练数据集合对教师模型进行前向-后向计算,确定教师模型的第二后验概率;比较第一与第二后验概率,确定学生模型与教师模型的误差;当误差不收敛时,根据误差对学生模型进行神经网络反向传播以优化学生模型。本发明实施例还提供一种压缩后的语音识别模型的优化系统。本发明实施例根据源模型对压缩后模型进行优化。
-
公开(公告)号:CN104732978B
公开(公告)日:2018-05-08
申请号:CN201510107647.9
申请日:2015-03-12
Applicant: 上海交通大学 , 苏州思必驰信息科技有限公司
Abstract: 一种智能语音领域的基于联合深度学习的文本相关的说话人识别方法,首先从待检测音频中提出得到FBANK系数,经帧扩展后输入神经网络进行计算,得到待测音频的j‐vector;再训练LDA模型并得到预测阈值,最后将待测试的说话人的注册音频的j‐vector和待测试的说话人的测试音频的j‐vector归一化后输入带有预测阈值的LDA模型,并得到预测结果。本发明能够极大地提高文本相关的说话人识别的精确度。
-
公开(公告)号:CN106098059A
公开(公告)日:2016-11-09
申请号:CN201610462976.X
申请日:2016-06-23
Applicant: 上海交通大学
Abstract: 一种可定制语音唤醒方法及系统,通过使用基于长短时记忆网络和连接时序分类模型对语音信息的音素信息进行建模并对模型进行训练,采用训练后模型进行测试并在生成的Lattice网络结构上搜索与定制的唤醒词最相似的可能音素序列来作为判断依据。本发明利用CTC模型输出后验概率稀疏的特点进行高效搜索,从而完成对唤醒词置信度计算的技术。本发明一方面可以得到较高的唤醒性,即高准确率,低误唤醒,另一方面对应用系统的计算资源消耗相对较少。
-
-
-
-
-
-
-
-
-