-
公开(公告)号:CN105496447B
公开(公告)日:2019-02-05
申请号:CN201610027461.7
申请日:2016-01-15
Applicant: 厦门大学 , 厦门大学附属第一医院
IPC: A61B7/04
Abstract: 具有主动降噪和辅助诊断功能的电子听诊器,涉及电子听诊器。包括:听诊头、音频处理电路、液晶显示屏、按钮、微处理器控制电路、耳机、开关和SD卡;听诊头上设有内置声音采集通道和外置声音采集通道;音频处理电路输入端与听诊头的内置声音采集通道和外置声音采集通道相连;液晶显示屏用于显示电子听诊器工作状态;按钮用于驱动电子听诊器进入录音模式;微处理器控制电路输出端与音频处理电路输入端、液晶显示屏输入端相连,微处理器控制电路输入端与按钮、音频处理电路输出端、液晶显示屏输出端相连;耳机与音频处理电路输出端相连;开关与电源相连;SD卡分别与音频处理电路和的微处理器控制电路连接。
-
公开(公告)号:CN105496447A
公开(公告)日:2016-04-20
申请号:CN201610027461.7
申请日:2016-01-15
Applicant: 厦门大学 , 厦门大学附属第一医院
IPC: A61B7/04
CPC classification number: A61B7/04 , A61B7/003 , A61B2503/04 , A61B2503/06
Abstract: 具有主动降噪和辅助诊断功能的电子听诊器,涉及电子听诊器。包括:听诊头、音频处理电路、液晶显示屏、按钮、微处理器控制电路、耳机、开关和SD卡;听诊头上设有内置声音采集通道和外置声音采集通道;音频处理电路输入端与听诊头的内置声音采集通道和外置声音采集通道相连;液晶显示屏用于显示电子听诊器工作状态;按钮用于驱动电子听诊器进入录音模式;微处理器控制电路输出端与音频处理电路输入端、液晶显示屏输入端相连,微处理器控制电路输入端与按钮、音频处理电路输出端、液晶显示屏输出端相连;耳机与音频处理电路输出端相连;开关与电源相连;SD卡分别与音频处理电路和的微处理器控制电路连接。
-
公开(公告)号:CN117292672A
公开(公告)日:2023-12-26
申请号:CN202311587465.7
申请日:2023-11-27
Applicant: 厦门大学
IPC: G10L13/027 , G10L21/0332 , G06F40/30
Abstract: 本申请提供了一种基于矫正流模型的高质量语音合成方法,基于RK45 ODE Solver进行采样时能够得到较好的音频生成质量,和大多数现存的基于扩散的语音合成模型相比,在使用Euler ODE Solver进行一步采样时也能够得到很好的音频生成质量,而且整个训练过程是简单有效的,也不需要预先训练一个教师模型得到更好的音频质量,显著提高了真实场景中的高质量语音合成的可用性。
-
公开(公告)号:CN116072107A
公开(公告)日:2023-05-05
申请号:CN202310031418.8
申请日:2023-01-10
Applicant: 厦门大学
IPC: G10L15/06
Abstract: 一种基于交叉蒸馏的端到端语音识别模型压缩方法,涉及语音识别。提供一种基于交叉蒸馏的端到端语音识别模型压缩方法,基于知识蒸馏方法,对教师模型学习不充分的问题,设计交叉蒸馏方法,提高学生模型的准确率。包括:1)构建基于Conformer模型的教师模型和学生模型;2)对教师模型进行预训练;3)教师模型通过交叉蒸馏方法指导学生模型进行训练;4)对学生模型进行推理。针对语音识别模型在设备上部署的难点,优化设计小模型的训练方案;在保证模型大小压缩的同时,使得学生模型的解码器能直接获得来自教师模型编码器的特征学习,学生模型的编码器提取的特征输入到教师模型的解码器中由教师模型纠正,提升小模型的准确率。
-
公开(公告)号:CN105702261A
公开(公告)日:2016-06-22
申请号:CN201610080008.2
申请日:2016-02-04
Applicant: 厦门大学
IPC: G10L21/0216 , H04R1/32
Abstract: 带相位自校正功能的声聚焦麦克风阵列长距离拾音装置,涉及拾音设备。设有声聚焦机构、麦克风阵列、相位自校正模块、波束对准模块和语音增强模块;声聚焦机构用于麦克风声场的聚焦,声聚焦机构安装在麦克风前端;麦克风阵列用于多通道采集语音信号、前置处理和模数转换;相位自校正模块用于对每个麦克风阵列单元声聚焦引入的相位差进行自校正;波束对准模块用于根据目标说话人方向调整各通道时延进行声源方向对准;语音增强模块用于运行麦克风阵列语音增强算法增强语音。结合声聚焦机构进行语音增强,具有对远距离语音的高质量拾音效果。采用相位自校正方法校正声聚焦机构引入的相位差,在形成声场聚焦效果的同时,保证麦克风阵列语音增强效果。
-
公开(公告)号:CN103426440A
公开(公告)日:2013-12-04
申请号:CN201310370059.5
申请日:2013-08-22
Applicant: 厦门大学
IPC: G10L25/78
Abstract: 利用能量谱熵空间信息的语音端点检测装置及其检测方法,涉及一种语音信号处理装置。所述装置设有麦克风阵列、端点检测粗判模块、可调波束形成器模块和端点检测细判模块;麦克风阵列中各通道语音信号输出端经前置放大电路和模数转换器后与端点检测粗判模块输入端连接;可调波束形成器模块信号输入端接端点检测粗判模块的粗判结果输出端,可调波束形成器模块的经时延调整后的各通道语音信号进行能量比较后输出声源方向估计结果;端点检测细判模块设有声源方向输入端和细判结果输出端,声源方向输入端接可调波束形成器模块输出端,细判结果输出端输出细判结果。方法包括:初始化;端点检测粗判;声源方向估计;端点检测细判。
-
公开(公告)号:CN103390305A
公开(公告)日:2013-11-13
申请号:CN201310294975.5
申请日:2013-07-15
Applicant: 厦门大学 , 厦门天聪智能软件有限公司
IPC: G07C11/00
Abstract: 文本提示型声纹门禁系统,涉及门禁系统。提供一种加入嵌入式声纹识别系统的文本提示型声纹门禁系统。设有主处理器、触摸屏模块、语音采集模块、语音输出模块、存储模块、RS232通信接口模块、电源和电控锁。所述触摸屏模块与主处理器的输入输出端口连接,语音采集模块的输出端接主处理器的输入端口,语音输出模块的输入端接主处理器的输出端口,存储模块和RS232通信接口模块分别与主处理器的输入输出端口连接,电源为主处理器、触摸屏模块、语音采集模块、语音输出模块、存储模块、RS232通信接口模块和电控锁提供电源,电控锁与RS232通信接口模块连接。
-
公开(公告)号:CN117789692A
公开(公告)日:2024-03-29
申请号:CN202410021101.0
申请日:2024-01-08
Applicant: 厦门大学
Abstract: 本发明公开了一种融合位置和音频通用表征的双耳音频生成方法及系统,其特征在于,包括,S1,制作视频帧数据集和音频数据集;S2,对音频数据集进行短时傅里叶变换和计算,得到对应的复数谱图、幅度谱图和相位谱图;S3,将视频帧数据集、音频数据集及其对应的谱图输入包含相对位置信息提取器、音频通用表征提取器、掩膜生成模块的双耳音频还原模型中进行训练和优化;S4,基于训练好的所述双耳音频还原模型进行双耳音频还原。本发明提出的网络模型能够有效提取视频帧中声音源的相对位置信息,获得更有效的音频通用表征,用于引导双耳音频的生成,从而提升系统性能。
-
公开(公告)号:CN116110403A
公开(公告)日:2023-05-12
申请号:CN202310055469.4
申请日:2023-01-17
Applicant: 厦门大学
Abstract: 本申请提出一种声纹识别模型生成方法,其包括:S1,对无标注的第一音频数据集U进行初始伪标签标注;S2,将U中的每条音频数据切段为时长相同的多段音频数据;继承切段前的伪标签标注,生成第二音频数据集S3,将送入声纹识别模型,并引入标签纠正策略训练声纹识别模型,获得标签纠正的第三音频数据集S4,将送入声纹识别模型进行训练;S5,提取声纹识别模型的表征向量并送入聚类模块,生成标签更新的第二音频数据集重复执行S3‑S5直至完成指定的训练轮次。上述方法利用纠正策略提升伪标签的准确率,缓解错误的伪标签对训练的影响;同时,基于语音预训练模型的子结构(Sub‑PTM)构建表征学习模块,进一步提高模型的声纹识别性能。
-
公开(公告)号:CN111276131B
公开(公告)日:2021-01-12
申请号:CN202010073244.8
申请日:2020-01-22
Applicant: 厦门大学
Abstract: 本申请公开一种基于深度神经网络的多类声学特征整合方法和系统。包括利用已知语音数据训练并建立基于深度神经网络的多类声学特征整合模型,以确定或更新多类声学特征整合模型的网络参数;将从待测语音中提取的多类声学特征输入已训练好的具有网络参数的多类声学特征整合模型中,并提取帧级别深度整合特征向量或段级别深度整合特征向量。该方案支持语音识别、语音唤醒、语种识别、说话人识别、防录音攻击欺骗等语音任务中多种声学特征整合向量的提取,可根据实际语音任务充分挖掘多种声学特征的内在联系,用于改善语音任务应用的识别精准度和稳定性。
-
-
-
-
-
-
-
-
-