-
公开(公告)号:CN113903028B
公开(公告)日:2024-10-29
申请号:CN202111045058.4
申请日:2021-09-07
Applicant: 武汉大学
IPC: G06V20/64 , G06N3/096 , G06N3/0464 , G06N3/045
Abstract: 本申请公开了一种目标检测方法及电子设备,涉及计算机视觉技术领域,该方法包括:定义锚框模板;构建目标检测神经网络并进行训练,利用训练好的目标检测神经网络提取输入图像中目标的锚点参数和目标类别;得到二维边界框、三维边界框以及三维边界框的中心位置坐标;将中心位置坐标按照编码的逆向计算反投影得到相机坐标;获取三维边界框投影后得到的投影二维框,并将投影二维框与二维边界框做L1loss函数,调整观察视角角度,直至观察视角角度的调整步长小于预设终止参数,得到调整后的三维边界框;输出目标的目标类别、二维边界框、相机坐标、以及调整后的三维边界框。本申请,有效排除了外界噪音干扰,提高单目图像三维目标的检测精度。
-
公开(公告)号:CN113035217B
公开(公告)日:2023-11-10
申请号:CN202110226118.6
申请日:2021-03-01
Applicant: 武汉大学
Abstract: 本发明提出了一种基于声纹嵌入的低信噪比条件下的语音增强方法。本发明将干净中文语音数据集、中文语音噪声数据集通过sox混合干净语音和随机噪声,得到带噪语音数据集;提取中文语音数据集的梅尔倒谱系数;构建优化通用高斯混合背景模型;根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型,提取干净中文语音数据集的声纹特征;提取带噪语音数据集的幅度谱和相位谱;生成带噪语音中说话用户的相关频谱特征;构建增强神经网络;波形重构得到增强后的带噪语音。本发明将用户语音的声纹特征进行嵌入,提升低信噪比条件下语音增强系统的性能,改善智能语音设备在嘈杂环境下的性能表现。
-
公开(公告)号:CN104658542A
公开(公告)日:2015-05-27
申请号:CN201510113860.0
申请日:2015-03-16
Applicant: 武汉大学
IPC: G10L19/018
Abstract: 本发明公开了一种基于正交的加性扩频音频水印嵌入方法、检测方法及系统,主要包括:步骤1,时域音频信号的时频变换;步骤2,根计算频域音频信号可嵌入水印的范围;步骤3,生成随机的二进制扩频序列;步骤4,将二进制扩频序列和可嵌入水印的范围内的频域音频信号进行正交处理;步骤5,根据正交处理后的向量进行水印的加性嵌入;步骤6,带水印频域音频信号的时频逆变换。本发明将主音频信号和扩频信号进行正交,然后在扩频信号垂直分量上实现水印的加性嵌入,这样保证了相关提取时主信号对水印的干扰为零,从而可消除主信号干扰,大大降低水印提取错误率。
-
公开(公告)号:CN101977157B
公开(公告)日:2012-05-30
申请号:CN201010557890.8
申请日:2010-11-24
Applicant: 武汉大学
Abstract: 本发明涉及一种AdHoc网络异构多播业务流最优资源控制方法,在作为多播业务发送端的多播业务源节点设置多播业务源节点调节单元,在每个干扰区域设置一个干扰区域资源分配单元,在作为多播业务接收端的多播业务目的节点设置多播业务目的节点反馈单元。执行记录需要分配的子流数目、记录多播业务分级带宽干扰次数、计算每层多播子流产生的总价格、计算所有多播业务子流链路总长度、更新每条多播业务分层子流出价信息、更新干扰区域资源价格。通过本发明,能够实现无线AdHoc网络系统异构多播业务流在动态环境下最优资源分配。本发明提高存在差异带宽期望的异构多播业务流网络服务质量,具有弹性自适应各种大小网络规模的优势。
-
公开(公告)号:CN101977157A
公开(公告)日:2011-02-16
申请号:CN201010557890.8
申请日:2010-11-24
Applicant: 武汉大学
Abstract: 本发明涉及一种AdHoc网络异构多播业务流最优资源控制方法,在作为多播业务发送端的多播业务源节点设置多播业务源节点调节单元,在每个干扰区域设置一个干扰区域资源分配单元,在作为多播业务接收端的多播业务目的节点设置多播业务目的节点反馈单元。执行记录需要分配的子流数目、记录多播业务分级带宽干扰次数、计算每层多播子流产生的总价格、计算所有多播业务子流链路总长度、更新每条多播业务分层子流出价信息、更新干扰区域资源价格。通过本发明,能够实现无线AdHoc网络系统异构多播业务流在动态环境下最优资源分配。本发明提高存在差异带宽期望的异构多播业务流网络服务质量,具有弹性自适应各种大小网络规模的优势。
-
公开(公告)号:CN112802491B
公开(公告)日:2022-06-14
申请号:CN202110167844.5
申请日:2021-02-07
Applicant: 武汉大学
IPC: G10L21/0224 , G10L21/0232 , G10L25/30 , G10L19/02
Abstract: 本发明公开了一种基于时频域生成对抗网络的语音增强方法,在传统的基于时频域生成对抗网络的语音增强方法的基础上,通过增加一个频域鉴别器,使语音增强模型能够同时学习到输入语音的时域特征和频域特征,以提高模型的性能。其中,时域鉴别器直接判别生成器输出的增强语音;频域鉴别器则对增强语音做短时傅里叶变换后得到频域特征进行判别。模型训练时,时域和频域鉴别器同时监督生成器,使生成器能够同时学习到语音和噪声的时域和频域特征。并且,为了保留原始语音的底层信息和防止生成器产生过拟合,在模型的损失函数中加入频域约束项。本发明方法增强性能更好,且其能处理的噪声种类更多、适用的场景更广。
-
公开(公告)号:CN111653275B
公开(公告)日:2022-06-03
申请号:CN202010253075.6
申请日:2020-04-02
Applicant: 武汉大学
Abstract: 本发明公开了基于LSTM‑CTC尾部卷积的语音识别模型的构建方法及装置、语音识别方法,通过用一个全卷积层来替换BiLSTM层与softmax层之间的全连接层,以达到网络训练加速的效果。其中,LSTM用于训练语音识别模型,CTC作为损失函数,卷积层用于并行化原全连接层需同时进行的计算。基于卷积层的LSTM‑CTC网络利用卷积核并行计算的特点,使得原本的全连接层的计算不需要同时输入到内存中,从而加速网络的优化。与现有技术相比,本发明加快了语音模型的训练,减少了开发者的时间成本,在一定程度上降低了硬件的需求标准。
-
公开(公告)号:CN113903028A
公开(公告)日:2022-01-07
申请号:CN202111045058.4
申请日:2021-09-07
Applicant: 武汉大学
Abstract: 本申请公开了一种目标检测方法及电子设备,涉及计算机视觉技术领域,该方法包括:定义锚框模板;构建目标检测神经网络并进行训练,利用训练好的目标检测神经网络提取输入图像中目标的锚点参数和目标类别;得到二维边界框、三维边界框以及三维边界框的中心位置坐标;将中心位置坐标按照编码的逆向计算反投影得到相机坐标;获取三维边界框投影后得到的投影二维框,并将投影二维框与二维边界框做L1loss函数,调整观察视角角度,直至观察视角角度的调整步长小于预设终止参数,得到调整后的三维边界框;输出目标的目标类别、二维边界框、相机坐标、以及调整后的三维边界框。本申请,有效排除了外界噪音干扰,提高单目图像三维目标的检测精度。
-
公开(公告)号:CN113035217A
公开(公告)日:2021-06-25
申请号:CN202110226118.6
申请日:2021-03-01
Applicant: 武汉大学
Abstract: 本发明提出了一种基于声纹嵌入的低信噪比条件下的语音增强方法。本发明将干净中文语音数据集、中文语音噪声数据集通过sox混合干净语音和随机噪声,得到带噪语音数据集;提取中文语音数据集的梅尔倒谱系数;构建优化通用高斯混合背景模型;根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型,提取干净中文语音数据集的声纹特征;提取带噪语音数据集的幅度谱和相位谱;生成带噪语音中说话用户的相关频谱特征;构建增强神经网络;波形重构得到增强后的带噪语音。本发明将用户语音的声纹特征进行嵌入,提升低信噪比条件下语音增强系统的性能,改善智能语音设备在嘈杂环境下的性能表现。
-
公开(公告)号:CN104320719B
公开(公告)日:2018-09-07
申请号:CN201410647192.5
申请日:2014-11-14
Applicant: 武汉大学
IPC: H04N21/8358 , H04N21/439 , H04N21/81
Abstract: 本发明公开了一种基于音频水印的电视节目互动参与方法及系统,包括:(1)嵌入步骤,即向电视节目音频信号嵌入包含互动信息的水印信号;(2)播放步骤,即利用播放装置(电视机或播放器)播放嵌入水印信号的电视节目;(3)录音步骤,即使用移动终端设备录下播放的嵌入水印信号的电视节目音频信号;(4)提取步骤,即利用移动终端设备从嵌入水印信号的电视节目音频信号中提取水印信号,只要采用移动终端打开网络即可立即参与电视节目互动。本发明方便快捷,并且不影响观众对电视节目的欣赏和观看。
-
-
-
-
-
-
-
-
-