一种基于空间线索的双麦克风语音增强方法

    公开(公告)号:CN117457020A

    公开(公告)日:2024-01-26

    申请号:CN202311149429.2

    申请日:2023-09-07

    Abstract: 本发明公开了一种基于空间线索的双麦克风语音增强方法,包括:对采集到的双麦克风信号做傅里叶变换,把时域信号转化为频域信号,并获得双通道频域信号和功率谱的比值;计算双通道语音信号的时延差和能量差,并估计标识函数、传递函数及语音缺失概率;计算双通道公共增益并将其分别作用于双麦克风信号获得第一阶段降噪后语音信号;估计第一阶段降噪后获得双麦克风信号的相干性和功率谱,并利用波束形成算法将其转化为单通道信号;用所得相干性和功率谱估计第二阶段语音缺失概率和功率谱平滑参数,并估计残留噪声功率谱;根据第二阶段语音缺失概率和残留噪声功率谱计算第二阶段增益并将其作用于波束形成输出的单通道信号获得最终的增强后语音。

    一种基于改进ESPRIT算法的宽带信号DOA估计方法

    公开(公告)号:CN118859102A

    公开(公告)日:2024-10-29

    申请号:CN202410837357.9

    申请日:2024-06-26

    Abstract: 本发明提出了一种基于改进ESPRIT算法的宽带信号DOA估计方法,将ESPRIT算法所需的阵元偶麦克风阵列通过麦克风复用简化为均匀线阵;并针对阵列位移矢量大于信号最小半波长时出现的相位卷绕问题,在用窄带ESPRIT算法估计宽带信号声源DOA的任务上给出了基于聚类的解卷绕方案。以开始出现相位卷绕的频率点为界限,将整个频带分为两部分。统计无相位卷绕的部分频率点信号DOA估计结果作为聚类中心的初始值,利用先验聚类中心对应的方向角引导存在相位卷绕的部分频率点信号进行相位解卷绕,从而避免拓展孔径阵列对中高频率信号DOA估计造成的误差,实现全频带的无相位卷绕DOA估计。该方法使得麦克风阵列能够藉由拓展阵列孔径获得更准确的估计结果。

    一种拓展孔径双麦克风阵列宽带无模糊DOA估计方法

    公开(公告)号:CN118707439A

    公开(公告)日:2024-09-27

    申请号:CN202410837353.0

    申请日:2024-06-26

    Abstract: 本发明提出了一种拓展孔径双麦克风阵列宽带无模糊DOA估计方法,针对麦克风阵列拓展孔径产生相位模糊的问题,在用窄带MUSIC算法估计宽带信号声源DOA的任务上给出了基于聚类的解模糊方案。以开始出现相位模糊的频率点为界限,将整个频带分为两部分。对于无相位模糊的部分频率点,直接用窄带MUSIC算法估计信号的MUSIC谱,读取峰值坐标为当前频率点信号DOA估计结果;并用这部分频带信号的估计结果初始化聚类中心,引导存在相位模糊的部分频率点,对存在伪峰的谱函数进行修正,从修正后的谱函数上读取峰值坐标为当前频率点信号估计结果。从而实现全频带的无模糊DOA估计。该方法使得双麦克风阵列能够藉由拓展阵列孔径获得更准确的DOA估计结果。

    一种基于自适应步长LMS滤波器的广义旁瓣消除方法

    公开(公告)号:CN118571244A

    公开(公告)日:2024-08-30

    申请号:CN202410615296.1

    申请日:2024-05-17

    Abstract: 本发明提出了一种基于自适应步长最小均方误差滤波器的广义旁瓣消除方法,根据基于循环插值的双通道互相关算法和宽带MUSIC算法,利用麦克风阵列从音频中收集目标语音的波达方向信息,根据波达方向信息补偿麦克风阵列各通道音频间的时延,并将时延补偿后的音频在时频域上表示,作为波束形成部分的输入,分别计算时延补偿后的音频通过固定波束形成滤波器和阻塞矩阵后得到的固定波束形成结果和多路参考噪声信号;估计音频中噪声的功率谱密度。最后计算固定波束形成器输出和噪声抑制后的参考噪声的残差,作为当前帧算法的输出;再将该输出反馈给噪声抑制滤波器,计算下一帧噪声抑制滤波器的权值,从而消除残留的旁瓣噪声,达到降噪的目的。

    一种基于Transformer进行音视频联合场景分类方法及系统

    公开(公告)号:CN116778289A

    公开(公告)日:2023-09-19

    申请号:CN202310726446.1

    申请日:2023-06-19

    Abstract: 本发明属于深度学习技术领域,具体涉及一种用于分类的Transformer网络模型,公开了一种基于Transformer进行音视频联合场景分类方法包括,通过利用Transformer单元对嘈杂的音频、视频和音视频分别进行早期融合和特征提取;对融合后的特征表示利用EfficientNetV2_S单元进行视频侧的预训练网络;通过利用分类单元进行音频特征、视频特征以及音视频联合特征三者加权求和所得的特征输入到分类器中进行场景分类。本发明提出了将原本的注意力机制替换为Transformer结构,将原本的预训练模型从ResNet50替换为EfficientNetV2_S,提高了分类的准确度,通过Transformer单元的运用提高了场景分类的准确率,提升了多模态之间的关联性。

Patent Agency Ranking