一种基于字典学习的无监督异常声检测方法和装置

    公开(公告)号:CN113327632A

    公开(公告)日:2021-08-31

    申请号:CN202110523125.2

    申请日:2021-05-13

    Abstract: 本发明公开了一种基于字典学习的无监督异常声检测方法和装置,包括:生成训练集和测试集,训练集中只有正常运行状态下的机械声音频样本;对训练集中的样本数据进行预处理,分隔得到若干个音频帧;对音频帧进行特征提取,采用K‑SVD算法和OMP算法求解得到音频的本质特征和训练集稀疏系数;将求解得到的音频的本质特征和稀疏系数导入分类模型,对模型进行训练;该分类模型用于对导入的测试集稀疏系数进行处理,输出该测试集稀疏系数对应的音频样本的类别。本发明能够采用传统特征参数进行字典学习和稀疏表示进行样本更加精确的分类从而提高机械检测灵敏度和准确度。

    一种基于循环记忆注意力网络的端到端场景分类方法

    公开(公告)号:CN112686137A

    公开(公告)日:2021-04-20

    申请号:CN202011589547.1

    申请日:2020-12-29

    Abstract: 本发明提供了一种基于循环记忆注意力网络的端到端场景分类方法,首先接收输入图片,对图片进行数据预处理,将处理后的图片输入至特征提取模块,提取初始特征;然后将提取到的初始特征输入至注意力定位模块,在初始特征图上得到定位后的核心目标区域;接着通过循环记忆模块回归出下一阶段需要的位置参数和循环记忆每一阶段的注意力区域特征,同时每一次迭代均输出特征所属类别的预测概率,最终得到该图片的场景分类概率;本发明通过有效的损失函数设计,精准地定位到不同的场景目标区域,并利用LSTM网络结构循环记忆特征最后进行分类概率输出;实验在构造数据集Scene 30和公有室内场景数据集MIT Indoor 67,证明了提出的循环记忆注意力网络的有效性。

    一种基于手部识别的弦乐器音符比对系统及其使用方法

    公开(公告)号:CN111968675A

    公开(公告)日:2020-11-20

    申请号:CN202010662361.8

    申请日:2020-07-10

    Inventor: 朱欣岳 邵曦

    Abstract: 本发明公开了一种基于手部识别的弦乐器音符比对系统,包括显示屏、摄像装置、手部关键点识别装置和智能终端,所述显示器与智能终端通信连接,所述智能终端与手部关键点识别装置通信连接,所述手部关键点识别装置与摄像装置通信连接。本发明还公开了基于手部识别的弦乐器音符比对系统的使用方法。本发明的弦乐器音符比对系统能够准确、实时地将弦乐器与吉他用户演奏声音转化成通用的MIDI音频数字信号,方便计算机传输与处理;让用户实时得到自己演奏音符与师傅演奏音符的差别,客观准确地评价自己的演奏水平;教琴者更加直观的得到弹奏者练琴的各项数据,让教琴者更加准确地评价弹奏者的演奏水平,给出指导意见,实现智能教学。

    基于去统计实例归一化的自监督语音增强方法

    公开(公告)号:CN119296563A

    公开(公告)日:2025-01-10

    申请号:CN202411391984.0

    申请日:2024-10-08

    Abstract: 本发明公开了一种基于去统计实例归一化的自监督语音增强方法,包括训练阶段和测试阶段;在训练阶段获取训练语料,构建语音增强模型并进行训练,得到语音增强模型所需的参数和损失函数,而在测试阶段实现含噪语音的增强。语音增强模型包括特征提取模块和语音增强模块,特征提取模块选用自监督学习模型WavLM,语音增强模块选用BLSTM作为主要框架;在特征提取模块和语音增强模块之间提出去统计实例归一化,解决序列数据中的均值和方差等统计属性随时间变化而产生的分布偏移问题,提高模型预测的准确性和去噪效果。本发明自监督语音增强方法能够有效提高语音增强的性能,获得更高的语音感知质量和可懂度,实现高质量的语音增强。

    一种基于多特征建模和粒度感知的情感语音转换方法

    公开(公告)号:CN118865938A

    公开(公告)日:2024-10-29

    申请号:CN202410920631.9

    申请日:2024-07-10

    Abstract: 本发明公开了一种基于多特征建模和粒度感知的情感语音转换方法,包括:预训练阶段、微调阶段和转换阶段,其中预训练阶段和微调阶段用于有效实现情感语音语言内容和情感韵律的充分解纠缠,转换阶段则利用训练好的模型分别提取源情感语音的语言内容和目标情感语音的情感韵律以完成测试语料情感状态的转换。为了进一步地提高转换情感语音的情感饱和度,实现高表现力的情感转换效果,本发明还提出了多韵律特征建模和粒度感知的改进方法,分别从韵律特征的多样性和粒度感知性方面来优化韵律空间,从而能够挖掘出更多的韵律信息,有效提升了转换情感语音的情感饱和度。

    一种基于改进ESPRIT算法的宽带信号DOA估计方法

    公开(公告)号:CN118859102A

    公开(公告)日:2024-10-29

    申请号:CN202410837357.9

    申请日:2024-06-26

    Abstract: 本发明提出了一种基于改进ESPRIT算法的宽带信号DOA估计方法,将ESPRIT算法所需的阵元偶麦克风阵列通过麦克风复用简化为均匀线阵;并针对阵列位移矢量大于信号最小半波长时出现的相位卷绕问题,在用窄带ESPRIT算法估计宽带信号声源DOA的任务上给出了基于聚类的解卷绕方案。以开始出现相位卷绕的频率点为界限,将整个频带分为两部分。统计无相位卷绕的部分频率点信号DOA估计结果作为聚类中心的初始值,利用先验聚类中心对应的方向角引导存在相位卷绕的部分频率点信号进行相位解卷绕,从而避免拓展孔径阵列对中高频率信号DOA估计造成的误差,实现全频带的无相位卷绕DOA估计。该方法使得麦克风阵列能够藉由拓展阵列孔径获得更准确的估计结果。

    基于多尺度信息的编-解码器结构的跨语种语音转换方法

    公开(公告)号:CN118645083A

    公开(公告)日:2024-09-13

    申请号:CN202410920630.4

    申请日:2024-07-10

    Abstract: 本发明公开了一种基于多尺度信息的编‑解码器结构的跨语种语音转换方法,包括训练阶段和转换阶段,训练阶段中编码器对声学特征解耦,获得说话人信息表征和内容表征;编码器和解码器之间采用U型连接,将说话人信息表征从编码器传递到解码器;多尺度信息提取网络进一步提取内容表征中的多尺度信息;解码器将获取的说话人信息表征和包含多尺度信息的内容表征进行重构。本发明在训练阶段引入深度监督机制,在不同解码阶段引入监督信号,学习多尺度的重构特征表示,为最终输出重构特征提供多尺度信息;利用多尺度信息提取网络和深度监督机制,使转换语音包含更详细的多尺度信息,进一步提高转换语音的自然度,从而实现高质量的跨语种语音转换。

    一种基于局部差异信息辅助的小样本类增量音频分类方法

    公开(公告)号:CN118366475A

    公开(公告)日:2024-07-19

    申请号:CN202410415397.4

    申请日:2024-04-08

    Abstract: 本发明公开了一种基于局部差异信息辅助的小样本类增量音频分类方法,本发明包括计算模块预训练阶段和分类器融合阶段,将音频分类数据集样本按照类别划分为基类、伪新类和新类,这三个类别互不重叠;所述计算模块预训练阶段为训练特征提取网络,基类分类器和小样本分类权重生成器;所述分类器融合阶段为:从基类中选取每个类别的代表性样本与新类样本混合得到混合样本,将基类分类器与新类分类器级联输入到知识保存模块中,基于混合样本训练知识保存模块,输出能够同时识别基类和新类的统一分类器。本发明改善了相似的新类与基类之间的混淆问题,提高了模型同时识别基类和新类的准确率。

Patent Agency Ranking