一种基于双线性特征融合的无监督机器异常声检测方法

    公开(公告)号:CN119026083A

    公开(公告)日:2024-11-26

    申请号:CN202411159640.7

    申请日:2024-08-22

    Inventor: 邵曦 冯时 朱晨阳

    Abstract: 本发明公开了一种基于双线性特征融合的无监督机器异常声检测方法,本发明属于机器异常声检测技术领域,对于工厂机器运转的音频环境,引入双线性特征融合方法与空间通道注意力机制提高对异常噪声特征的提取能力。在特征融合阶段,使用双线性特征融合方法对表征机器的特征进行融合,本方法将双线性池化概念引入无监督异常声音检测,相比常规串并联拼接的特征融合方法,通过双线性特征融合提升了对细微特征的识别能力;在双线性特征融合的基础上添加空间通道注意力机制,关注有效的细微特征信息;提高异常声音检测的准确度,提升了整体性能。

    基于说话人语音微动作的说话人识别方法

    公开(公告)号:CN118918900A

    公开(公告)日:2024-11-08

    申请号:CN202411154941.0

    申请日:2024-08-22

    Inventor: 丁卓 刘叔弢 邵曦

    Abstract: 本发明涉及电子数字数据处理技术领域,具体涉及一种基于说话人语音微动作的说话人识别方法,包括:语音流经过预处理后提取Fbank特征分别送入教师网络和学生网络中,得到各自对应的特征嵌入;将教师网络和学生网络分别得到的特征嵌入送入loss函数中并进行反向传播;学生网络正常迭代,教师网络通过EMA滑动平均的方法进行迭代;将经过ECAPA‑TDNN声纹模型提取得到的声纹特征信息与通过口音数据训练得到的说话人语音微动作信息进行特征聚合和分类,进行说话人识别;本发明利用数据增强等方法提升模型的泛化性能,避免拟合在信道特征当中,且不需要人工标注,并通过引入新的特征来帮助说话人验证模型取得在更大人群中识别说话人的能力。

    一种基于空间线索的双麦克风语音增强方法

    公开(公告)号:CN117457020A

    公开(公告)日:2024-01-26

    申请号:CN202311149429.2

    申请日:2023-09-07

    Abstract: 本发明公开了一种基于空间线索的双麦克风语音增强方法,包括:对采集到的双麦克风信号做傅里叶变换,把时域信号转化为频域信号,并获得双通道频域信号和功率谱的比值;计算双通道语音信号的时延差和能量差,并估计标识函数、传递函数及语音缺失概率;计算双通道公共增益并将其分别作用于双麦克风信号获得第一阶段降噪后语音信号;估计第一阶段降噪后获得双麦克风信号的相干性和功率谱,并利用波束形成算法将其转化为单通道信号;用所得相干性和功率谱估计第二阶段语音缺失概率和功率谱平滑参数,并估计残留噪声功率谱;根据第二阶段语音缺失概率和残留噪声功率谱计算第二阶段增益并将其作用于波束形成输出的单通道信号获得最终的增强后语音。

    一种动态图链接生成方法

    公开(公告)号:CN116306780A

    公开(公告)日:2023-06-23

    申请号:CN202310525595.1

    申请日:2023-05-11

    Abstract: 本发明公开了一种动态图链接生成方法,所述方法包括:获取不同时刻的快照图;将所述不同时刻的快照图,输入至预设的生成对抗图胶囊网络模型中,得到下一时刻快照图之间的链接;其中,所述生成对抗图胶囊网络模型基于生成对抗网络进行双重训练得到的,所述生成对抗图胶囊网络模型采用样本集进行训练,所述样本集是基于每个动态离散快照图对应生成的拓扑结构得到的;所述生成对抗网络包括生成器和鉴别器,所述鉴别器用于对真实数据和生成的数据进行鉴别判断;所述生成器用于生成下一时刻快照图的拓扑结构。

    一种传统中国民族乐器的音符比对系统及其使用方法

    公开(公告)号:CN111554257A

    公开(公告)日:2020-08-18

    申请号:CN202010375417.1

    申请日:2020-05-07

    Inventor: 邵曦 朱欣岳

    Abstract: 本发明公开了一种传统中国民族乐器的音符比对系统及其使用方法,能够准确、实时地将中国传统民族乐器演奏发出的声音转写为通用的MIDI音频数字信号,通过音符比对系统,让弹琴者实时得到自己的演奏音符与师傅演奏音符的差别,客观准确地评价自己的演奏;提高了弹琴者辨别弹奏的力度、音高、音符时值的能力,通过智能终端来显示五线谱、古琴谱、简谱、瀑布流等格式的谱子,辅以音符比对系统,提高了用户获取谱面信息和自己演奏评价的效率;教琴者可以更加直观地得到弹琴者的练琴各项数据,让教琴者更加准确地评价弹琴者演奏,给出指导意见,实现智能教学。

    一种基于卷积神经网络的音乐推荐系统及推荐方法

    公开(公告)号:CN108595550A

    公开(公告)日:2018-09-28

    申请号:CN201810314889.9

    申请日:2018-04-10

    Inventor: 邵曦 何蓉

    Abstract: 本发明提供了一种基于卷积神经网络的音乐推荐系统及推荐方法,包括用于采集音乐用户历史行为数据,构建音乐用户偏好模型的音乐用户建模模块;用于获得回归模型的音乐特征建模模块;用于通过回归模型找到与音乐用户偏好相匹配的音乐对象,推荐给音乐用户的推荐算法模块。本发明把深度学习应用到推荐系统中,有效地弥补了歌曲特征与音频信号之间的语义差别,同时避免了协同过滤中的“冷启动”等问题,提高了推荐系统的准确率。采用卷积神经网络解决了训练效率低下与高时效性需求间的矛盾,并且将用户历史行为信息和音频的声学特征一起加入到模型中,使得推荐结果更符合用户的偏好需求,增强了用户对推荐系统的使用体验性。

    VOIP网络中DTMF流的传输方法

    公开(公告)号:CN102420920B

    公开(公告)日:2013-05-08

    申请号:CN201110429313.5

    申请日:2011-12-20

    Abstract: 本发明公开了一种VOIP网络中DTMF流的传输方法,尤其涉及一种使用传统语音网关时采用压缩语音在因特网上传输带来的DTMF流的大量丢失的解决方案。该方法采用固定电话线路作为传输路径,传输过程包括发送端处理步骤、接收端处理步骤,将在因特网中传输DTMF流进行分类提取,并开辟只针对DTMF分类的TCP通道,使接收端可以根据DTMF序列与RTP序列进行比对,最终恢复成最佳的DTMF流输出。本发明还公开了一种基于该DTMF流传输方法的网关装置。本发明通过TCP流中的DTMF序列与RTP流的音频序列的对比,既包含校验的过程,也包括了误码恢复的过程,极大提高了数据传输的可靠性。

    一种基于注意力和双特征的深度伪造音频检测方法

    公开(公告)号:CN119296582A

    公开(公告)日:2025-01-10

    申请号:CN202411391986.X

    申请日:2024-10-08

    Abstract: 本发明公开了一种基于注意力和双特征的深度伪造音频检测方法,包括训练阶段和测试阶段,在训练阶段获取训练数据并进行预处理,构建双特征深度伪造音频检测模型,将训练数据的手工声学特征和原始波形特征输入到各自检测支路中进行模型训练;分别在两个模型的特征提取模块中加入注意力块,该注意力块由空间局部注意力和频谱全局注意力组成,空间局部注意力用于聚焦特征的局部敏感区域,频谱全局注意力用于捕获特征之间的跨通道相关性,即捕获特征的长程依赖关系,然后将其拼接融合输出,输入至分类模块中进行真伪分类;最后在测试阶段训练好的检测模型,完成对真实语音和合成语音的真伪检测,实现高质量的深度伪造音频检测。

    基于全局掩码的自监督语音增强方法

    公开(公告)号:CN118298839A

    公开(公告)日:2024-07-05

    申请号:CN202410332076.8

    申请日:2024-03-22

    Abstract: 本发明公开了一种基于全局掩码的自监督语音增强方法,包括训练阶段和测试阶段,构建的语音增强模型,包括特征提取模块、语音增强模块和全局掩码映射器,特征提取模块选用自监督学习模型WavLM,语音增强模块选用BLSTM作为主要框架;在WavLM模型中提出全局掩码,从而实现全局感知,补充语音重建所需要的信息,然后将提取到的声学特征传递到BLSTM模型中进行增强,最后提出全局掩码映射器,对所有被掩码的位置进行采样,并将所有盲点分配到同一层,从而允许损失函数一次性优化所有盲点,加速训练,得到全局去噪后的增强语音。本发明方法能够有效提高语音增强的性能,改善降噪效果,获得更高的语音感知质量和可懂度,实现高质量的语音增强。

Patent Agency Ranking