基于深度学习的音频话者分离方法

    公开(公告)号:CN117594058A

    公开(公告)日:2024-02-23

    申请号:CN202410079739.X

    申请日:2024-01-19

    Inventor: 薛凯翔 丁卓

    Abstract: 本发明涉及音频处理技术领域,具体涉及一种基于深度学习的音频话者分离方法;采集音频,并进行多通道音频处理;根据音频滤波进行语音活动检测;进行声纹特征提取;将声纹特征向量聚类成不同的类别;将混合在同一音频信号中的多个说话者的声音进行分离,使每个说话者的声音成为独立的音频流;读取音频信息,进行可视化界面试听,通过上述方式,实现了提高在复杂的环境中音频话者分离效果。

    一种自下而上的多人2D人体姿态估计方法及装置

    公开(公告)号:CN116091596A

    公开(公告)日:2023-05-09

    申请号:CN202211520839.9

    申请日:2022-11-29

    Inventor: 张星东 丁卓 鲁宁

    Abstract: 本发明公开一种自下而上的多人2D人体姿态估计方法及装置。该方法包括如下步骤:获取原始图像,并对原始图像进行预处理;将预处理后的图像输入预设的网络模型中进行训练,得到训练好的网络模型,所述训练好的网络模型用于输出关键点热图和关键点偏移图;将待测图像输入训练好的网络模型中,输出待测图像的关键点热图和关键点偏移图;基于关联式嵌入策略将待测图像的关键点热图和关键点偏移图中待测图像的关键点坐标分组匹配至个人,获取人体姿态信息。本发明采用自下而上的多人姿态估计方法,通过多子空间注意力网络中每个子空间注意力模块学习到相对应关键点的个性化特征,从而提升整体关键点的检测精度。

    一种基于远域迁移学习的图像识别方法

    公开(公告)号:CN114783072A

    公开(公告)日:2022-07-22

    申请号:CN202210266952.2

    申请日:2022-03-17

    Abstract: 本发明公开一种基于远域迁移学习的图像识别方法,包括如下步骤:将特定领域的小样本图像作为目标域,同时将与目标域相似度高的无标签图像作为辅助域,将自然场景图像作为源域,通过基于ResNet50的轻量级网络提取各自域的高级语义特征;利用具有域距离度量的卷积自动编码器并通过辅助域作为桥梁对源域和目标域的高级语义特征进行特征融合;通过卷积自动解码器重构各自域的高级语义特征;最后通过全连接层对目标域图像进行识别,整个过程通过多任务损失函数进行优化。本发明改善了模型对高级语义信息的提取能力和稳定性,有效提升了模型远域特征迁移能力,本发明可以用于不同任务的图像识别任务。

    跨信道声纹比对方法、系统、计算机设备及存储介质

    公开(公告)号:CN114023329A

    公开(公告)日:2022-02-08

    申请号:CN202111192550.4

    申请日:2021-10-13

    Abstract: 本方案涉及一种跨信道声纹比对方法。所述方法包括:获取通过第一信道、第二信道采集的第一语音数据、第二语音数据并进行数据预处理,得到第一目标语音数据、第二目标语音数据;通过重采样算法对第一目标语音数据、第二目标语音数据的采样频率进行处理使其频率相同;查找与第一目标语音数据、第二目标语音数据的状态属性对应的声纹特征提取模型,通过声纹特征提取模型得到第一声纹特征、第二声纹特征;计算第一声纹特征与第二声纹特征的余弦相似度,并根据余弦相似度得到比对结果。通过对不同信道采集的语音数据进行预处理、重采样处理等,将语音数据的采样频率统一,进而对识别的声纹特征进行比对,可以提高声纹比对的精确度。

    电话卡冒用检测方法、系统、计算机设备及存储介质

    公开(公告)号:CN113763963A

    公开(公告)日:2021-12-07

    申请号:CN202110974150.2

    申请日:2021-08-24

    Abstract: 本方案涉及一种电话卡冒用检测方法、系统、计算机设备及存储介质。所述方法包括:获取包含有疑似被冒用电话卡的电话号码的嫌疑名单;获取与电话号码对应机主的电话录音,并通过重采样算法将电话录音的采集频率调整为目标采集频率;将含有目标采集频率的电话录音输入至声纹识别算法模型中,得到与电话录音对应的声纹特征;在注册录音底库中查找与电话号码对应的注册声纹特征;将声纹特征与注册声纹特征进行比对,得到比对结果,并根据比对结果确定电话号码对应的电话卡是否被冒用。通过对采集的电话录音以及数据库中的目标电话录音进行声纹识别,从而根据声纹识别结果确定电话录音对应的机主是否为注册机主,可以准确检测出电话卡是否被冒用。

    基于AI的保险欺诈预防与检测系统
    26.
    发明公开

    公开(公告)号:CN119599812A

    公开(公告)日:2025-03-11

    申请号:CN202411803504.7

    申请日:2024-12-10

    Inventor: 赵胜 丁卓

    Abstract: 本发明涉及保险欺诈识别技术领域,具体涉及一种基于AI的保险欺诈预防与检测系统;包括数据收集模块、数据预处理模块、模型训练模块和可解释性分析模块,数据预处理模块与数据收集模块连接,模型训练模块分别与数据预处理模块和可解释性分析模块连接;数据收集模块,用于从多种数据源中获取数据,处理后进行整合;数据预处理模块,用于对整合后的数据进行预处理,获取归一化数据;模型训练模块,用于构建欺诈检测模型,并针对预处理后的数据做出决策;可解释性分析模块,用于展示决策结果,并与用户进行交互;通过上述方式,实现对数据进行欺诈检测后提供决策过程,能够保险公司和监管机构更好地理解和信任检测结果。

    一种基于AI的反洗钱模式识别系统
    27.
    发明公开

    公开(公告)号:CN119444386A

    公开(公告)日:2025-02-14

    申请号:CN202411603959.4

    申请日:2024-11-12

    Inventor: 赵胜 丁卓

    Abstract: 本发明涉及人工智能技术领域,具体涉及一种基于AI的反洗钱模式识别系统,包括数据采集处理模块、数据增强模块、训练优化模块、预警评估模块、数据学习模块和数据生成模块,通过这样引入机器学习和深度学习技术,使其具备动态适应性的特征,传统的反洗钱系统通常依赖于静态的规则集,这些规则在面对不断演变的洗钱手段时往往显得滞后,而本发明的系统通过不断学习新的数据,更新和优化识别模型,能够动态适应新的洗钱模式和复杂的交易行为,这种灵活性使得系统在面对未知的威胁时仍能保持高效的识别能力。

    多重对抗判别伪造音频检测系统

    公开(公告)号:CN118280389B

    公开(公告)日:2024-11-15

    申请号:CN202410365711.2

    申请日:2024-03-28

    Abstract: 本发明涉及语音识别技术领域,具体涉及一种多重对抗判别伪造音频检测系统;包括数据采集模块、波形检测模型、时域特征建模模块和对抗神经网络分类器;波形检测模型用于提取预处理后的原始音频数据中的频谱,基于频谱的连续性判别原始音频是否为真实音频;时域特征建模模块用于对音频波形与特征进行建模;对抗神经网络分类器用于对特征进行判别,再次判别原始音频是否为真实音频;通过对目标音频进行波形频谱分析,采用深度神经网络对于音频波形与特征进行建模,使用对抗神经网络对特征进行判别,从而判断音频来源是否伪造,获得检测出深度音频的伪造,提高检测的准确性和鲁棒性的效果。

    基于说话人语音微动作的说话人识别方法

    公开(公告)号:CN118918900A

    公开(公告)日:2024-11-08

    申请号:CN202411154941.0

    申请日:2024-08-22

    Inventor: 丁卓 刘叔弢 邵曦

    Abstract: 本发明涉及电子数字数据处理技术领域,具体涉及一种基于说话人语音微动作的说话人识别方法,包括:语音流经过预处理后提取Fbank特征分别送入教师网络和学生网络中,得到各自对应的特征嵌入;将教师网络和学生网络分别得到的特征嵌入送入loss函数中并进行反向传播;学生网络正常迭代,教师网络通过EMA滑动平均的方法进行迭代;将经过ECAPA‑TDNN声纹模型提取得到的声纹特征信息与通过口音数据训练得到的说话人语音微动作信息进行特征聚合和分类,进行说话人识别;本发明利用数据增强等方法提升模型的泛化性能,避免拟合在信道特征当中,且不需要人工标注,并通过引入新的特征来帮助说话人验证模型取得在更大人群中识别说话人的能力。

Patent Agency Ranking