用于电话语音识别的信息处理方法及装置

    公开(公告)号:CN117765951A

    公开(公告)日:2024-03-26

    申请号:CN202311224332.3

    申请日:2023-09-21

    Inventor: 赵胜 丁卓

    Abstract: 本申请公开了一种用于电话语音识别的信息处理方法及装置,其中方法包括获取非电话信道语音数据,并对所述非电话信道语音数据进行随机速度扰动,得到第一语音数据;对所述第一语音数据添加噪声和混响数据,得到第二语音数据;对所述第二语音数据进行音频降采样,并将降采样后的数据进行电话信道传输模拟,得到第三语音数据;基于所述第三语音数据,对预设的声纹识别用模型进行训练,以作为训练样本对所述预设的声纹识别用模型进行训练。通过特定的数据增强方式得到的数据用于声纹识别系统模型训练,实现少数据量情况下的电话信道声纹识别模型的训练,进而克服了在没有真实的电话数据可用的情况下将难以针对电话数据实施模型的训练的问题。

    一种可持续便捷的代码更新监控方法

    公开(公告)号:CN117648234A

    公开(公告)日:2024-03-05

    申请号:CN202311700402.8

    申请日:2023-12-11

    Inventor: 谢羽凯 丁卓

    Abstract: 本发明涉及电子数字数据处理技术领域,具体涉及一种可持续便捷的代码更新监控方法,本发明采用WebSocket技术建立长连接,实现实时接收GitLab代码仓库的事件通知,提高监控的实时性,通过设置Webhook机制和长连接,避免了频繁的轮询和无效请求,减少网络带宽和服务器资源的浪费,提供可定制的通知方式和触发条件,满足不同团队的监控需求,支持钉钉机器人、邮件通知等多种渠道,程序可精准统计团队成员的代码提交情况,包括提交次数、时间等信息,帮助团队管理和项目进展评估,从而解决了现有的代码更新监控方法实用性较低的问题。

    一种基于半监督模型的声音检测方法

    公开(公告)号:CN117558291A

    公开(公告)日:2024-02-13

    申请号:CN202311312313.6

    申请日:2023-10-11

    Abstract: 本发明公开了一种基于半监督模型的声音检测方法,通过针对无标签音频数据的对数梅尔频谱对进行弱增强策略、强增强策略,分别得到弱增强、强增强对数梅尔频谱对。本发明以强标签、弱标签、无标签对数梅尔频谱、弱增强、强增强对数梅尔频谱对为输入、音频数据的类别和时间为输出,构建和训练教师模型和学生模型,并且在训练学生模型过程中,针对弱增强、强增强对数梅尔频谱图的预测值进行相似损失计算,针对强标签、弱标签对数梅尔频谱图的预测值进行分类损失计算;同时计算教师模型和学生模型的一致性损失,最终得到半监督声音检测模型。本发明优化改进了现有的平均教师模型,提出了相似损失的概念;通过充分利用无标签数据提升了检测的准确度。

    一种基于语音外呼的机器人对话智能预警系统

    公开(公告)号:CN117459640A

    公开(公告)日:2024-01-26

    申请号:CN202310686126.8

    申请日:2023-06-09

    Inventor: 周坤坤 丁卓 鲁宁

    Abstract: 本发明提供的一种基于语音外呼的机器人对话智能预警系统,涉及智能预警系统技术领域,包括:数据接入模块、数据融合模块、NLP神经网络构建模块、NLP神经网络分析模块和数据展现模块;数据接入模块,操作于连接多种数据源,接受多种数据源的数据并进行预处理;数据融合模块,操作于对多种数据源数据进行融合处理和质量评估。本发明,能够通过智能外呼系统进行外呼,减轻办事人员工作量,释放人工坐席,处理重要信息,提升工作质效。并将AI技术融于反电诈,及时高效全覆盖的外呼,对市民进行提醒、劝阻、宣传,减少市民损失,提升市民满意度;为易受骗人群提供便捷、自然的语音交互服务,为一线办事人员提供高效的预警劝阻工作辅助。

    一种支持多语种的智能听说训练装置

    公开(公告)号:CN117275456A

    公开(公告)日:2023-12-22

    申请号:CN202311347827.5

    申请日:2023-10-18

    Inventor: 赵胜 丁卓 鲁宁

    Abstract: 本发明涉及语种学习技术领域,具体公开了一种支持多语种的智能听说训练装置,包括主机本体、语音真实度模块、语法语义模块、上下文处理模块、SVC克隆模块和TTS心情模块;本发明提供了录音和回放、发音评估、口语练习材料选择与浏览、实时对话交流的多个功能模块,能够满足用户进行口语训练所需的各个方面的需求,用户可以在一个装置上完成全面的口语训练,无需在不同的平台或设备上切换,能够根据用户的口语练习数据和分析结果,给出个性化的评估和建议,可以根据用户的口语表现,评估发音准确度、流利度、语速的关键指标,给出相对应的评分和建议,帮助用户改进口语的表达能力。

    一种面向实时语音通讯的丢包补偿方法

    公开(公告)号:CN116248229B

    公开(公告)日:2023-12-01

    申请号:CN202211572689.6

    申请日:2022-12-08

    Abstract: 本发明公开一种面向实时语音通讯的丢包补偿方法,包括如下步骤:构建基于对抗神经网络的补偿训练模型,所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器;将历史音频输入至所述补偿系数生成器和谐波组中处理,获得初始修补音频;通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度;基于相似度,更新补偿训练模型的参数,继续训练,直到模型收敛或达到最大迭代次数,输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。本发明能够更加准确地预测出丢失的音频帧,提高实时语音通讯中的音频质量。

    域适应的声纹特征识别方法及系统

    公开(公告)号:CN116229990A

    公开(公告)日:2023-06-06

    申请号:CN202211431413.6

    申请日:2022-11-15

    Inventor: 张星东 赵胜 丁卓

    Abstract: 本方案涉及一种域适应的声纹特征识别方法及系统。所述方法包括:中心服务器接收声纹查询请求,并获取待识别音频;所述中心服务器通过域适应循环对抗神经网络对所述待识别音频进行域分类,得到类别序号并发送给分布式存储设备;所述分布式存储设备在声纹数据底库中查找与所述类别序号相同的已注册名单,并根据所述已注册名单计算出各个打分矩阵;所述分布式存储设备将各个所述打分矩阵发送至所述中心服务器,所述中心服务器根据各个所述打分矩阵得到声纹识别结果。通过使用域适应循环对抗神经网络进行域分类,从而根据类别序号计算打分矩阵并得到声纹识别结果,当数据属于不同域时,不会出现域不匹配的现象,提高了声纹识别的识别性能。

    一种用于数据库计算引擎节点执行时动态扩缩的方法

    公开(公告)号:CN120066781A

    公开(公告)日:2025-05-30

    申请号:CN202510135317.4

    申请日:2025-02-07

    Inventor: 吴启文 丁卓

    Abstract: 本发明涉及数据处理技术领域,具体涉及一种用于数据库计算引擎节点执行时动态扩缩的方法,包括如下步骤:提供查询集群扩缩挂起策略的接口;生成并采集计算集群内核心指标,并根据元数据提供的集群当前扩缩挂起策略来判断集群是否需要挂起及扩缩;接收计算集群的扩缩、挂起请求,进行合法性校验;执行挂起、扩缩动作,通过上述方式,实现资源调整的自动化和无缝衔接,减少人工干预,提高数据库系统灵活性和响应速度。

    基于图卷积网络的匿名说话人攻击方法

    公开(公告)号:CN120048241A

    公开(公告)日:2025-05-27

    申请号:CN202510192231.5

    申请日:2025-02-21

    Abstract: 本发明涉及语言转换技术领域,具体涉及一种基于图卷积网络的匿名说话人攻击方法;包括如下步骤:将F0特征与原始F0特征进行拼接融合作为新F0特征;提取音频的特征并进行矢量量化;将处理后的F0特征和特征进行拼接,生成匿名化语音;计算来自试验话语和注册话语的说话者嵌入;输出匿名化试验话语嵌入和匿名化注册话语嵌入的相似性分数,根据分数判断是否属于同一说话人;通过多个试验和注册话语对,计算等错误率作为性能指标,评估攻击者系统对匿名化系统的攻击能力;通过考虑F0特征不同帧之间的时间相关性,利用图卷积网络和F0特征协同匿名说话人身份信息,来提升攻击者系统性能。

Patent Agency Ranking