-
公开(公告)号:CN103714826B
公开(公告)日:2016-08-17
申请号:CN201310700673.3
申请日:2013-12-18
Applicant: 讯飞智元信息科技有限公司
Abstract: 本发明提供一种面向声纹鉴定的共振峰自动匹配方法,该方法使用基于连续语音识别的音素切分(Forced Alignment,FA)技术自动标注出声纹鉴定中检材和样本中的音素边界位置;对检材与样本的相同元音音素片段,利用基频、共振峰和功率谱密度参数自动判断当前音素是否为有效可分析音素;采用利用DTW(Dynamic Time Warping,动态时间归整)算法自动给出相应共振峰时频面积的偏差比例,作为最终人工声纹鉴定的分析依据。本发明自动标注音素边界、并判断音素发音是否有效,可大幅度提高处理效率;同时,对有效音素对的自动共振峰偏差比对算法,可提高共振峰比对的精度。
-
公开(公告)号:CN103714826A
公开(公告)日:2014-04-09
申请号:CN201310700673.3
申请日:2013-12-18
Applicant: 安徽讯飞智元信息科技有限公司
Abstract: 本发明提供一种面向声纹鉴定的共振峰自动匹配方法,该方法使用基于连续语音识别的音素切分(Forced Alignment,FA)技术自动标注出声纹鉴定中检材和样本中的音素边界位置;对检材与样本的相同元音音素片段,利用基频、共振峰和功率谱密度参数自动判断当前音素是否为有效可分析音素;采用利用DTW(Dynamic Time Warping,动态时间归整)算法自动给出相应共振峰时频面积的偏差比例,作为最终人工声纹鉴定的分析依据。本发明自动标注音素边界、并判断音素发音是否有效,可大幅度提高处理效率;同时,对有效音素对的自动共振峰偏差比对算法,可提高共振峰比对的精度。
-
公开(公告)号:CN111863007A
公开(公告)日:2020-10-30
申请号:CN202010554629.6
申请日:2020-06-17
Applicant: 国家计算机网络与信息安全管理中心 , 讯飞智元信息科技有限公司
IPC: G10L21/0208 , G10L21/0272 , G06N3/04
Abstract: 本发明公开了一种基于深度学习的语音增强方法及系统,该方法包括如下步骤:步骤SS1:获得带噪语音的多个IRM预测值的解的集合;步骤SS2:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪特征作为输入,预测最终的IRM预测值集合 本发明通过将Boosting-DNN语音增强模型和Ensemble-DNN集成语音增强模型这两个DNN串接起来的方式,有效的解决了一个神经网络由于层次太深训练不稳定的现象,构建一种非常深的网络结构,彻底解决前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容。
-
公开(公告)号:CN111785253A
公开(公告)日:2020-10-16
申请号:CN202010554156.X
申请日:2020-06-17
Applicant: 国家计算机网络与信息安全管理中心 , 讯飞智元信息科技有限公司
Abstract: 本发明公开了一种分布不均衡的语种识别方法及系统,该方法包括如下步骤:步骤SS1:训练步骤,具体包括:对各语种的语音数据进行BN特征提取,生成的特征参数输入语种识别系统生成语种识别模型;步骤SS2:识别步骤,具体包括:加载步骤SS1获得的语种识别模型,对待识别的语音做判别,输出识别结果。通过本发明,使语种识别可以在分布不均衡的数据环境下同样产生有效作用,解决现有通用技术下的语种识别问题。
-
公开(公告)号:CN108074576A
公开(公告)日:2018-05-25
申请号:CN201711342251.8
申请日:2017-12-14
Applicant: 讯飞智元信息科技有限公司
Abstract: 本发明公开了一种审讯场景下的说话人角色分离方法及系统,该方法包括:获取审讯场景下的语音数据;从所述语音数据中提取每个分析单元的角色识别特征,每个分析单元只包含一个说话人语音段;依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型,根据模型输出确定当前分析单元对应的说话人角色;所述说话人角色包括:讯问人和被讯问人。利用本发明,可以准确识别审讯场景下的说话人角色。
-
公开(公告)号:CN104765996B
公开(公告)日:2018-04-27
申请号:CN201410005651.X
申请日:2014-01-06
Applicant: 讯飞智元信息科技有限公司
Abstract: 本发明公开了一种声纹密码认证方法及系统,属于密码认证技术领域。该方法包括:接收用户输入的语音信号;对所述语音信号进行语音识别,获得密码文本;确定是否存在所述密码文本对应的背景模型;如果是,则获取所述背景模型;如果否,则根据所述密码文本对预先训练得到的发音单元模型进行扩展,获得所述密码文本对应的背景模型;利用所述语音信号中的声纹特征序列、所述背景模型和所述用户的声纹密码模型对所述用户进行认证。利用该方法及系统,可以满足用户自定义密码及频繁更改密码的需求。
-
公开(公告)号:CN107832756A
公开(公告)日:2018-03-23
申请号:CN201711002755.5
申请日:2017-10-24
Applicant: 讯飞智元信息科技有限公司
CPC classification number: G06K9/2054 , G06K9/342 , G06K9/344
Abstract: 本公开提供一种快递单信息提取方法及装置、存储介质、电子设备。该方法包括:获取快递单图像,并对快递单图像进行分栏处理,得到至少2个栏目,每个栏目表示一种信息类型;将每个栏目中的文本行转换为矩形图像块;根据每个栏目在快递单图像中的位置、以及每个栏目包括的矩形图像块,在预设模板库中查找相似模板;如果查找到相似模板,则获取相似模板对应的栏目集合,并根据栏目集合,从快递单图像中确定出对应的待提取栏目;将待提取栏目包括的矩形图像块转换为文字信息,并确定出每个矩形图像块对应的文本行的类别;快递单信息包括:待提取栏目的信息类型、文本行的类别、文字信息。如此方案,有助于提高快递单信息提取的准确率。
-
公开(公告)号:CN105551485A
公开(公告)日:2016-05-04
申请号:CN201510882391.9
申请日:2015-11-30
Applicant: 讯飞智元信息科技有限公司
Abstract: 本发明公开了一种语音文件检索方法及系统,该方法包括:训练对应检索关键词的用户兴趣模型;获取待检索的各语音文件;对所述语音文件进行语音转写,得到转写结果;根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征;利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句;根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;根据所述相关度展示检索出的语音文件。利用本发明,可以提高语音文件检索效率及准确性。
-
公开(公告)号:CN116386664A
公开(公告)日:2023-07-04
申请号:CN202211567068.9
申请日:2022-12-07
Applicant: 讯飞智元信息科技有限公司 , 甘肃省国家安全特种技术重点实验室
Abstract: 本申请公开了一种语音伪造检测方法、装置、系统及存储介质,所述方法包括以下步骤:获取待检测语音数据;提取所述待检测语音数据的多分辨率声学特征;将所述待检测语音数据的多分辨率声学特征输入到已训练的自编码模型中,以获得所述待检测语音数据的重构误差得分;将所述待检测语音数据的重构误差得分与预设的得分阈值进行比较,以获得语音伪造检测结果。根据本申请公开的语音伪造检测方法、装置、系统及存储介质,实现了语音伪造检测,提高了用于语音检测的自编码模型的泛化能力和鲁棒性。
-
-
-
-
-
-
-
-
-