-
公开(公告)号:CN112836043A
公开(公告)日:2021-05-25
申请号:CN202011093000.2
申请日:2020-10-13
Applicant: 讯飞智元信息科技有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种基于预训练语言模型的长文本聚类方法及装置,该方法包括:步骤SS1:使用文本摘要模型将长文本压缩为短文本;步骤SS2:根据步骤SS1获得的所述短文本与BERT模型的有标签文本句子对来预测是否两个文本包含相同的事件,生成文本对初始分数;步骤SS3:使用步骤SS2获得的所述文本对初始分数作为初始分数,根据文本对相较于其他文本的关系来重新计算分数;步骤SS4:根据步骤SS3获得的文本对分数,从得分最高的文本对开始计算分组。本发明运用深度学习方法的同时,采用迁移学习,将大规模预训练模型应用到文本聚类中。
-
公开(公告)号:CN111881682A
公开(公告)日:2020-11-03
申请号:CN202010554413.X
申请日:2020-06-17
Applicant: 国家计算机网络与信息安全管理中心 , 讯飞智元信息科技有限公司
IPC: G06F40/295 , G06F40/30 , G06N3/04
Abstract: 本发明公开了一种改进的DRNN模型的意图识别方法及装置,该方法包括如下步骤:步骤SS1:将输入序列输入到DRNN循环神经网络中进行阻断信息流动,使输入序列传递固定的步长K;步骤SS2:将DRNN循环神经网络的每个隐层标识送入MLP多层感知器中,来抽取更高层的特征信息;步骤SS3:通过Max Pooling池化操作来抽取整个输入序列的文本中最重要的特征信息;步骤SS4:通过一层MLP多层感知器送入softmax逻辑回归模型中进行分类,输出文本分类结果。本发明通过改进的DRNN(Disconnected Recurrent Neural Networks)进行意图识别分类,以提高文本分类的准确性,使相关技术在实际应用场景中达到更好效果。
-
公开(公告)号:CN109493882A
公开(公告)日:2019-03-19
申请号:CN201811304612.4
申请日:2018-11-04
Applicant: 国家计算机网络与信息安全管理中心 , 讯飞智元信息科技有限公司
Abstract: 本发明公开一种诈骗电话语音自动标注系统,包括基础维度标注模块、声纹标注模块、连续语音识别标注模块,所述基础维度标注模块的输出端分别与所述声纹标注模块的输入端、所述连续语音识别标注模块的输入端相连接。本发明还提出一种诈骗电话语音自动标注方法,具体包括如下步骤:基础维度标注步骤;连续语音识别步骤;声纹标注步骤。本发明通过智能语音技术实现对输入语音数据进行自动处理,实现语音数据的自动分析识别,并进行标签预标注工作,再结合人工确认,进行目标数据维度标签的有效标注管理,有效地利用通话语音数据,优化智能语音技术在电话诈骗场景下的应用及效果,同时保证数据在标注过程中的脱密及加密传输。
-
公开(公告)号:CN112466310A
公开(公告)日:2021-03-09
申请号:CN202011105315.4
申请日:2020-10-15
Applicant: 讯飞智元信息科技有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了深度学习声纹识别方法、装置、电子设备及存储介质,该方法包括:获取包含用户个人信息的音频数据,输入特征提取模型,输出用户个人信息+声纹音频数据;将所述声纹音频数据输入已训练的声纹识别模型,输出声纹识别信息;根据预先存储的验证音频信息对所述声纹识别信息和用户个人信息进行识别,以识别用户身份;响应于所述用户身份识别成功,输出音频数据的声纹识别指令。本发明解决了传统声纹识别算法或者单纯数字密码验证的局限性,实现了较理想的密码验证准确率。
-
公开(公告)号:CN112836042A
公开(公告)日:2021-05-25
申请号:CN202011092228.X
申请日:2020-10-13
Applicant: 讯飞智元信息科技有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种有害音频识别方法、装置、电子设备及计算机可读介质。该有害音频识别方法,包括:获取待识别音频数据进行特征提取,并输入到关键词匹配模型,输出音频数据的开始时间和结束时间以及识别的文本内容;对所述识别的文本内容通过向量机算法SVM进行分类,生成文本集合结果。本发明通过获取待识别音频数据进行特征提取,并输入到关键词匹配模型,输出音频数据的开始时间和结束时间以及识别的文本内容;对所述识别的文本内容通过向量机算法SVM进行分类,生成文本集合结果,不断更新有害音频的正例样本库,提高有害音频检测的准确率。
-
公开(公告)号:CN112435672A
公开(公告)日:2021-03-02
申请号:CN202011105330.9
申请日:2020-10-15
Applicant: 讯飞智元信息科技有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种声纹识别方法、装置、设备及存储介质,该方法包括:获取用户的包含登录指令待识别的音频数据,输入声纹提取模型,输出声学特征;将所述声学特征输入已训练的声纹识别模型,输出识别文本;根据预先存储的验证音频数据对所述识别文本进行识别,以识别用户身份;响应于所述用户身份识别成功,执行所述登录执行。本发明针对如何解决由于传统声纹识别算法的局限性,通过获取用户的包含登录指令待识别的音频数据,输入声纹提取模型,输出声学特征;将所述声学特征输入已训练的声纹识别模型,输出识别文本;根据预先存储的验证音频数据对所述识别文本进行识别,以识别用户身份,提高音频数据进行登录验证的准确率。
-
公开(公告)号:CN108882242A
公开(公告)日:2018-11-23
申请号:CN201810589825.X
申请日:2018-06-08
Applicant: 国家计算机网络与信息安全管理中心 , 讯飞智元信息科技有限公司
Abstract: 本发明公开了基于声纹识别和意图理解技术的反诈骗系统的自学习方法,其特征在于,具体包括如下步骤:步骤SS1:建立诈骗人声纹模型库和诈骗人意图模型库;步骤SS2:诈骗人声纹模型库更新步骤;步骤SS3:诈骗人意图模型库更新步骤。本发明利用声纹预警数据自动为意图理解模型积累训练用诈骗文本;利用意图理解预警数据自动添加诈骗人声纹模型库,两种技术手段互相补充,有效解决数据积累期间新诈骗人的漏警和意图理解模型训练文本人工积累的问题。
-
公开(公告)号:CN112466281A
公开(公告)日:2021-03-09
申请号:CN202011092988.0
申请日:2020-10-13
Applicant: 讯飞智元信息科技有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了有害音频识别解码方法及装置,该方法包括:获取待识别音频数据,提取待测音频中的声学特征,对所述声学特征进行有效音频检测得到有效音频段;将所述有效音频段输入到有害音频分类网络模型,从文本意图的角度对待测样本进行分类,输出文本集合分类结果;将所述文本集合分类结果输入声学模型中输出解码结果。本发明通过对声学特征进行有效音频检测得到有效音频段;将所述有效音频段输入到有害音频分类网络模型,从文本意图的角度对待测样本进行分类,输出文本集合分类结果;将所述文本集合分类结果输入声学模型中输出解码结果,通过构建元学习的目标函数,获取大数据量的意图分类网络参数更新过程,提高有害音频识别解码的准确率。
-
公开(公告)号:CN111785281A
公开(公告)日:2020-10-16
申请号:CN202010554305.2
申请日:2020-06-17
Applicant: 国家计算机网络与信息安全管理中心 , 讯飞智元信息科技有限公司
IPC: G10L17/02 , G10L17/04 , G10L17/06 , G10L17/18 , G10L21/0208
Abstract: 本发明公开了一种基于信道补偿的声纹识别方法及系统,该方法包括如下步骤:步骤SS1:初始化去噪网络G和判别网络D;步骤SS2:输入噪声音频到去噪网络G,生成fake音频,将所述fake音频和真实的干净音频送入到判别网络D进行训练,更新判别网络D的网络参数,得到新一代判别网络D1;步骤SS3:冻结判别网络D1的参数,在去噪网络G中输入噪声音频,同时将对应的判别标签设为True,来欺骗判别网络D1;步骤SS4:重复步骤SS2至步骤SS3,直至判别网络D收敛,转入步骤SS5;步骤SS5:去噪网络G输出增强音频信号。本发明对于声纹识别大幅提高了整体准确率。
-
公开(公告)号:CN108804669A
公开(公告)日:2018-11-13
申请号:CN201810590258.X
申请日:2018-06-08
Applicant: 国家计算机网络与信息安全管理中心 , 讯飞智元信息科技有限公司
CPC classification number: G06F17/2775 , G06F17/2715
Abstract: 本发明公开了一种基于意图理解技术的诈骗电话检出方法,其特征在于,包括如下步骤:基于诈骗类型的意图理解模型训练步骤;基于诈骗类型的意图理解模型评估步骤。本发明通过对大量诈骗剧本进行自动分类后,利用机器学习算法,训练出适用于各类诈骗电话的意图理解模型,相对于目前已拥有冒充公检法、冒充熟人领导、冒充客服、冒充军人、贷款诈骗等模型,可以有效地实现海量数据的有效分析,准实时对诈骗电话进行快速识别预警。
-
-
-
-
-
-
-
-
-