-
公开(公告)号:CN110175221A
公开(公告)日:2019-08-27
申请号:CN201910411018.3
申请日:2019-05-17
Applicant: 国家计算机网络与信息安全管理中心 , 杭州东信北邮信息技术有限公司 , 长安通信科技有限责任公司
Abstract: 利用词向量结合机器学习的垃圾短信识别方法,所述方法包括下列操作步骤:(1)根据短信特征对垃圾短信进行第一步识别;(2)根据关键词对垃圾短信进行第二步识别;(3)计算短信的短信文本向量,使用支持向量机的方法对垃圾短信进行第三步识别;(4)计算短信的静态词向量矩阵,利用卷积神经网络对垃圾短信进行第四步识别;(5)计算短信的每一个分词的动态词向量,利用卷积神经网络对垃圾短信进行第五步识别。本发明方法采用无监督和有监督相结合的垃圾短信识别方法,能大幅度提高垃圾短信的识别准确率。
-
公开(公告)号:CN110059889A
公开(公告)日:2019-07-26
申请号:CN201910344174.2
申请日:2019-04-26
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了基于无监督学习的诈骗呼叫序列检测方法,包括:构造主叫呼叫序列和呼叫二部图;在呼叫二部图中进行随机游走过程,推断各主叫号码对应节点的低维嵌入表示向量;获取各被叫号码的唯一标识,以主叫号码对应节点的低维嵌入表示向量以及第M个被叫号码对应的唯一标识为神经网络的输入,以第M+1个被叫号码对应的唯一标识为输出,训练获得神经网络预测模型;获取待检测主叫呼叫序列中主叫号码对应节点的低维嵌入表示向量以及各被叫号码对应的唯一标识,并输入所述神经网络预测模型,若得到的预测唯一标识与实际唯一标识的误差大于设定阈值,则判断主叫号码为诈骗号码。本发明中提出的方法容易实现并行化计算,可以实现较高的检测效率。
-
公开(公告)号:CN110047509A
公开(公告)日:2019-07-23
申请号:CN201910240865.8
申请日:2019-03-28
Applicant: 国家计算机网络与信息安全管理中心 , 珠海高凌信息科技股份有限公司
Abstract: 本发明的技术方案包括一种两级子空间划分方法及装置,用于实现:采用基于模型子空间的二级匹配方法,处理过程分为两个步骤:第一步通过粗筛定位子空间,确定待检音频模型空间所属范围,第二步细匹,即在子空间内部通过精度较高的传统算法命中目标模型,即包括特征提取、聚类计算、子空间划分、中心点计算四个过程。本发明的有益效果为:实现简单,耗时较小,对于数量巨大的模型特征,其实时性足以满足业务需求,可任意调整簇数的取值,能够有效的划分子空间,并且能够较为均匀的划分到不同的子空间中,同时缩小了模型匹配范围,单次语音特征比较能够有效降低模型数量,提高了效率。
-
公开(公告)号:CN109920406A
公开(公告)日:2019-06-21
申请号:CN201910245435.5
申请日:2019-03-28
Applicant: 国家计算机网络与信息安全管理中心 , 珠海高凌信息科技股份有限公司
Abstract: 本发明的技术方案包括一种基于可变起始位置的动态语音识别方法及系统,用于实现:实时加载输入的语音流信号,对语音信号进行预处理;对语音信号进行特征提取,获取语音信号中的特征;根据语音信号中的特征调用语音模型信息库的多个模型对语音信号进行逐帧模式匹配。本发明的有益效果为:本发明的有益效果为容易理解,实现简单,当前语音模型匹配选取长度较为合理,经过算法改进后,减少了语音模型匹配次数,语音识别效率比之前的算法提高了30%的效率。
-
公开(公告)号:CN113420112B
公开(公告)日:2025-02-18
申请号:CN202110685518.3
申请日:2021-06-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/334 , G06F40/289 , G06F18/214 , G06F18/23213
Abstract: 本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括:对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中,通过新闻实体所处位置的上下文来得到实体的分布式表示,通过对实体的聚类分析来得到实体的聚类结果。
-
公开(公告)号:CN119311871A
公开(公告)日:2025-01-14
申请号:CN202411222450.5
申请日:2024-09-02
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/36 , G06F18/25 , G06F18/213 , G06N3/045
Abstract: 本申请涉及舆情监测技术领域,公开一种面向噪声文本信息的检测方法及系统,所述方法包括:获取目标数据集;对目标数据集进行预处理,获取预处理后的文本特征;构成汉化文本分类模型预训练模型,其中,汉化文本分类模型预训练模型用于预处理后的文本特征,以获取文本的表示向量;构建两个结构不同的基于汉化文本分类预训练模型作为双塔模型的基分类器A和基分类器B;用相同数据集对基分类器A和基分类器B进行调整。本发明能够对双塔模型进行相互校验,对双塔模型的输出结果进行综合考量,并输出最终结果,从而有效提高整体的特定内容检测准确率。
-
公开(公告)号:CN112331181B
公开(公告)日:2024-07-05
申请号:CN201910694870.6
申请日:2019-07-30
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于目标语音提取和自适应技术领域,具体涉及一种基于多说话人条件下目标说话人语音提取方法,该方法具体包括:实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;基于该目标说话人的语音频谱,获取目标说话人的语音。
-
公开(公告)号:CN117711393A
公开(公告)日:2024-03-15
申请号:CN202311695998.7
申请日:2023-12-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及语音识别技术领域,提供一种语音对抗样本的防御方法、装置、设备和存储介质,该方法包括:获取原始语音指令对应的原始识别结果和降噪后的识别结果;在确定原始识别结果与降噪后的识别结果不相同的情况下,根据白噪声异常度和预设的异常度阈值,确定降噪后的识别结果对应的第一指令是否为语音对抗样本;白噪声异常度用于表征输入原始语音指令至语音识别模型时原始语音指令和所处的环境的环境噪声的相关程度;在第一指令为语音对抗样本的情况下,将第一指令进行作废。本发明提升了语音对抗样本的防御效果。
-
公开(公告)号:CN113326689B
公开(公告)日:2023-08-18
申请号:CN202010128327.2
申请日:2020-02-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/205 , G06F40/211 , G06F18/214 , G06F18/2415 , G06N3/045 , G06N3/092
Abstract: 本发明属于数据通信和数据处理技术领域,具体涉及一种基于深度强化学习模型的数据清洗方法,该方法包括:获取待清洗的带标签的数据集;采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
-
公开(公告)号:CN111354347B
公开(公告)日:2023-08-15
申请号:CN201811571564.5
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/08
Abstract: 本发明提出了一种基于自适应热词权重的语音识别方法及系统,所述方法包括:生成热词网络并和静态解码网络一起加载到语音识别解码器中;将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递,自适应地计算热词权重,并对静态解码网络上令牌的分数重新打分;输出解码结果。本发明的基于自适应热词权重的语音识别方法在一遍解码的过程中就能提升热词召回率,不影响解码的速度,并且自适应地计算热词权重既能有效地提高热词的召回率,不影响原先的解码速度,又能提高系统的鲁棒性。
-
-
-
-
-
-
-
-
-