-
公开(公告)号:CN113420112B
公开(公告)日:2025-02-18
申请号:CN202110685518.3
申请日:2021-06-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/334 , G06F40/289 , G06F18/214 , G06F18/23213
Abstract: 本发明涉及一种基于无监督学习的新闻实体分析方法及装置。方法包括:对待处理的多条新闻数据中的每条新闻数据分别进行分词处理,将分词处理后的每条新闻中包含的多个实体进行标注以得到标注结果;基于所述标注结果构建分布式表示模型,得到所述多个实体的分布式表示信息,所述分布式表示信息标识为实体向量;根据所述多个实体的分布式表示信息,对所述多个实体进行聚类分析以得到聚类结果。本申请将分布式的思想引入新闻实体的处理当中,通过新闻实体所处位置的上下文来得到实体的分布式表示,通过对实体的聚类分析来得到实体的聚类结果。
-
公开(公告)号:CN119311871A
公开(公告)日:2025-01-14
申请号:CN202411222450.5
申请日:2024-09-02
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/36 , G06F18/25 , G06F18/213 , G06N3/045
Abstract: 本申请涉及舆情监测技术领域,公开一种面向噪声文本信息的检测方法及系统,所述方法包括:获取目标数据集;对目标数据集进行预处理,获取预处理后的文本特征;构成汉化文本分类模型预训练模型,其中,汉化文本分类模型预训练模型用于预处理后的文本特征,以获取文本的表示向量;构建两个结构不同的基于汉化文本分类预训练模型作为双塔模型的基分类器A和基分类器B;用相同数据集对基分类器A和基分类器B进行调整。本发明能够对双塔模型进行相互校验,对双塔模型的输出结果进行综合考量,并输出最终结果,从而有效提高整体的特定内容检测准确率。
-
公开(公告)号:CN112331181B
公开(公告)日:2024-07-05
申请号:CN201910694870.6
申请日:2019-07-30
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明属于目标语音提取和自适应技术领域,具体涉及一种基于多说话人条件下目标说话人语音提取方法,该方法具体包括:实时获取多个说话人混合的语音,提取多个说话人混合的语音的频谱;将锚语音输入到预先训练的说话人识别模型中,提取出目标说话人的特征向量;将获取的多个说话人混合的语音的频谱和目标说话人的特征向量输入至预先训练的目标说话人语音提取网络中,获取目标说话人的语音频谱;基于该目标说话人的语音频谱,获取目标说话人的语音。
-
公开(公告)号:CN117711393A
公开(公告)日:2024-03-15
申请号:CN202311695998.7
申请日:2023-12-11
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明涉及语音识别技术领域,提供一种语音对抗样本的防御方法、装置、设备和存储介质,该方法包括:获取原始语音指令对应的原始识别结果和降噪后的识别结果;在确定原始识别结果与降噪后的识别结果不相同的情况下,根据白噪声异常度和预设的异常度阈值,确定降噪后的识别结果对应的第一指令是否为语音对抗样本;白噪声异常度用于表征输入原始语音指令至语音识别模型时原始语音指令和所处的环境的环境噪声的相关程度;在第一指令为语音对抗样本的情况下,将第一指令进行作废。本发明提升了语音对抗样本的防御效果。
-
公开(公告)号:CN113326689B
公开(公告)日:2023-08-18
申请号:CN202010128327.2
申请日:2020-02-28
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F40/205 , G06F40/211 , G06F18/214 , G06F18/2415 , G06N3/045 , G06N3/092
Abstract: 本发明属于数据通信和数据处理技术领域,具体涉及一种基于深度强化学习模型的数据清洗方法,该方法包括:获取待清洗的带标签的数据集;采用预筛选算法,删除待清洗的带标签的数据集中的无内容数据、不在标签集内的标签数据和标签矛盾的数据,获得待分类的数据集;将待分类的数据集输入至预先训练的深度强化学习模型中,获得不同类别的延迟奖励;再根据获得的不同类别的延迟奖励,依据预先训练的深度强化学习模型中的动作集合,丢弃掉有偏数据,保留有效数据,并更新状态列表S,最大化每一类别的延迟奖励值,将每一类别的最大延迟奖励值对应的带标签的训练数据集作为清洗干净的带标签的训练数据集,从而完成数据清洗。
-
公开(公告)号:CN111354347B
公开(公告)日:2023-08-15
申请号:CN201811571564.5
申请日:2018-12-21
Applicant: 中国科学院声学研究所 , 国家计算机网络与信息安全管理中心
IPC: G10L15/08
Abstract: 本发明提出了一种基于自适应热词权重的语音识别方法及系统,所述方法包括:生成热词网络并和静态解码网络一起加载到语音识别解码器中;将待识别的语音信号同步地在静态解码网络和热词网络上进行令牌传递,自适应地计算热词权重,并对静态解码网络上令牌的分数重新打分;输出解码结果。本发明的基于自适应热词权重的语音识别方法在一遍解码的过程中就能提升热词召回率,不影响解码的速度,并且自适应地计算热词权重既能有效地提高热词的召回率,不影响原先的解码速度,又能提高系统的鲁棒性。
-
公开(公告)号:CN115001861B
公开(公告)日:2022-12-09
申请号:CN202210852995.9
申请日:2022-07-20
Applicant: 中国电子科技集团公司第三十研究所 , 国家计算机网络与信息安全管理中心
IPC: H04L9/40
Abstract: 本发明涉及计算机网络技术领域,公开了一种基于混合指纹特征的暗网服务异常检测方法及系统,该异常检测方法,对暗网站点的流量数据和状态数据进行分析,通过分析状态数据和流量数据,提取暗网站点的单点指纹特征、话题关联的指纹特征、流量指纹信息,进行暗网服务异常检测。本发明解决了解决现有技术存在的难以对暗网站点的重要度进行整体地准确检测等问题。
-
公开(公告)号:CN114826735A
公开(公告)日:2022-07-29
申请号:CN202210442276.X
申请日:2022-04-25
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L9/40
Abstract: 本发明公开一种基于异构神经网络技术的VoIP恶意行为检测方法及系统,涉及网络信息安全领域,通过从VoIP多数据源中抽取出信息对象,构建异构信息网络,利用GEM模型获得节点向量表示;再通过计算不同节点之间的相似度进行聚类,通过对同一类节点打上相同标签来丰富训练数据,再对对分类算法进行有监督学习分类,获取有害的VoIP节点。本发明能够利用多种数据源的信息,通过挖掘异构信息网络中的隐式关系和隐藏模式发现有害VoIP行为。
-
公开(公告)号:CN110047509B
公开(公告)日:2021-04-02
申请号:CN201910240865.8
申请日:2019-03-28
Applicant: 国家计算机网络与信息安全管理中心 , 珠海高凌信息科技股份有限公司
Abstract: 本发明的技术方案包括一种两级子空间划分方法及装置,用于实现:采用基于模型子空间的二级匹配方法,处理过程分为两个步骤:第一步通过粗筛定位子空间,确定待检音频模型空间所属范围,第二步细匹,即在子空间内部通过精度较高的传统算法命中目标模型,即包括特征提取、聚类计算、子空间划分、中心点计算四个过程。本发明的有益效果为:实现简单,耗时较小,对于数量巨大的模型特征,其实时性足以满足业务需求,可任意调整簇数的取值,能够有效的划分子空间,并且能够较为均匀的划分到不同的子空间中,同时缩小了模型匹配范围,单次语音特征比较能够有效降低模型数量,提高了效率。
-
公开(公告)号:CN111863007A
公开(公告)日:2020-10-30
申请号:CN202010554629.6
申请日:2020-06-17
Applicant: 国家计算机网络与信息安全管理中心 , 讯飞智元信息科技有限公司
IPC: G10L21/0208 , G10L21/0272 , G06N3/04
Abstract: 本发明公开了一种基于深度学习的语音增强方法及系统,该方法包括如下步骤:步骤SS1:获得带噪语音的多个IRM预测值的解的集合;步骤SS2:将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪特征作为输入,预测最终的IRM预测值集合 本发明通过将Boosting-DNN语音增强模型和Ensemble-DNN集成语音增强模型这两个DNN串接起来的方式,有效的解决了一个神经网络由于层次太深训练不稳定的现象,构建一种非常深的网络结构,彻底解决前端语音增强技术就可以确保把语音从带噪信号中分离出来,以便后端识别模型能正确识别语音的内容。
-
-
-
-
-
-
-
-
-