-
公开(公告)号:CN113779961A
公开(公告)日:2021-12-10
申请号:CN202010518026.0
申请日:2020-06-09
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/211 , G06F40/253 , G06F40/289
Abstract: 本发明提供一种自然语言文本的惯用句式提取方法及电子装置,包括:对采集到的每一语句进行分词、词性标注及依存句法分析;将各语句转换为若干单句,并依据词性标注结果与依存句法分析结果,对各单句主干进行抽取,将各单句表示为词汇和词性标签的列表;将各单句的列表进行合并,得到各语句的惯用句式。本发明提出一种不损失句式信息的长难句化简方法,针对句式提取的需要对中文长难句中非句子主干部分进行处理,提高句式提取准确度,本发明还提出一种句式信息表示结构,使用词汇、词汇候选集、词性标签来表示句式信息,保留尽可能多的句式信息。
-
公开(公告)号:CN113742478A
公开(公告)日:2021-12-03
申请号:CN202010474192.5
申请日:2020-05-29
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F16/33 , G06F40/295 , G06N3/04
Abstract: 本发明公开了一种针对海量文本数据的定向筛选架构及方法。本方法步骤包括:1)使用关键词匹配方法从待筛选文本中获取疑似目标文本;2)从已标注的目标文本中提取常用句式,并分为与业务强相关句式、与业务弱相关句式;对待筛选文本进行模糊句式匹配,如果与业务强相关句式匹配,则将文本判断为目标文本,否则为疑似目标文本;3)对每一疑似目标文本进行分类;4)根据疑似目标文本匹配上的关键词的个数确定文本的评估值E1;根据分类判别结果,确定文本的评估值E2;基于文本与外部辅助语料的信息匹配结果确定文本的评估值E3;然后基于评估值E1~E3,计算得到文本最终评分反馈给研判层;5)研判层确定反馈的文本是否为目标文本。
-
公开(公告)号:CN113205801A
公开(公告)日:2021-08-03
申请号:CN202110498059.8
申请日:2021-05-08
Applicant: 国家计算机网络与信息安全管理中心 , 清华大学
Abstract: 本申请涉及一种恶意语音样本的确定方法、装置、计算机设备和存储介质。该方法包括:获取初始语音样本集;根据预设的多种恶意类别对初始语音样本集进行分类,得到多种恶意类别中每种恶意类别对应的语音样本子集;根据每种恶意类别对应的语音样本子集中的语音样本信息,计算每种恶意类别对应的语音样本子集的恶意度;将恶意度满足预设恶意度条件的恶意类别对应的语音样本子集中的语音样本,确定为恶意语音样本。本方法基于语音样本子集的恶意类别以及恶意度可自动确定恶意语音样本,有利于提高恶意语音样本的确定效率。
-
公开(公告)号:CN109587350A
公开(公告)日:2019-04-05
申请号:CN201811373658.1
申请日:2018-11-16
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04M3/22 , H04W12/12 , H04W16/22 , G06F16/2458
Abstract: 本发明公开了一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法,属于数据挖掘与机器学习和商务智能领域。首先构造训练用户数据集,回溯被叫用户全部通话记录,形成各被叫用户通话序列。利用cos相似度函数,计算序列结构相似度和统计特征相似度并进行线性组合,得到加和相似度。然后通过K-Means聚类模型得到K类用户,构成独立的序列训练数据集,通过滑动时间窗口,形成K个训练集。最后在每个训练集上训练iForest模型,得到K个异常检测模型。每个被叫用户通过对应的异常检测模型识别异常,当最大值高于阈值h时,该被叫用户是高风险的被叫用户。每过固定时间段更新K-Means模型和异常检测模型。本发明缓解了数据稀疏性问题,发现基于群组的异常特征。
-
公开(公告)号:CN109274836A
公开(公告)日:2019-01-25
申请号:CN201811287123.2
申请日:2018-10-31
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种大规模数据流中电信欺诈风险识别方法,属于数据挖掘与机器学习和商务智能等领域。从呼叫记录数据库中筛选高风险被叫用户和主叫用户作为分析对象,构建欺诈被叫索引数据库,提取各个索引对应的显著特征;采用二级级联分类模型,得到每个被叫号码的攻击风险值;保留每个高风险被叫号码最近的滑动窗口异常得分的最大值,作为各自的序列风险值;构造被叫号码与主叫号码的通联关系二部图,计算每个被叫号码的通联风险值;借助逻辑回归模型,对每个被叫号码的攻击风险、序列风险和通联风险进行融合,得出每个被叫号码各自的综合风险值。本发明最终的综合风险值具有较高的稳定性和可解释性,实现较高的分类和检测效率。
-
公开(公告)号:CN108460772A
公开(公告)日:2018-08-28
申请号:CN201810150076.0
申请日:2018-02-13
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供了一种基于卷积神经网络的广告骚扰传真图像检测系统及方法,包括关键字区域提取模块,所述关键字区域提取模块用于确定待检测传真图像的关键字可疑区域;神经网络置信度分析模块,所述神经网络置信度分析模块与所述关键字区域提取模块相连,所述神经网络置信度分析模块用于对所述关键字可疑区域的文字进行识别,实现传真图像的分类。本发明通过关键字区域提取模块对关键字可疑区域进行提取,自动化运行,工作效率高;通过神经网络置信度分析模块对关键字可疑区域的文字进行识别,实现广告骚扰传真的分类判断,节约时间,管控能力强,使得本发明具有工作效率高,管控能力强的特点。
-
公开(公告)号:CN105187403B
公开(公告)日:2018-06-12
申请号:CN201510498610.3
申请日:2015-08-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L29/06
Abstract: 本发明提出一种面向软件定义网络的网络安全性测试方法,包括针对目标软件定义网络的安全性测试框架、安全性测试策略、分类安全性测试方法、项目安全性测试方法和安全性测试步骤。其中,测试框架包括将目标软件定义网络划分为数据、控制、应用和管理四个网络平面,分别对各个网络平面的各个网元、链路以及各个网络平面之间的接口展开安全性测试;测试策略包括对安全性测试框架中的各个单元进行测试的选择和流程编制方法;分类安全性测试方法依据各个单元的类别特点开展不同类型的安全性测试;项目安全性测试方法实现具体的针对目标网元、链路或接口的安全性测试,测试流程定义了完整的针对目标软件定义网络的安全性测试过程和步骤。
-
公开(公告)号:CN107451192A
公开(公告)日:2017-12-08
申请号:CN201710508428.0
申请日:2017-06-28
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G06F17/3071 , G06K9/6267
Abstract: 本发明公开了一种基于分解聚合的电信诈骗电话的分类检测方法,属于数据挖掘、机器学习和商务智能等领域。首先对原始CDR数据进行不同正负类比例的横向划分与采样,针对某训练样本,随机抽取特定比例的特征属性用于构造基础分类器;对任一训练样本,根据基础分类器的输出结果构造分类矩阵,对各相同比例中的分类结果进行聚合,并通过最大投票法确定各类别比例下的投票结果。将各个比例分类器中的分类结果作为新的分类特征构造二级分类器,确定各正负比例的基分类器对于测试结果的权重。本发明适用于各种大数据场景下的不平衡分类,避免了不同正负类样本比例下模型精度的波动性,分类结果具有较强的稳定性和鲁棒性,可以实现较高的分类和检测效率。
-
公开(公告)号:CN113761903B
公开(公告)日:2025-01-17
申请号:CN202010504536.2
申请日:2020-06-05
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F40/289 , G06F40/30 , G06F40/232 , G06F16/35 , G06N3/0464 , G06N3/045
Abstract: 本发明提出一种针对海量高噪音口语化短文本的文本筛选方法,属于自然语言处理领域,通过对训练语料和待筛选的目标文本进行预处理;对预处理后的训练语料中的标注的正类语料进行句式信息提取,区分出业务强相关句式和弱相关句式;利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理;对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示;使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。
-
公开(公告)号:CN119249308A
公开(公告)日:2025-01-03
申请号:CN202411100861.7
申请日:2024-08-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F18/2433 , G06F18/10 , G06F18/214 , G06Q10/047 , G06N3/0895 , G06N3/09 , G01C21/20
Abstract: 本发明设计了一种基于多维度历史行为轨迹数据的用户位置预测方法,涉及时空数据挖掘技术领域。本方法该方法首先从用户使用基于位置的APP历史行为日志中读取用户的位置信息、网络行为信息和社交关系信息,针对其数据特点对其预处理并获得数据集;设计了轨迹剪切、轨迹遮蔽、停留点简化、停留点位置偏移、行为变换、行为遮盖这6种数据增强方法,之后通过一种自监督对比学习训练模型完成训练,从而更全面的提取用户行为特征,从在此基础上实现用户位置预测。本发明方法充分利用了位置信息、网络行为信息和社交关系信息多种维度特征,提升了模型的预测精度。
-
-
-
-
-
-
-
-
-