-
公开(公告)号:CN105912716B
公开(公告)日:2019-09-10
申请号:CN201610285420.8
申请日:2016-04-29
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种短文本分类方法及装置。该方法包括:对待分类的短文本进行分词预处理,并获取分词得到的每个词语的扩展词;根据预先构建的词项集获取每个词语及其扩展词的权重值;根据权重值,利用多个类别SVM分类模型获取短文本所属每个类别的概率;根据预设的概率分类模型确定短文本的所属类别。本发明所提供的短分本分类方法,克服了短文本特征稀疏的问题,有效降低采用多分类模型的复杂度,更符合实际应用。
-
公开(公告)号:CN109359301A
公开(公告)日:2019-02-19
申请号:CN201811219240.5
申请日:2018-10-19
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/27 , G06F16/35 , G06F16/958
Abstract: 本发明公开了一种网页内容的多维度标注方法及装置,该方法包括:将待标注的网页内容文本转换为词向量;根据词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;对待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建第二类维度规则知识库;将第二类维度实体词与第二类维度规则知识库进行匹配,得到第二类维度标注结果。本发明从网页的内容出发,利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注,解决了传统基于词频统计分类方法分类准确率低的问题;利用命名实体识别和规则知识库对第二类维度进行标注,丰富了网页的标注内容,提升了用户体验。
-
公开(公告)号:CN109241438A
公开(公告)日:2019-01-18
申请号:CN201811128658.5
申请日:2018-09-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9535 , G06F17/27
Abstract: 本发明公开了一种基于要素的跨通道热点事件发现方法、装置及存储介质,本发明融合某一领域的新闻报道数据与微博数据,通过联合两个通道提取的要素与文本语义相似度分析,有利于发现该领域热点事件,并且更全面细致的了解热点事件。
-
公开(公告)号:CN107515889A
公开(公告)日:2017-12-26
申请号:CN201710531249.9
申请日:2017-07-03
Applicant: 国家计算机网络与信息安全管理中心
CPC classification number: G06F17/30867 , H04L51/16 , H04L51/32
Abstract: 本发明公开了一种微博话题实时监测方法与系统。该方法包括:获取预定时间段内预定话题对应的全部微博数据;统计全部微博数据中预定特征信息的数量;确定预定特征信息的数量在预定特征信息对应的预定高斯分布模型中所处的数量区间范围;根据预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围确定预定话题是否异常。本发明通过确定被监测话题在预定时间段内的预定特征信息的数量在其对应的预定高斯分布模型中所处的数量区间范围来确定被监测话题是否异常,考虑到用户使用微博的时间习惯以及历史同期数据分布情况,排除了周期性活动的干扰,确保异常判断结果的准确性和可靠性。
-
公开(公告)号:CN107480190A
公开(公告)日:2017-12-15
申请号:CN201710560579.0
申请日:2017-07-11
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30191 , G06F17/30867 , G06F17/30876
Abstract: 本发明公开了一种非人为访问日志的过滤方法及装置,方法包括:过滤掉符合预设条件的访问日志,得到第一标准日志;基于标准日志过滤掉预定时间段内的访问日志,得到第二标准日志;从第一标准日志获取日志中URL前缀,得到前缀集合;依据前缀集合对第二标准日志进行过滤,得到过滤结果日志;本发明的方法及装置,可以快速有效地过滤高频的非人为访问,对提升日志挖掘效率、分析用户行为乃至检测内部安全威胁均具有重要意义。
-
公开(公告)号:CN107239704A
公开(公告)日:2017-10-10
申请号:CN201710374994.7
申请日:2017-05-24
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F21/56
CPC classification number: G06F21/562
Abstract: 本发明公开了一种恶意网页发现方法及装置,所述方法包括:确定每个预先选取的低可信度用户的网页资源访问集合;从确定的访问集合中确定出所有低可信度用户的网页资源访问交集;对所述访问交集中网页资源进行恶意网页检测,根据检测结果,确定恶意网页。本发明有效地解决现有恶意网页分类技术易漏判、准确率低和效率低的问题。
-
公开(公告)号:CN107135281A
公开(公告)日:2017-09-05
申请号:CN201710146433.1
申请日:2017-03-13
Applicant: 国家计算机网络与信息安全管理中心 , 北京信息科技大学
Abstract: 本发明实施例提供一种基于多数据源融合的IP地域类特征提取方法,包括:步骤1、基于现有的IP地址定位数据库,计算每一定位数据库的权威度;步骤2、基于现有的IP地址定位数据库,计算每一定位数据库中定位数据的完整度;步骤3、根据步骤1和步骤2中的每一定位数据库的权威度和每一定位数据库中定位数据的完整度,确定定位数据的可信度;步骤4、根据定位数据的可信度,选取定位数据构建IP地域类特征知识库。
-
公开(公告)号:CN103257923B
公开(公告)日:2016-12-28
申请号:CN201310131986.1
申请日:2013-04-16
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F11/36
Abstract: 本发明公开了一种数据中心数据分析类基准测试程序的应用选取方法及系统,该方法执行于数据中心计算机系统中,包括:步骤一,从多种应用领域中分别选取至少一个应用,组成应用集,该应用集覆盖了特定种类的编程模型;步骤二,运行该应用集中的所有应用,针对每个应用,都分别获取预定性能指标的参数值;步骤三,将各个应用所对应的该参数值分别组成一个特征向量,对所有特征向量进行聚类;步骤四,在聚类得到的每个类中,选择距离类中心点最近和最远的两个应用作为基准测试程序的应用进行基准测试。
-
公开(公告)号:CN106095928A
公开(公告)日:2016-11-09
申请号:CN201610409465.1
申请日:2016-06-12
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种事件类型识别方法及装置。该方法包括以下步骤:对训练集中所有文本进行分词、提取词性处理后训练词向量空间模型,提取文本的特征,将文本表示为特征向量;对于训练集进行事件类型聚类,训练带有类型聚类正则化项的神经网络模型;对于测试样本同样进行分析、提取词性处理,并利用已经训练好的词向量模型,得到特征表示;利用类型聚类正则化项的神经网络模型进行事件类别识别。借助于本发明的技术方案,能够利用同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。
-
公开(公告)号:CN105207843A
公开(公告)日:2015-12-30
申请号:CN201510535106.6
申请日:2015-08-27
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L12/26
Abstract: 本发明提出了一种网站访问质量检测方法。其包括:在一测试时间段内进行多次随机测试,累计得到对应该测试时间段的历史测试结果;基于用户指定的先验分布和所述历史测试结果,选取被测网站和测试路径,以用于下一测试时间段的有效测试,可以有效挑选测试对象,优化测试策略,提高质量检测的效率。
-
-
-
-
-
-
-
-
-