-
公开(公告)号:CN107168984A
公开(公告)日:2017-09-15
申请号:CN201710165255.7
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30194 , G06F17/30424
Abstract: 本发明涉及一种基于多文件格式自动识别的跨地域关联统计方法,属于大数据检索分析领域。该方法通过统一SQL查询入口接收SQL查询请求;然后对SQL查询请求进行解析,以识别查询的不同文件格式;然后全局节点将解析成功后的查询请求发送到对应的分节点;然后各分节点进行相应的查询操作,并将查询结果回传给全局节点;最后全局节点对各分节点回传的数据进行关联统计并输出统计结果。本发明可以应用在离线或在线数据统计场景中,能够实现多种文件格式的自动识别,突破了地域限制,能够将不同数据中心的数据进行关联统计。
-
公开(公告)号:CN107066546A
公开(公告)日:2017-08-18
申请号:CN201710165501.9
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。
-
公开(公告)号:CN105468677A
公开(公告)日:2016-04-06
申请号:CN201510781245.7
申请日:2015-11-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供一种基于图结构的日志聚类方法,包括,基于文本分词、向量相似度以及最大连通子图对日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;该方法无需人工指定聚类数目,自动识别海量日志中最合适的类别数目;另外,该方法可对日志进行精准分类,为海量日志数据挖掘奠定了基础。
-
公开(公告)号:CN104731864A
公开(公告)日:2015-06-24
申请号:CN201510088785.7
申请日:2015-02-26
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30628 , G06F17/30132
Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。
-
公开(公告)号:CN103544261A
公开(公告)日:2014-01-29
申请号:CN201310484663.0
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30336 , G06F17/30321
Abstract: 本发明涉及一种海量结构化日志数据全局索引管理方法,包括以下步骤:在数据存储子系统中在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认本地是否有全局索引服务器的地址信息,客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子系统中的相应数据节点发送远程调用请求;数据存储子系统汇总各数据节点的响应数据,将最终查询结果发送给客户端。本发明该方法有效地增加了系统的查询多样性和查询效率,并且提高了系统的可扩展性。
-
公开(公告)号:CN103544259A
公开(公告)日:2014-01-29
申请号:CN201310484629.3
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/3053
Abstract: 本发明涉及一种分组聚集排序TopK查询处理方法及系统。分组聚集排序TopK查询处理方法包括:接收分组聚集排序TopK查询请求;各分布式数据节点根据所述查询请求,进行本地数据分组聚集,并将自身的分组聚集数据异步传输到集中处理节点;所述集中处理节点采用哈希表结合二叉平衡树的数据结构对各分布式数据节点的分组聚集数据进行数据合并,并采用近似高频项统计算法进行统计,得到聚集排序后的高频项列表;输出所述高频项列表。本发明的分组聚集排序TopK查询处理方法及系统灵活性好,查询效率高,分布式适应性好。
-
公开(公告)号:CN113779573B
公开(公告)日:2023-08-29
申请号:CN202110890621.1
申请日:2021-08-04
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明是有关于一种基于系统溯源图的大规模勒索软件分析方法包括采集大规模勒索软件样本集,构建勒索软件分析沙箱集群,采集勒索软件运行时系统事件日志,过滤和裁剪原始事件日志数据,事件日志标准化和归一化,生成勒索软件系统溯源图,采用日志压缩算法优化溯源图规模,基于图论度量指标分析勒索软件行为。本发明的分析装置包括样本采集模块、系统日志采集模块、系统溯源图生成模块和样本行为分析模块。本发明通过生成勒索软件运行时的系统溯源图,达到了自动化大规模分析勒索软件的恶意行为的目标,解决了现有采用数据科学方法需要大量人工标注和可解释性差的问题。
-
公开(公告)号:CN115438239A
公开(公告)日:2022-12-06
申请号:CN202110623899.2
申请日:2021-06-04
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9035 , G06F16/906
Abstract: 本发明公开一种自动化异常样本筛选的异常检测方法及装置,包括依据数据集中各数据的特征,进行数据筛选;对筛选得到的数据进行特征降维;针对特征降维后的数据进行异常检测,得到若干候选数据;对所有候选数据作聚类,得到带类别标签的异常数据。本发明利用特征筛选和特征降维方法,解决异常检测算法难以处理高维度特征的问题,并结合对异常检验算法和聚类算法,实现了对异常样本的自动化分析,在整个流程中不需要人工干预,大大减少了异常样本发现与分析过程中的人力投入。
-
公开(公告)号:CN112241365B
公开(公告)日:2022-09-30
申请号:CN202010722288.9
申请日:2020-07-24
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F11/36 , G06F16/182 , G06F9/54
Abstract: 本发明涉及一种面向Namenode的高效元数据构建和RPC性能提升的方法和装置。该方法通过性能测试工具中的创建文件功能构造文件对象,通过在内存中虚拟出的仅有基本结构的Datanode节点构造文件块对象,由文件对象和文件块对象构成Namenode内存元数据;基于构建的元数据,构造与生产环境相符的Namenode负载状态,并进行Namenode内部扩展和集群扩展,实现RPC性能优化。本发明能够高速构建Namenode元数据,为快速搭建接近生产环境的测试集群提供了帮助,全局锁的拆分能够提升RPC性能,多个Namenode协作管理集群且同时对外提供服务,提供了更高的读写吞吐量。
-
公开(公告)号:CN109189743B
公开(公告)日:2021-09-28
申请号:CN201810671449.9
申请日:2018-06-26
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/178 , G06F16/182 , H04L12/26 , H04L29/06
Abstract: 本发明公开一种面向大流量实时图数据的低资源消耗的超级节点识别过滤方法和系统,属于大数据预处理领域。该方法包括:1)接收图数据并对其进行格式转化;2)根据过滤规则对格式转化之后的数据进行过滤;3)识别过滤之后的数据中的超级节点,并根据识别出的超级节点对所述过滤规则进行动态修改。该系统包括数据接收模块、数据过滤模块、过滤规则管理模块以及超级节点识别模块。本发明可在海量实时图数据流中识别出超级节点,是一种低资源消耗的超级节点识别方案,只需极少资源就可以在海量数据中识别出超级节点。
-
-
-
-
-
-
-
-
-