-
公开(公告)号:CN109857535B
公开(公告)日:2021-06-11
申请号:CN201910122390.2
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F9/48 , G06F9/50 , G06F16/242 , G06F16/25
Abstract: 本发明公开了一种面向Spark JDBC的任务优先级控制的实现方法及装置,所述方法包括:SparkJdbc服务在启动时根据预先编写好的优先级队列描述XML文件建立多个任务优先级队列;接收用户通过Jdbc接口下发的指定优先级队列命令,完成Jdbc会话级别的优先级设置;接收用户提交的检索SQL,将SQL语句经过多个分析规划过程后生成一个Spark Task集合并被添加到相应名称的目标优先级队列中;通过资源调度器根据各个优先级队列之间的资源分配策略和队列内部的资源分配策略进行硬件资源的调度分配,将Spark Task分发到各个计算节点上的Task执行器上进行执行。
-
公开(公告)号:CN112241365A
公开(公告)日:2021-01-19
申请号:CN202010722288.9
申请日:2020-07-24
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F11/36 , G06F16/182 , G06F9/54
Abstract: 本发明涉及一种面向Namenode的高效元数据构建和RPC性能提升的方法和装置。该方法通过性能测试工具中的创建文件功能构造文件对象,通过在内存中虚拟出的仅有基本结构的Datanode节点构造文件块对象,由文件对象和文件块对象构成Namenode内存元数据;基于构建的元数据,构造与生产环境相符的Namenode负载状态,并进行Namenode内部扩展和集群扩展,实现RPC性能优化。本发明能够高速构建Namenode元数据,为快速搭建接近生产环境的测试集群提供了帮助,全局锁的拆分能够提升RPC性能,多个Namenode协作管理集群且同时对外提供服务,提供了更高的读写吞吐量。
-
公开(公告)号:CN112069312A
公开(公告)日:2020-12-11
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN105468677B
公开(公告)日:2019-11-19
申请号:CN201510781245.7
申请日:2015-11-13
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种基于图结构的日志聚类方法,包括,基于文本分词、向量相似度以及最大连通子图对日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;该方法无需人工指定聚类数目,自动识别海量日志中最合适的类别数目;另外,该方法可对日志进行精准分类,为海量日志数据挖掘奠定了基础。
-
公开(公告)号:CN109885642A
公开(公告)日:2019-06-14
申请号:CN201910119254.8
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。
-
公开(公告)号:CN109189743A
公开(公告)日:2019-01-11
申请号:CN201810671449.9
申请日:2018-06-26
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/178 , G06F16/182 , H04L12/26 , H04L29/06
Abstract: 本发明公开一种面向大流量实时图数据的低资源消耗的超级节点识别过滤方法和系统,属于大数据预处理领域。该方法包括:1)接收图数据并对其进行格式转化;2)根据过滤规则对格式转化之后的数据进行过滤;3)识别过滤之后的数据中的超级节点,并根据识别出的超级节点对所述过滤规则进行动态修改。该系统包括数据接收模块、数据过滤模块、过滤规则管理模块以及超级节点识别模块。本发明可在海量实时图数据流中识别出超级节点,是一种低资源消耗的超级节点识别方案,只需极少资源就可以在海量数据中识别出超级节点。
-
公开(公告)号:CN104794158A
公开(公告)日:2015-07-22
申请号:CN201510117236.8
申请日:2015-03-17
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种界标窗口下域名数据重复检测快速索引方法。该方法将界标窗口根据子界标分成多个子窗口,通过稳定性布隆过滤器和字典树维护各子窗口的数据项;针对网络数据流自适应地调整索引策略,在数据较为密集时采用稳定性布隆过滤器,在数据相对稀疏时采用字典树索引策略。在域名数据重复检测的适配方面,本发明提出将域名数据翻转,形成重叠前缀字符串比率较高的数据集,有利于后续字典树的快速匹配和存储容量缩减。本发明能够降低索引维护的空间,提升元素重复检测的效率,并能够扩展到分布式场景下,有效解决网络监控应用中域名数据重复检测的问题,同时,本发明可以扩展到分布式计算场景下,便于计算性能线性提升。
-
公开(公告)号:CN112069312B
公开(公告)日:2023-06-20
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN109885642B
公开(公告)日:2021-11-02
申请号:CN201910119254.8
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。
-
公开(公告)号:CN107066546B
公开(公告)日:2021-03-09
申请号:CN201710165501.9
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458
Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。
-
-
-
-
-
-
-
-
-