-
公开(公告)号:CN107168984A
公开(公告)日:2017-09-15
申请号:CN201710165255.7
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
CPC classification number: G06F17/30194 , G06F17/30424
Abstract: 本发明涉及一种基于多文件格式自动识别的跨地域关联统计方法,属于大数据检索分析领域。该方法通过统一SQL查询入口接收SQL查询请求;然后对SQL查询请求进行解析,以识别查询的不同文件格式;然后全局节点将解析成功后的查询请求发送到对应的分节点;然后各分节点进行相应的查询操作,并将查询结果回传给全局节点;最后全局节点对各分节点回传的数据进行关联统计并输出统计结果。本发明可以应用在离线或在线数据统计场景中,能够实现多种文件格式的自动识别,突破了地域限制,能够将不同数据中心的数据进行关联统计。
-
公开(公告)号:CN107066546A
公开(公告)日:2017-08-18
申请号:CN201710165501.9
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。
-
公开(公告)号:CN109885642B
公开(公告)日:2021-11-02
申请号:CN201910119254.8
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。
-
公开(公告)号:CN107066546B
公开(公告)日:2021-03-09
申请号:CN201710165501.9
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458
Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。
-
公开(公告)号:CN108512902A
公开(公告)日:2018-09-07
申请号:CN201810159206.7
申请日:2018-02-24
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L29/08
Abstract: 本发明公开了一种数据共享方法和装置。该方法包括:获取数据源对应的第一元数据和数据目的对应的第二元数据;根据所述第一元数据和所述第二元数据,配置整形流程文件;根据所述第一元数据、所述第二元数据、所述整形流程文件以及预先配置的数据传输路径,生成共享场景配置文件;根据所述共享场景配置文件传输数据,实现所述数据源和所述数据目之间的数据共享。本发明通过简单配置便可构建数据共享的快速传输通道,在传输通道中,可根据元数据定义及整形流程进行自动整形,数据规范化,可以对多源数据灵活整形,使数据共享过程规范化,并且有效提高了数据共享方案的通用性和传输效率。
-
公开(公告)号:CN109710572B
公开(公告)日:2021-02-02
申请号:CN201811638552.X
申请日:2018-12-29
Applicant: 北京赛思信安技术股份有限公司
Abstract: 本发明公开了一种基于HBase的文件分片方法,属于计算机领域。首先从系统中读取对大文件分片的配置文件和按分片粒度进行读取的配置文件,对某个大文件进行分片。文件内容的写入读取按分片的顺序进行,通过多个并列线程将每个分片的内容以独立的键值存入HBase数据表中。同时将每个分片的元数据信息以新增列的方式存储在HBase元数据信息表中。然后若文件内容的写入读取是指定片,按照指定的分片编号写入读取文件内容;若文件内容的写入读取是随机读取,设定随机读取的字节开始位置和读取内容大小;最后当服务端异常导致写入或读取中断,在服务恢复后重新上传或读取断点的分片即可。本发明使大文件存储更加高效可靠,具有较强的实用性和适配性。
-
公开(公告)号:CN109871502A
公开(公告)日:2019-06-11
申请号:CN201910047920.1
申请日:2019-01-18
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F16/958 , G06F16/957
Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。
-
公开(公告)号:CN109726177A
公开(公告)日:2019-05-07
申请号:CN201811635130.7
申请日:2018-12-29
Applicant: 北京赛思信安技术股份有限公司
Abstract: 本发明公开了一种基于HBase的海量文件分区索引方法,属于计算机领域。加载配置文件,对存储系统HBase按照配置规则进行配置;对写入的某个小文件提取元数据;根据各个元数据,分别计算该文件需要写入的桶的分区;拼接出唯一Hash码作为该小文件的Rowkey,若该Rowkey存在于分区索引表,将元数据中记录的版本编号加1,并删除老版本元数据;若不存在则当该小文件的内容需要实时合并时,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并。将所有小文件进行存储,读取每个小文件的元数据表,并进行更新,利用文件分区索引进行读取和删除。本发明减小海量文件元数据压力,提高文件的读取删除速度,方便文件进行分区管理,具有很广泛的应用前景。
-
公开(公告)号:CN109726175A
公开(公告)日:2019-05-07
申请号:CN201811635129.4
申请日:2018-12-29
Applicant: 北京赛思信安技术股份有限公司
Abstract: 本发明公开了一种基于HBase的海量文件离线分区管理方法,属于计算机领域。首先用户创建自定义的存储桶,加载关于桶的分区规则配置;按照桶的分区规则,给用户即将写入的小文件设定存储分区表的名称;然后按照业务需求和HBase数据存储的规则,为用户即将写入的小文件设计指定在存储分区表中的Rowkey,以RowKey作为每个小文件的唯一标示,自动将小文件写入当前时间段下的该桶的存储分区表中。最后用户指定该存储逻辑单元-桶的数据存储空间配额和时间配额,系统根据空间配额和时间配额的限定定期对存储分区表的数据进行离线管理;同时系统离线预建下一时间段的存储分区表。本发明具有很强的实用性,具有很广泛的应用前景。
-
公开(公告)号:CN105871705A
公开(公告)日:2016-08-17
申请号:CN201610397804.9
申请日:2016-06-07
Applicant: 北京赛思信安技术股份有限公司
IPC: H04L12/58
CPC classification number: H04L51/043 , H04L51/08 , H04L51/12
Abstract: 本发明公开了一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,其特征在于,包括以下几个步骤:步骤一:分解电子邮件内容;步骤二:对电子邮件内容中各个部分进行重复判断;步骤三:对电子邮件内容进行重新组织;本发明可以对海量的电子邮件进行内容重复的判断,有效的降低了海量电子邮件处理过程中因电子邮件处理内容处理带来的资源开销。
-
-
-
-
-
-
-
-
-