-
公开(公告)号:CN118585509A
公开(公告)日:2024-09-03
申请号:CN202410753997.1
申请日:2024-06-12
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/21 , G06F16/2455 , G06F16/28 , G06N5/022 , G06N5/04 , G06Q50/18 , G06F18/241
Abstract: 本发明涉及出境数据数字化处理技术领域,公开了基于结构化规则的出境法律法规知识库构建方法及系统,首先根据数据出境合规的法律法规原文条款判定表述逻辑,对条文进行拆解;对拆分后的条文,进行标准化规则梳理,在条文中提取四要素,包括数据处理者、数据出境行为、违规标志、判定结果;再对条款自然语言描述的标准化规则进行整理归纳,对标准化规则的四要素进一步进行细分,转变成计算机理解并自动判断的数字化规则描述;基于数字化规则描述,构建数据出境合规逻辑推理模型;获取数据处理者实际数据,基于逻辑判断模型输出结果,并对判定结果进行汇总整理并输出。本发明通过对数据出境相关的法律法规条目进行标准化、数字化,构建统一的数字化描述准则,形成数据出境合规规则知识库,辅助计算机完成自动审核工作,降低人工参与程度,提高合规效率和准确度。
-
公开(公告)号:CN109885642B
公开(公告)日:2021-11-02
申请号:CN201910119254.8
申请日:2019-02-18
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种面向全文检索的分级存储方法及装置,所述方法包括:获取SQL语句,创建全文检索表,并将所述全文检索表持久化到Zookeeper中;配置ElasticSearch集群中一部分节点使用SSD盘,另一部分节点使用SATA盘,并在每个节点上安装自定义的ElasticSearch插件;数据加载工具通过ElasticSearch集群的调用接口API将文档数据加载到ElasticSearch集群中,通过所述ElasticSearch插件对请求进行过滤,并使用预先存储的全文检索表中的元数据进行索引创建;通过所述ElasticSearch插件运行监听策略,监听Zookeeper中表的元数据信息的变化,并应用分级存储策略,执行定时回滚策略,将回滚任务下发给ElasticSearch集群。
-
公开(公告)号:CN107066546B
公开(公告)日:2021-03-09
申请号:CN201710165501.9
申请日:2017-03-20
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/2458
Abstract: 本发明涉及一种基于MPP引擎的跨数据中心快速查询方法和系统,属于大数据检索分析领域,可应用于实时系统或离线备份系统。该方法将不同MPP引擎中的数据进行统一标记并存储到元数据中;全局中心节点接收查询请求并对其进行语法解析,然后分发送到对应的数据分中心节点;各数据分中心节点通过元数据的相应MPP引擎进行查询,并将数据传输给全局中心节点;全局中心节点利用MPP引擎对数据分中心节点返回的数据进行快速查询,并输出查询结果。本发明能够实现不同数据中心数据的联合查询,兼容多种MPP引擎,充分利用不同存储模式的特点优化查询,支持多种方式导出查询结果,便于实现上层不同应用对结果数据再分析的不同要求。
-
公开(公告)号:CN111694860A
公开(公告)日:2020-09-22
申请号:CN202010350182.0
申请日:2020-04-28
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F16/245 , G06F16/22
Abstract: 本发明提供一种安全检测的时序数据实时异常发现方法及电子装置,该方法步骤包括:根据配置文件,创建或读取TimescaleDB时序数据库表;将所述时序数据实时插入所述TimescaleDB时序数据库表,并经哈希函数计算处理进行分桶,邻居数据被哈希到相同的桶中;计算每个桶内数据数量与所有桶内的桶内数据数量的平均值,并根据一设定阈值判断所述时序数据是否异常。本发明提高了异常检测应用的写入与查询性能,不需要存储所有的历史数据,能够大幅度节省空间,在发生意外如断电的情况时不会发生数据丢失和应用失效,不需要对样本进行标注,也无需进行模型训练。易于部署和降低开发成本。
-
公开(公告)号:CN109871502A
公开(公告)日:2019-06-11
申请号:CN201910047920.1
申请日:2019-01-18
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F16/958 , G06F16/957
Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。
-
公开(公告)号:CN109726177A
公开(公告)日:2019-05-07
申请号:CN201811635130.7
申请日:2018-12-29
Applicant: 北京赛思信安技术股份有限公司
Abstract: 本发明公开了一种基于HBase的海量文件分区索引方法,属于计算机领域。加载配置文件,对存储系统HBase按照配置规则进行配置;对写入的某个小文件提取元数据;根据各个元数据,分别计算该文件需要写入的桶的分区;拼接出唯一Hash码作为该小文件的Rowkey,若该Rowkey存在于分区索引表,将元数据中记录的版本编号加1,并删除老版本元数据;若不存在则当该小文件的内容需要实时合并时,将该文件的内容追加到实时文件合并窗口中,等待文件进行实时合并。将所有小文件进行存储,读取每个小文件的元数据表,并进行更新,利用文件分区索引进行读取和删除。本发明减小海量文件元数据压力,提高文件的读取删除速度,方便文件进行分区管理,具有很广泛的应用前景。
-
公开(公告)号:CN109726175A
公开(公告)日:2019-05-07
申请号:CN201811635129.4
申请日:2018-12-29
Applicant: 北京赛思信安技术股份有限公司
Abstract: 本发明公开了一种基于HBase的海量文件离线分区管理方法,属于计算机领域。首先用户创建自定义的存储桶,加载关于桶的分区规则配置;按照桶的分区规则,给用户即将写入的小文件设定存储分区表的名称;然后按照业务需求和HBase数据存储的规则,为用户即将写入的小文件设计指定在存储分区表中的Rowkey,以RowKey作为每个小文件的唯一标示,自动将小文件写入当前时间段下的该桶的存储分区表中。最后用户指定该存储逻辑单元-桶的数据存储空间配额和时间配额,系统根据空间配额和时间配额的限定定期对存储分区表的数据进行离线管理;同时系统离线预建下一时间段的存储分区表。本发明具有很强的实用性,具有很广泛的应用前景。
-
公开(公告)号:CN105871705A
公开(公告)日:2016-08-17
申请号:CN201610397804.9
申请日:2016-06-07
Applicant: 北京赛思信安技术股份有限公司
IPC: H04L12/58
CPC classification number: H04L51/043 , H04L51/08 , H04L51/12
Abstract: 本发明公开了一种海量电子邮件分析处理过程中的电子邮件内容重复判断的方法,其特征在于,包括以下几个步骤:步骤一:分解电子邮件内容;步骤二:对电子邮件内容中各个部分进行重复判断;步骤三:对电子邮件内容进行重新组织;本发明可以对海量的电子邮件进行内容重复的判断,有效的降低了海量电子邮件处理过程中因电子邮件处理内容处理带来的资源开销。
-
公开(公告)号:CN109710572B
公开(公告)日:2021-02-02
申请号:CN201811638552.X
申请日:2018-12-29
Applicant: 北京赛思信安技术股份有限公司
Abstract: 本发明公开了一种基于HBase的文件分片方法,属于计算机领域。首先从系统中读取对大文件分片的配置文件和按分片粒度进行读取的配置文件,对某个大文件进行分片。文件内容的写入读取按分片的顺序进行,通过多个并列线程将每个分片的内容以独立的键值存入HBase数据表中。同时将每个分片的元数据信息以新增列的方式存储在HBase元数据信息表中。然后若文件内容的写入读取是指定片,按照指定的分片编号写入读取文件内容;若文件内容的写入读取是随机读取,设定随机读取的字节开始位置和读取内容大小;最后当服务端异常导致写入或读取中断,在服务恢复后重新上传或读取断点的分片即可。本发明使大文件存储更加高效可靠,具有较强的实用性和适配性。
-
公开(公告)号:CN109871502B
公开(公告)日:2020-10-30
申请号:CN201910047920.1
申请日:2019-01-18
Applicant: 北京赛思信安技术股份有限公司
IPC: G06F16/958 , G06F16/957
Abstract: 本发明提供了一种基于Storm的流数据正则匹配方法,属于计算机技术领域。本方法包括:搭建实时处理集群,使用Kafka集群作为数据缓存模块,将原始数据进行序列化后打包到一个Message中,加载到Kafka消息队列;订阅Kafka中某个Topic的数据,获取的Message数据按序填入Storm的单元Tuple中,直接将Tuple发送给计算算子Bolt;Bolt对Tuple拆包,对得到的Message数据解包并进行反序列化,将反序列化后的有效数据分块进行模式匹配。本发明保证了数据在Storm集群中传输的批量处理,提高了数据在Storm实时计算集群中的传输效率,并提高了正则匹配的效率。
-
-
-
-
-
-
-
-
-