-
公开(公告)号:CN115438239A
公开(公告)日:2022-12-06
申请号:CN202110623899.2
申请日:2021-06-04
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/9035 , G06F16/906
Abstract: 本发明公开一种自动化异常样本筛选的异常检测方法及装置,包括依据数据集中各数据的特征,进行数据筛选;对筛选得到的数据进行特征降维;针对特征降维后的数据进行异常检测,得到若干候选数据;对所有候选数据作聚类,得到带类别标签的异常数据。本发明利用特征筛选和特征降维方法,解决异常检测算法难以处理高维度特征的问题,并结合对异常检验算法和聚类算法,实现了对异常样本的自动化分析,在整个流程中不需要人工干预,大大减少了异常样本发现与分析过程中的人力投入。
-
公开(公告)号:CN107480685B
公开(公告)日:2021-02-23
申请号:CN201610402954.4
申请日:2016-06-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06K9/62
Abstract: 本发明公开了一种基于GraphX的分布式幂迭代聚类方法和装置。该方法包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。本发明有效地解决了基于图的聚类算法可扩展性不强、计算复杂度高的问题。
-
公开(公告)号:CN107943952B
公开(公告)日:2020-10-13
申请号:CN201711194929.2
申请日:2017-11-24
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/2452 , G06F16/22 , G06F16/2453 , G06F16/2455
Abstract: 本发明公开了一种基于Spark框架进行全文检索的实现方法,属于大数据处理领域。该方法首先接收待执行SQL语句,生成语法树并转换成相应的逻辑计划;然后,从Hive中获取检索所有表的元数据,寻找支持全文检索的字段,并通过字段哈希索引对数据块进行初步裁剪;继而,根据查询条件从文件元数据中获取数据块所具体存放的磁盘位置;最后,将逻辑执行计划转换为可分布式执行的任务集合,通过各个数据块位置来确定任务具体执行的目标节点和任务所具体执行的目标进程;对任务进行分发执行,并汇总执行结果,迭代获取最终结果。该方法具有较高的效率,可以快速的完成海量数据的全文检索,在大数据处理领域具有很强的实用性和应用范围,具有很广泛的应用前景。
-
公开(公告)号:CN110912833A
公开(公告)日:2020-03-24
申请号:CN201911377730.2
申请日:2019-12-27
Applicant: 国家计算机网络与信息安全管理中心 , 南京中新赛克科技有限责任公司
IPC: H04L12/803 , H04L12/801
Abstract: 本发明公开了一种智能化的链路转发方法,网络流控设备实时计算流量大小,在流量低峰期,无论从哪个端口进入的流量都会负载均衡到链路出口端;在流量高峰期,如果网络流控设备中计算的流量大小pps超过了设定阈值,自动改变调度算法为选择调度,网络流控设备对进来的每个请求报文进行分析,获取报文的源和目的IP值进行哈希计算与已加密的规则进行匹配;如果该报文的源和目的IP的哈希值匹配,则将这部分流量转发到可信链路出口;如果该报文的源和目的IP不在字典中或不能正确匹配,则将其转发到其他链路出口端。本发明能将可信任的流量智能化切换到空闲可信链路转发,以保证可信流量的可靠和稳定转发。
-
公开(公告)号:CN106484815B
公开(公告)日:2019-04-12
申请号:CN201610849786.3
申请日:2016-09-26
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/2453 , G06F16/22 , G06F16/2452
Abstract: 本发明提供了一种基于海量数据类SQL检索场景的自动识别优化方法,属于海量数据统计分析领域。本发明通过五方面来进行优化:引入lucene作为可选存储介质;对每个数据文件的检索字段增加bloomfilter索引(bf索引);对不同检索场景的划分及最优存储介质的选择;在进行lucene检索场景时,将类SQL语句转换为lucene语句;对lucene存储介质和bf索引添加有效性的会话级设置。在检索时,首先判定bf索引会话级的有效性,通过bf索引缩小待检索数据文件列表,再判定lucene存储介质的会话级有效性。本发明有效降低了海量数据检索时集群的资源消耗,大幅度提升了海量数据的检索性能。
-
公开(公告)号:CN105897405B
公开(公告)日:2019-04-05
申请号:CN201610384213.8
申请日:2016-06-02
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种128位对称密钥生成及保护装置,其特征在于,设存储于装置中的种子密钥为A段密钥,由主机下发的种子密钥为B段密钥,合成的结果为密钥,装置包括以下模块:至少一个A段密钥管理模块;至少一个B段密钥管理模块;至少一个MD5算法模块;至少一个SHA1算法模块;至少一个密钥合成管理模块;至少一个密钥存储模块。本发明避免了A段密钥的暴露,从而使本装置具有抵抗软件恶意攻击的能力,本发明中一旦设备脱离主机环境,那么B段密钥与生成后的密钥将自动销毁,从而使本装置具有抵抗硬件恶意攻击的能力,进一步提升了密钥的安全性。
-
公开(公告)号:CN107483364A
公开(公告)日:2017-12-15
申请号:CN201610404404.6
申请日:2016-06-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: H04L12/917
CPC classification number: H04L47/76
Abstract: 本发明公开了一种Hadoop Yarn网络带宽资源调度、隔离方法和装置。该调度方法在RM侧执行,包括:接收AM发送的作业资源请求;所述工作资源请求包括:在作业中,每个任务的网络带宽资源需求量;根据每个所述任务的网络带宽需求量,采用预设的公平调度算法,为每个所述任务对应分配容器;其中,在每个所述容器中封装有对应任务的网络带宽资源分配量。该隔离方法在NM侧执行,包括:从AM获取多个容器;其中,每个所述容器中封装有对应的任务的网络带宽资源分配量;根据各个任务的网络带宽资源分配量,隔离各个任务占用的网络带宽资源。本发明在Yarn集群中增加了对网络带宽资源的调度,而且可以避免各个任务之间由于网络带宽资源的竞争而相互干扰。
-
公开(公告)号:CN107480685A
公开(公告)日:2017-12-15
申请号:CN201610402954.4
申请日:2016-06-08
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06K9/62
Abstract: 本发明公开了一种基于GraphX的分布式幂迭代聚类方法和装置。该方法包括:获取分布式存储的多个数据;对所述多个数据分别进行数据清洗,得到多个清洗数据;基于所述多个清洗数据中两两之间的相似度,构建亲和矩阵;基于GraphX,利用设置的随机初始向量对所述亲和矩阵进行迭代处理;利用KMeans++算法,对迭代向量进行聚类处理,并根据处理结果得到所述多个清洗数据的聚类结果。本发明有效地解决了基于图的聚类算法可扩展性不强、计算复杂度高的问题。
-
公开(公告)号:CN104239249B
公开(公告)日:2017-08-04
申请号:CN201410472223.8
申请日:2014-09-16
Applicant: 国家计算机网络与信息安全管理中心 , 北京赛思信安技术有限公司
IPC: G06F13/28
Abstract: 本发明提供了一种PCI‑E零拷贝DMA数据传输方法,属于PCI‑E数据传输技术领域。本方法首先在数据源和数据目的系统中各自分配适当大小的物理内存,并分别对两个系统中分配的物理内存使用双向链表建立空闲内存池和工作内存池;在数据源系统上,用户应用程序传输数据时,从空闲内存池取得空闲内存后直接进行数据填充,数据填充完后传输给数据目的系统;在数据目的系统,将接收的数据存入工作内存池,用户应用程序使用相应的API接口从工作内存池中取得数据进行使用;使用完毕后将相应的内存归还给空闲内存池。本发明极大地减轻了CPU的压力,减少了系统调用,对于大规模小数据量的传输减轻了用户内核空间的切换,提高了系统效率。
-
公开(公告)号:CN106708926A
公开(公告)日:2017-05-24
申请号:CN201611001399.0
申请日:2016-11-14
Applicant: 北京赛思信安技术股份有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提出一种支持海量长文本数据分类的分析模型的实现方法,属于大数据文本分析技术领域。本发明采用HanLP分词工具中的标准分词并采用改进的CHI算法,一方面有效降低文本分类时每篇文章的词向量空间的维度,降低文本分类计算的时间复杂度,提升算法效率,满足大数据背景下海量长文本分类时的性能需求;同时最大程度低减少由于降低向量空间维度数而造成分类准确性降低。采用TFIDF算法能够有效消除了文本与向量之间的屏障,最后采用朴素贝叶斯分类算法,能够准确的将文本进行较好的训练,实现长文本的准确的分类。本发明能有效地解决在大数据环境下长文本分类的性能指标和准确性指标的矛盾性问题,具有广泛的应用前景。
-
-
-
-
-
-
-
-
-