-
公开(公告)号:CN103544261B
公开(公告)日:2016-06-22
申请号:CN201310484663.0
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
Abstract: 本发明涉及一种海量结构化日志数据全局索引管理方法,包括以下步骤:在数据存储子系统中在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认本地是否有全局索引服务器的地址信息,客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子系统中的相应数据节点发送远程调用请求;数据存储子系统汇总各数据节点的响应数据,将最终查询结果发送给客户端。本发明该方法有效地增加了系统的查询多样性和查询效率,并且提高了系统的可扩展性。
-
公开(公告)号:CN103516550B
公开(公告)日:2016-05-11
申请号:CN201310455753.7
申请日:2013-09-29
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
Abstract: 本发明涉及一种面向大规模包分类规则集的规则冲突检测方法及系统,所述方法包括:步骤1,接收并解析规则;步骤2,将解析后的规则划分为全前缀规则、非全前缀规则和无前缀规则;步骤3,采用源IP-目的IP双层哈希表HSIP-DIP或目的IP哈希表H*-DIP组织全前缀规则集,并对应在HSIP-DIP或H*-DIP中进行规则的增加、删除或查询;步骤4,采用源IP-目的IP双维Tire树TSIP-TDIP组织非全前缀规则集,并在TSIP-TDIP中进行规则的增加、删除或查询;步骤5,采用链表L*-*组织无前缀规则集,并在L*-*中进行规则的增加、删除或查询;步骤6,遍历HSIP-DIP、H*-DIP、TSIP-TDIP和L*-*中的每一个规则作为被检规则,检测与被检规则冲突的所有规则。本发明解决了现在技术中规则冲突算法存在的不足。
-
公开(公告)号:CN115410207B
公开(公告)日:2023-08-29
申请号:CN202110588830.0
申请日:2021-05-28
Applicant: 国家计算机网络与信息安全管理中心天津分中心 , 中国科学院信息工程研究所
IPC: G06V30/148 , G06F40/289 , G06F40/216
Abstract: 本发明公开一种针对竖排文本的检测方法及装置,包括扫描待检测文本,确定换行符的位置,得到一个位置列表,并基于该位置列表,计算每行文字长度;截取连续t行中每行文字长度一致的文本,保留截取文本中的有效字符,得到保留文本;对保留文本进行分词,并根据得到第一分词结果,获取截取文本的初步检测结果;若初步检测结果判断截取文本为竖排文本,则将截取文本转换为二维的字符矩阵,并删除换行符,对该字符矩阵作转置,得到转置文本;对转置文本进行分词,并根据得到第二分词结果,获取截取文本的检测结果。本发明可确定竖排文字的区域,去除竖排文本中的干扰字符,并恢复成一般的横向文本,同时处理竖排文本中普遍存在的错别字现象。
-
公开(公告)号:CN115098348A
公开(公告)日:2022-09-23
申请号:CN202210638477.7
申请日:2022-06-07
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F11/34 , G06F11/00 , G06F16/215 , G06F16/35 , G06F40/205 , G06F40/284 , G06N3/04 , G06N3/08
Abstract: 本发明提供了一种面向高危用户指令的实时异常检测方法及装置,所述方法包括:从生产环境采集一用户使用的指令数据,并获取系统错误日志及所述指令数据的自动化测试结果;根据所述指令数据的指令子参数、系统错误日志、自动化测试结果,计算所述指令数据的第一高危分数;基于所述指令数据的词向量,计算所述指令数据的第二高危分数;根据所述第一高危分数与所述第二高危分数,获取所述指令数据的异常检测结果本发明降低流数据处理系统的数据接入难度,提高整个数据处理系统的吞吐量。本发明通过指令数据以及相应的系统错误日志数量、自动化测试结果等多种因素,降低了传统异常指令检测的运维难度,提高了异常指令检测速度和精度。
-
公开(公告)号:CN104731864A
公开(公告)日:2015-06-24
申请号:CN201510088785.7
申请日:2015-02-26
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30628 , G06F17/30132
Abstract: 本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。
-
公开(公告)号:CN103544261A
公开(公告)日:2014-01-29
申请号:CN201310484663.0
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/30336 , G06F17/30321
Abstract: 本发明涉及一种海量结构化日志数据全局索引管理方法,包括以下步骤:在数据存储子系统中在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认本地是否有全局索引服务器的地址信息,客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子系统中的相应数据节点发送远程调用请求;数据存储子系统汇总各数据节点的响应数据,将最终查询结果发送给客户端。本发明该方法有效地增加了系统的查询多样性和查询效率,并且提高了系统的可扩展性。
-
公开(公告)号:CN103544259A
公开(公告)日:2014-01-29
申请号:CN201310484629.3
申请日:2013-10-16
Applicant: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC: G06F17/30
CPC classification number: G06F17/3053
Abstract: 本发明涉及一种分组聚集排序TopK查询处理方法及系统。分组聚集排序TopK查询处理方法包括:接收分组聚集排序TopK查询请求;各分布式数据节点根据所述查询请求,进行本地数据分组聚集,并将自身的分组聚集数据异步传输到集中处理节点;所述集中处理节点采用哈希表结合二叉平衡树的数据结构对各分布式数据节点的分组聚集数据进行数据合并,并采用近似高频项统计算法进行统计,得到聚集排序后的高频项列表;输出所述高频项列表。本发明的分组聚集排序TopK查询处理方法及系统灵活性好,查询效率高,分布式适应性好。
-
公开(公告)号:CN118569695A
公开(公告)日:2024-08-30
申请号:CN202410513843.5
申请日:2024-04-26
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06Q10/0639 , G06Q10/20 , G06N5/025 , G06N5/04 , G06N5/045 , G06F18/214 , G06F18/2433
Abstract: 本发明涉及一种分布式系统业务效果感知和评价方法及系统。该方法包括:选取分布式系统的运维对象的KPI指标;采用层次分析法对分布式系统的运维对象进行分级分类;提取运维对象的实体及关系,将分级分类的结果转化为知识图谱,并融入具有时序特性的KPI指标得到时序图谱;对KPI指标进行异常检测并基于时序图谱进行业务效果评估。本发明定义了运维对象体系及其时序关联图谱;异常检测方面采用无监督的机器学习方法;在计算异常发生的扣分权重时加入图计算能力,通过人工定性和算法定量相结合的方式使定义流程变得科学通用;在得出业务效果KPI的感知结果后能从业务人员关注的各个指标维度对结果进行解释;并支持大规模分布式系统的在线评估。
-
公开(公告)号:CN112069312B
公开(公告)日:2023-06-20
申请号:CN202010806716.6
申请日:2020-08-12
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06F16/9535
Abstract: 本发明提供一种基于实体识别的文本分类方法,包括:对待检测文本进行切词,得到情感词与实体词,并通过一实体及情感类别已标注数据集判断实体词的情感类别;对待检测文本进行断句,通过情感词与标注情感类别的实体词在每一句子中的词性、否定词及标点符号内容,获取各句子的情感类别;依据各句子的情感类别,得到待检测文本的情感类别。本发明利用半监督学习的方式,通过协同训练加主动学习的方式,结合学习加情感规则的方式,确定指向性实体集;通过识别指定方向实体,结合情感词进行倾向性判断;生成指定类别实体集,结合情感规则,实现对文本更深层次的分析。
-
公开(公告)号:CN116069618A
公开(公告)日:2023-05-05
申请号:CN202211447427.7
申请日:2022-11-18
Applicant: 中国科学院信息工程研究所 , 国家计算机网络与信息安全管理中心
Abstract: 本发明公开了一种面向应用场景的国产化系统评估方法。本方法为:1)构建针对应用系统的通用业务架构,包括:流量处理业务模块、数据转发业务模块、数据处理业务模块、数据存储业务模块、虚拟化平台业务模块、云平台业务模块;2)选取一业务系统并将其划分为多个业务模块;业务系统部署于多个服务器,每台服务器上均运行国产化操作系统,所述国产化操作系统中运行至少一个业务模块;3)通用业务架构中的每一模块分别获取各所述服务器的国产化操作系统中运行所述业务模块时的指标值;4)根据每一业务模块的指标值与对应业务模块的指标阈值进行比较,根据各指标值的比较结果得到一综合评估值,根据综合评估值确定国产化操作系统的评估结果。
-
-
-
-
-
-
-
-
-