-
公开(公告)号:CN108491302A
公开(公告)日:2018-09-04
申请号:CN201810144628.7
申请日:2018-02-12
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供了一种构建spark集群节点状态检测模型的方法。该方法包括:根据spark集群中节点运行特征数据与节点状态的关联性,获得由多组分析数据构成的样本点数据集,其中,每组分析数据包括节点运行特征数据和相应的节点状态;基于所述样本点数据集,以所述节点运行特征数据作为输入训练分类模型,获得spark集群节点状态检测模型。利用本发明提供的建spark集群节点状态检测模型能够准确有效的预测由于性能异常导致处于异常状态的节点。
-
公开(公告)号:CN108427720A
公开(公告)日:2018-08-21
申请号:CN201810127088.1
申请日:2018-02-08
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供从系统日志中提取特征向量的方法,构建系统日志分类模型的方法以及系统日志分类方法。提取特征向量的方法包括:对每个类别,计算该类别关键字与系统日志的语义相似度,选取一些相似度作为系统日志在该类别下的特征向量;组合系统日志在所有类别下的特征向量以得到该系统日志的特征向量。构建模型的方法利用上述方法来提取训练数据集的特征向量,并将其作为卷积神经网络的输入以训练模型。系统日志分类方法利用上述方法来提取系统日志的特征向量,并通过模型得到分类结果。本发明可以实现高准确率和高时效的系统日志分类。
-
公开(公告)号:CN107590008A
公开(公告)日:2018-01-16
申请号:CN201710651527.4
申请日:2017-08-02
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种通过加权熵判断分布式集群可靠度的方法和系统,属于分布式集群可靠性领域,通过预先为不同严重性的日志事件分别进行赋权,然后利用滑动窗口统计该时段内集群各节点的不同类型系统日志数量,进而计算各节点的错误率,并根据该错误率计算集群的可靠性加权熵,最后根据波动大小判断集群稳定性。通过该方法量化了系统可靠性,不但可以通过简单部署就能对整个集群的可靠性进行量化判定,而且还可对集群的稳定程度进行实时监控,及时了解集群的环境变化,当集群的可靠性出现较大波动时可及时采取相应措施处理。
-
公开(公告)号:CN101888309B
公开(公告)日:2012-07-04
申请号:CN201010221973.X
申请日:2010-06-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种在线日志分析方法,包括:从机群系统的各个节点上在线获取日志文件;根据日志文件定义事件序列与事件关联规则,然后统计一元事件序列,找出频繁的一元事件序列集合,得到二元频繁事件序列候选集C(2);统计C(2)中候选二元频繁事件序列的支持度计数和后验度计数,计算置信度和后验度;生成二元频繁事件序列集合F(2)和二元规则集合R(2);重复这一过程直到得到F(k)和R(k),对F(k)中的k元频繁事件序列进行连接操作,产生F(k+1)元频繁事件序列集合;对在F(k+1)中且不在R(k+1)的元素的属性值进行近似计算,直到产生所有的频繁事件序列;由频繁事件序列找到事件关联规则;根据事件关联规则在线预测日志中的事件。
-
公开(公告)号:CN101888309A
公开(公告)日:2010-11-17
申请号:CN201010221973.X
申请日:2010-06-30
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种在线日志分析方法,包括:从机群系统的各个节点上在线获取日志文件;根据日志文件定义事件序列与事件关联规则,然后统计一元事件序列,找出频繁的一元事件序列集合,得到二元频繁事件序列候选集C(2);统计C(2)中候选二元频繁事件序列的支持度计数和后验度计数,计算置信度和后验度;生成二元频繁事件序列集合F(2)和二元规则集合R(2);重复这一过程直到得到F(k)和R(k),对F(k)中的k元频繁事件序列进行连接操作,产生F(k+1)元频繁事件序列集合;对在F(k+1)中且不在R(k+1)的元素的属性值进行近似计算,直到产生所有的频繁事件序列;由频繁事件序列找到事件关联规则;根据事件关联规则在线预测日志中的事件。
-
公开(公告)号:CN111654528A
公开(公告)日:2020-09-11
申请号:CN202010423800.X
申请日:2020-05-19
Applicant: 无锡江南计算技术研究所 , 中国科学院计算技术研究所
IPC: H04L29/08
Abstract: 本发明公开一种面向申威平台的容器镜像分发方法,包括以下步骤:创建主容器镜像服务,根据主容器镜像服务节点上的全局容器特征配置文件,对所有容器镜像资源的镜像特征进行标记,根据分布式数据中心规模,创建从容器镜像服务,使得一个主容器镜像服务对应多个从容器镜像服务,启动从容器镜像服务节点,向主容器镜像服务节点发起镜像查询请求,得到容器信息,再根据对容器镜像资源的镜像特征的标记,得到哪些镜像资源本地已有、哪些镜像资源需要进行实时同步、哪些镜像资源可以继续延迟同步。本发明能有效的减少镜像服务器的压力,提升系统高可用性,还可以减少容器镜像拉取时间,提升系统的服务效率。
-
公开(公告)号:CN104486129B
公开(公告)日:2017-11-03
申请号:CN201410821077.5
申请日:2014-12-24
Applicant: 中国科学院计算技术研究所
Abstract: 本发明提供一种分布式环境下定位瓶颈节点和保障应用服务质量的方法及系统。定位瓶颈节点的方法包括计算服务的关键路径上的每个节点在其处理阶段的延迟波动值;并且根据延迟波动值确定瓶颈节点。其中,服务的关键路径是根据一段时间内处理对该服务的请求的关键路径得到的;延迟波动值是根据一段时间内节点在其处理阶段处理请求的时间得到的。保障应用服务质量的方法包括对于存在长尾延迟的服务定位瓶颈节点;以及,检查瓶颈节点的延迟波动值是否超过预定阈值,根据检查结果执行故障诊断或者对该瓶颈节点的服务请求执行请求调度或加速。本发明降低了请求响应时间波动并且减少了长尾延迟,此外还减少了逐级逐个对节点进行优化的开销。
-
公开(公告)号:CN107301118A
公开(公告)日:2017-10-27
申请号:CN201710450900.X
申请日:2017-06-15
Applicant: 中国科学院计算技术研究所
Abstract: 本发明涉及一种基于日志的故障指标自动标注系统与方法,包括:根据系统日志的事件等级筛选出失效/故障日志,根据每条失效/故障日志的信息内容为每条失效/故障日志分配失效/故障类别,根据每类失效/故障类别确定性能指标数据的有效时间窗口;对每类失效/故障类别的有效时间窗口对应的所有性能指标数据进行建模,构建故障指标模型;根据故障指标模型对性能指标数据进行自动标注性能指标数据是否为故障指标。本发明可减少人工标注故障指标的耗时耗力,节省时间和人力资源,减少工作量,方便管理员快速排查系统故障、进行故障诊断,还可根据指标的特征估计出某时间段内系统是否处于某种故障/失效状态,方便及时采取相应措施。
-
-
-
-
-
-
-