一种基于不平衡集成二分类的磁盘故障预测方法

    公开(公告)号:CN112465153A

    公开(公告)日:2021-03-09

    申请号:CN202011510541.0

    申请日:2020-12-18

    Abstract: 本发明公开了一种基于不平衡集成二分类的磁盘故障预测方法,包括:对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集;将磁盘原始数据集和平衡数据集输入RF算法进行机器学习,分别训练出偏向多数类的原始模型和局部域加强和削弱模型,集成两种模型获得偏向外围边界的混合模型;根据放入原始磁盘数据集近邻的不平衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态。本发明可以有效解决正、异常样本数量不均衡下磁盘故障预测难度大的问题,提高基于机器学习的磁盘故障预测能力。

    一种基于对数区间隔离的电力调度数据异常检测方法

    公开(公告)号:CN112181706B

    公开(公告)日:2023-09-22

    申请号:CN202011148000.8

    申请日:2020-10-23

    Abstract: 本发明实施例提出了一种基于对数区间隔离的电力调度数据异常检测方法,包括:通过Bagging技术生成大量训练数据集的子集;计算每个子集空间下每个子样本对于该空间的马氏距离,根据样本马氏距离对子集空间中每个样本进行对数区间隔离;根据区间内样本的数据分布对样本进行二叉划分,在左右子树节点的子集上重复上面的过程,直至达到终止条件;构建多个对数区间隔离子树,并将其组成对数区间隔离森林异常检测器,求出每个样本在每个子树下的路径长度,集成每个子树中对应数据的路径并取平均值求得异常分数,根据异常率阈值筛选出数据集中的异常样本;通过构建的对数区间隔离森林异常检测器判断电力数据的异常情况,提高数据异常检测准确率。

    一种基于对数区间隔离的电力调度数据异常检测方法

    公开(公告)号:CN112181706A

    公开(公告)日:2021-01-05

    申请号:CN202011148000.8

    申请日:2020-10-23

    Abstract: 本发明实施例提出了一种基于对数区间隔离的电力调度数据异常检测方法,包括:通过Bagging技术生成大量训练数据集的子集;计算每个子集空间下每个子样本对于该空间的马氏距离,根据样本马氏距离对子集空间中每个样本进行对数区间隔离;根据区间内样本的数据分布对样本进行二叉划分,在左右子树节点的子集上重复上面的过程,直至达到终止条件;构建多个对数区间隔离子树,并将其组成对数区间隔离森林异常检测器,求出每个样本在每个子树下的路径长度,集成每个子树中对应数据的路径并取平均值求得异常分数,根据异常率阈值筛选出数据集中的异常样本;通过构建的对数区间隔离森林异常检测器判断电力数据的异常情况,提高数据异常检测准确率。

    一种基于数据分区混合采样的不平衡集成分类方法

    公开(公告)号:CN111091201A

    公开(公告)日:2020-05-01

    申请号:CN201911339988.3

    申请日:2019-12-23

    Abstract: 本发明实施例提出了一种基于数据分区混合采样的不平衡集成分类方法,包括:根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。

Patent Agency Ranking