-
公开(公告)号:CN111260201B
公开(公告)日:2023-04-28
申请号:CN202010030606.5
申请日:2020-01-13
Applicant: 北京科技大学
IPC: G06Q10/0639 , G06F18/214 , G06N20/00
Abstract: 本发明提供一种基于分层随机森林的变量重要性分析方法,包括以下步骤:获取待处理数据集,所述待处理数据集中的每个样本具有多个变量;对所述待处理数据集进行预处理,剔除异常样本和空值;对预处理后的数据集,将其中的变量按照加工工序进行分组;有放回随机抽样生成多个训练集,为每一个训练集建立分层决策树;将多棵分层决策树融合形成分层随机森林模型;利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析,生成变量重要性排序。本发明方法解决了现有技术中的常规质量建模方法不考虑多工序生产过程的问题,能够很好地体现多工序加工过程的先后作用,提高了模型的准确性和可解释性。
-
公开(公告)号:CN111260201A
公开(公告)日:2020-06-09
申请号:CN202010030606.5
申请日:2020-01-13
Applicant: 北京科技大学
Abstract: 本发明提供一种基于分层随机森林的变量重要性分析方法,包括以下步骤:获取待处理数据集,所述待处理数据集中的每个样本具有多个变量;对所述待处理数据集进行预处理,剔除异常样本和空值;对预处理后的数据集,将其中的变量按照加工工序进行分组;有放回随机抽样生成多个训练集,为每一个训练集建立分层决策树;将多棵分层决策树融合形成分层随机森林模型;利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析,生成变量重要性排序。本发明方法解决了现有技术中的常规质量建模方法不考虑多工序生产过程的问题,能够很好地体现多工序加工过程的先后作用,提高了模型的准确性和可解释性。
-