-
公开(公告)号:CN114883007A
公开(公告)日:2022-08-09
申请号:CN202210812182.7
申请日:2022-07-12
Applicant: 南昌大学第一附属医院 , 南昌晟源软件有限公司
Abstract: 本发明提供一种基于大数据的数据模型构建方法、系统、介质及计算机,该方法包括:利用基于平均权重特征的选择方法对所采集到的输血大数据的初始数据进行特征评分;对特征评分后的数据进行归一化处理,并利用主成分分析法对归一化处理后的数据进行降维;对降维后的数据划分为训练数据和测试数据,并对训练数据是否平衡进行判断,将不平衡的训练数据进行过采样处理后按照预设比例生成多个数据样本,利用预设机器学习算法在多个数据样本上进行建模,以获得最优的新数据集;将新数据集输入模型进行训练,以获得最优的数据模型。本发明通过整合多种需求,将各步骤整合为一个完整的建模方法,为输血数据的建模分析和使用提供完善的处理过程。
-
公开(公告)号:CN114881181A
公开(公告)日:2022-08-09
申请号:CN202210812044.9
申请日:2022-07-12
Applicant: 南昌大学第一附属医院 , 南昌晟源软件有限公司
IPC: G06K9/62 , G16H50/70 , G06F16/215
Abstract: 本发明提供一种基于大数据的特征加权选择方法、系统、介质及计算机,该方法包括:对样本的多维数据集中的异常值进行判定和剔除以及缺失值的补充得到处理后的数据集;计算出处理后的数据集中每个特征数据的特征方差,并将特征方差为0的特征数据删除得到多个剩余的特征数据;根据自定义的特征评分计算出多个剩余的特征数据的最终评分;根据最终评分对多个剩余的特征数据进行排序,并利用特征选择方法搜索排序后的数据的所有特征子集组合,对所有特征子集组合进行评分得到最优的特征子集组合。本发明有效的从高维数据中将含有重要信息较多的特征提取出来,较大幅度的去除数据中的无关特征,有效的降低相关性较低的特征对于后续模型的负面影响。
-