一种基于统计机器学习的生物芯片数据特征工程算法

    公开(公告)号:CN114724633A

    公开(公告)日:2022-07-08

    申请号:CN202210403504.2

    申请日:2022-04-18

    Inventor: 王恒 薛松 连锋

    Abstract: 一种基于统计机器学习的生物芯片数据特征工程算法,包括以下步骤:生成数据矩阵;进行z‑score标准化;计算值,筛选大值基因数据;生成相关系数矩阵;筛选基因对;计算复相关系数;标记基因复相关系数改变。本发明有利于在大量生物芯片数据中,分析数据之间的相关性,利用特征选择的方法根据需求选取反映数据组间差异的统计量F值较大的一定数目的基因。本发明利用相关分析统计量相关系数、偏相关系数和复相关系数进行特征选择,有利于进一步减少数据维度,且有利于推测不同实验处理条件下,两两基因表达之间的相关关系改变。

Patent Agency Ranking