-
公开(公告)号:CN104200134A
公开(公告)日:2014-12-10
申请号:CN201410438692.8
申请日:2014-08-30
Applicant: 北京工业大学
Abstract: 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法,根据肿瘤基因表达数据的类别信息计算邻域,为了更好地利用类别信息,重新定义一种新的距离表达方式,I相同标签样本之间的距离;II不同标签样本之间的距离;分别计算类内与类外样本点的重构权;判别准则;特征评价函数。本发明具有LLE Score算法可以将高维的邻域信息保留在低维结构里,并可以很好地利用标签信息,同时计算代价小等特点。可以根据特征选择后的降维效果,对基因数据进行有效的分类。
-
公开(公告)号:CN104200135A
公开(公告)日:2014-12-10
申请号:CN201410438783.1
申请日:2014-08-30
Applicant: 北京工业大学
IPC: G06F19/24
Abstract: 一种基于MFA score和排除冗余的基因表达谱特征选择方法,肿瘤基因表达谱的特征选择和分类有助于肿瘤的早期诊断,从基因表达的角度解释肿瘤的成因。首先利用MFA score算法构造类间近邻矩阵Wb和类内近邻矩阵Ww,进而得到类间拉普拉斯矩阵Lb和类内拉普拉斯矩阵Lw,最后将基因排序。针对基因表达数据的高冗余这一特点,我们利用Pearson相关系数来判断基因间的相关性,将高相关的基因即冗余基因排除,最终得到基因子集。本发明适用于任意空间分布的训练样本,排除冗余基因进一步缩减了特征维数,算法复杂度较小,实验中取得了较高的分类准确率。
-