基于多目标优化排名聚合的集成特征选择方法

    公开(公告)号:CN116401523A

    公开(公告)日:2023-07-07

    申请号:CN202310351471.6

    申请日:2023-04-04

    Applicant: 东北大学

    Abstract: 本发明提供一种基于多目标优化排名聚合的集成特征选择方法,首先利用Lasso回归模型、互信息、Pearson相关系数、卡方检验对高维数据进行初步筛选并生成四个特征排名,然后通过排名聚合技术聚合所有的特征排名,排名聚合基于加权Spearman's Footrule距离度量,该距离包含一个结合特征得分设计的权重,可以强调排名中头部特征的重要性,最终使用多目标秃鹰搜索算法搜索最优的聚合特征排名。多目标指距离之和最优、距离方差最优,多目标的提出使得聚合排名在最接近所有输入排名的同时,不会和某个输入排名的差异过大,从而可以得到更鲁棒的特征排名。这种方法融合了不同特征选择算法的优势,筛选出的特征对于离群值、异常值更鲁棒,在分类时可以有效提高分类效果。

    一种基于mRMR和MBFA的高维数据特征选择方法

    公开(公告)号:CN113160881A

    公开(公告)日:2021-07-23

    申请号:CN202110525570.2

    申请日:2021-05-14

    Applicant: 东北大学

    Abstract: 本发明提供一种基于mRMR和MBFA的高维数据特征选择方法,涉及机器学习技术领域。本发明利用mRMR(Max‑Relevance and Min‑Redundancy,最大相关最小冗余)对基因数据进行初步筛选,过滤到包含信息量较少的特征;对于过滤后的特征,通过MBFA(Multilayer Binary Firefly Algorithm,多层二进制萤火虫算法)完成最优特征子集的选择,该方式最终选择的特征冗余度觉少同时实现了较好的模型效果。此外,该方法能够从高维基因微阵列数据中发现寻找用于疾病辅助预测的生物标志物,对于后续研究和预测模型的建立具有重要意义。

    一种基于词向量聚类的案件特征提取方法

    公开(公告)号:CN113139061A

    公开(公告)日:2021-07-20

    申请号:CN202110525578.9

    申请日:2021-05-14

    Applicant: 东北大学

    Abstract: 本发明提供一种基于词向量聚类的案件特征提取方法,涉及机器学习技术领域。本发明通过对历史案件数据中的案情摘要进行分析,构建基于哈希表的分词方法,并构造司法领域专用停用词表进行停用词过滤,通过word2vec方法生成案情摘要词向量,将词向量聚类,最后生成案情摘要的类簇分布。利用该案件特征提取方法对大量的历史案件案情摘要进行分析,可以准确提取案件不同的关键信息,实现相同类型案件的进一步区分,为客观定量地预测出每个案件的工作量提供参考。本专利提供不同检察院的案件类簇分布,可以对比分析不同检察院的案件分布,为检察院的综合办案能力分析提供参考,提高检察院的自我学习能力。

    基于图神经网络与谱聚类的高维数据特征选择方法

    公开(公告)号:CN112232413A

    公开(公告)日:2021-01-15

    申请号:CN202011108087.6

    申请日:2020-10-16

    Applicant: 东北大学

    Abstract: 本发明提供一种基于图神经网络与谱聚类的高维数据特征选择方法。首先将每个基因作为节点建立基因关系图结构模型,并将基因相互关系数据作为边信息添加到基因关系图中,然后利用图神经网络模型来获取节点的特征向量表示,在得到每个节点的特征向量表示之后,开始进行链接预测阶段,生成新的边,得到新的基因关系图,最后基于谱聚类在新的基因关系图中选择权重最高的节点作为特征节点,通过本发明最终选择的基因具有较小的冗余度同时实现了较好的模型效果,并支持生物角度的可解释性。

Patent Agency Ranking