-
公开(公告)号:CN113902941A
公开(公告)日:2022-01-07
申请号:CN202110892668.1
申请日:2021-08-04
Applicant: 东北林业大学
IPC: G06V10/764 , G06V10/774 , G06K9/62 , G06N20/00
Abstract: 本发明涉及一种基于随机森林的蔗糖转运蛋白识别方法,其中基于随机森林的蔗糖转运蛋白识别方法包括:首先从蛋白质数据库中获取初始数据,并对其进行预处理,将含有非标准字母的序列删除,长度过短的序列删除,相似度大于60%的序列删除;然后根据蛋白质的理化性质和进化信息提取不同的特征,并将每个特征以及组合特征作为特征输入;接下来,由于正例和反例的样本数相差较大,所以对该数据集进行过采样;最后在十折交叉验证下,使用随机森林、支持向量机、随机梯度下降、朴素贝叶斯对过采样后的训练集特征训练,使用测试集进行测试,分析结果。该方法通过使用k‑separated‑bigrams‑PSSM和随机森林结合方法,并引入Borderline‑SMOTE算法解决数据不平衡问题,有效地提高了蔗糖转运蛋白识别的准确率。