-
公开(公告)号:CN113724779B
公开(公告)日:2022-06-17
申请号:CN202111027448.9
申请日:2021-09-02
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。
-
公开(公告)号:CN113724779A
公开(公告)日:2021-11-30
申请号:CN202111027448.9
申请日:2021-09-02
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。
-