-
公开(公告)号:CN115240775A
公开(公告)日:2022-10-25
申请号:CN202210843836.2
申请日:2022-07-18
Applicant: 东北林业大学
Abstract: 基于stacking集成学习策略的Cas蛋白预测方法,涉及一种Cas蛋白预测方法。为了解决目前Cas蛋白识别方法中在模型构建及特征工程方面存在着一定的局限性,导致无法达到理想的预测效果问题。本发明利用双层预测模型对潜在Cas蛋白进行识别;所述双层预测模型的建立过程中,首先获取Cas蛋白序列数据集,使用基于序列模式特征、进化信息特征、理化性质特征、深度表示学习特征的编码对Cas蛋白数据进行编码,构建初始特征空间;然后通过对初始特征空间进行特征空间优化,利用最优特征空间构建多个基学习模型,再基于多个基学习模型输出的置信度得分特征作为第二层模型的输入特征,进行二次建模,构建得到双层预测模型。
-
公开(公告)号:CN115240775B
公开(公告)日:2023-10-03
申请号:CN202210843836.2
申请日:2022-07-18
Applicant: 东北林业大学
Abstract: 基于stacking集成学习策略的Cas蛋白预测方法,涉及一种Cas蛋白预测方法。为了解决目前Cas蛋白识别方法中在模型构建及特征工程方面存在着一定的局限性,导致无法达到理想的预测效果问题。本发明利用双层预测模型对潜在Cas蛋白进行识别;所述双层预测模型的建立过程中,首先获取Cas蛋白序列数据集,使用基于序列模式特征、进化信息特征、理化性质特征、深度表示学习特征的编码对Cas蛋白数据进行编码,构建初始特征空间;然后通过对初始特征空间进行特征空间优化,利用最优特征空间构建多个基学习模型,再基于多个基学习模型输出的置信度得分特征作为第二层模型的输入特征,进行二次建模,构建得到双层预测模型。
-