-
公开(公告)号:CN102760209A
公开(公告)日:2012-10-31
申请号:CN201210153441.6
申请日:2012-05-17
Applicant: 南京理工大学常熟研究院有限公司 , 南京理工大学
IPC: G06F19/10
Abstract: 本发明公开了一种非参数膜蛋白跨膜螺旋预测方法。首先利用PSI-BLAST程序获取蛋白质的进化信息,并使用滑动窗口技术抽取每个氨基酸残基的特征;然后,利用自组织神经网络(SOM)学习跨膜螺旋在特征空间中的分布规律,将分布规律知识编码在SOM的权值向量中;预测阶段,对给定的待预测蛋白质的每个氨基酸残基使用概率神经网络(PNN)非参数模型进行预测,得到预测曲线后,使用发明人自行提出的动态阈值分割技术确定每个氨基酸残基是否属于跨膜螺旋片段。优点在于:一是使用概率神经网络模型,使得预测模型仅需调节一个参数;二是使用学习得到的SOM的权向量作为PNN的基样本,保证了跨膜螺旋预测精度的同时提高了预测速度。
-
公开(公告)号:CN102760210A
公开(公告)日:2012-10-31
申请号:CN201210201382.5
申请日:2012-06-19
Applicant: 南京理工大学常熟研究院有限公司 , 南京理工大学 , 上海交通大学
IPC: G06F19/18
Abstract: 本发明公开了一种蛋白质三磷酸腺苷绑定位点预测方法。首先利用PSI-BLAST及PSIPRED程序获取蛋白质的进化信息和二级结构信息,并使用滑动窗口技术抽取每个氨基酸残基的特征;其次,利用随机下采样技术,对非绑定位点的样本进行多次随机下采样;然后,基于每次随机下采样得到的非绑定位点样本子集及绑定位点样本集训练一个SVM,对每个样本集的随机下采样得到多个SVM;最后,使用Dempster-Shafer证据理论对训练好的多个SVM进行集成。该方法优点在于:一是使用随机下采样技术,可以有效降低训练集的规模,加快模型训练速度;二是使用SVM集成技术,有效降低下采样导致的信息丢失,提高模型预测精度。
-
公开(公告)号:CN102831332A
公开(公告)日:2012-12-19
申请号:CN201210261613.1
申请日:2012-07-27
Applicant: 南京理工大学常熟研究院有限公司 , 南京理工大学
IPC: G06F19/18
Abstract: 本发明公开了一种可解释性的膜蛋白跨膜螺旋预测方法。首先利用PSI-BLAST程序获取蛋白质的进化信息,并使用滑动窗口技术抽取每个氨基酸残基的特征;然后,利用自组织神经网络(SOM)学习跨膜螺旋在特征空间中的分布规律,将分布规律知识编码在SOM的权值向量中;最后,使用Wang-Mendel方法提取可解释性的模糊规则集;对于给定的待预测蛋白质的每个氨基酸残基使用模糊推理技术进行预测,得到预测曲线后,使用动态阈值分割技术确定每个氨基酸残基是否属于跨膜螺旋片段。优点在于:一是使用SOM学习,挖掘跨膜螺旋分布规律知识并降低原始数据的噪声;二是使用模糊规则提取技术获取的跨膜螺旋预测模型具有很高的可解释性。
-
公开(公告)号:CN103617203B
公开(公告)日:2016-09-21
申请号:CN201310573950.9
申请日:2013-11-15
Applicant: 南京理工大学
IPC: G06F17/30
Abstract: 本发明提供一种基于查询驱动的蛋白质‑配体绑定位点预测方法,包括:步骤1、对于一条给定的查询输入,从可用数据库中查找出具有高同源性的蛋白质序列,构成基于查询驱动的训练数据集;步骤2、得到的训练数据集,所有的绑定残基提取为正样本集,所有的非绑定残基提取为负样本集;步骤3、从进化信息和二级结构视角抽取每个样本的特征向量,得到正负样本的特征向量集;步骤4、使用标准支持向量机算法,训练得到针对查询输入q的SVM预测模型;步骤5、对于查询输入,使用同样的特征抽取方法抽取每个残基的特征向量,输入SVM预测模型,再利用阈值分割方法预测。利用本发明可提高预测精度并防止在固定训练数据集上可能出现的过优化和过拟合的问题。
-
公开(公告)号:CN104992079A
公开(公告)日:2015-10-21
申请号:CN201510368016.2
申请日:2015-06-29
Applicant: 南京理工大学
Abstract: 本发明提供了一种基于采样学习的蛋白质-配体绑定位点预测方法。首先利用PSI-BLAST与PSIPRED程序获取蛋白质的进化信息和二级结构信息,并使用滑动窗口技术抽取每个氨基酸残基(样本)的特征;其次,利用随机下采样技术,对非绑定位点的样本进行随机下采样,将得到的非绑定位点样本子集与绑定位点样本集训练一个SVM,用于预测所有待预测样本;再次,根据每一个待预测样本的特征信息,利用KNN动态采样学习技术,分别对绑定位点样本与非绑定位点样本进行采样学习,将采样后的绑定位点样本子集与非绑定位点样本子集合并训练一个特定的SVM,用于预测该待预测样本;最后,使用基于阈值的集成技术对训练好的两个SVM进行集成。该方法的优点在于:一是使用随机下采样与KNN动态采样学习技术,可以有效的降低训练集的规模,加快了模型的训练速度;二是使用KNN动态采样学习技术,能针对不同的待预测样本训练不同的SVM模型,有效的融入了待预测样本之间的差异性;三是使用SVM集成技术,有效的降低了采样学习导致的信息丢失,提高模型预测精度。
-
公开(公告)号:CN103324933A
公开(公告)日:2013-09-25
申请号:CN201310227091.8
申请日:2013-06-08
Applicant: 南京理工大学常熟研究院有限公司
Abstract: 本发明公开了一种基于复空间多视角特征融合的膜蛋白亚细胞位置定位方法。首先提取蛋白质序列的伪氨基酸组成成分(PseAAC)特征和基于自相关变换的位置特异性得分矩阵(PSSM-ACT)特征;其次,使用并行方式,将这两种特征组合成复空间中的特征向量;第三,使用广义的主成分分析(GPCA)方法对并行组合后的复特征进行降维,以去除噪音;最后,使用基于优化证据理论的K近邻分类器(OET-KNN)对融合后的特征进行分类,从而确定亚细胞位置。该方法的优点:一是采用复空间多视角特征融合技术,有效地抽取蛋白质序列的鉴别特征;二是使用了基于优化证据理论的K近邻分类器,提高了膜蛋白亚细胞位置定位的准确率。
-
公开(公告)号:CN103955628B
公开(公告)日:2017-03-01
申请号:CN201410164632.1
申请日:2014-04-22
Applicant: 南京理工大学
IPC: G06F19/10
Abstract: 本发明提供一种基于子空间融合的蛋白质-维他命绑定位点预测方法,包括:特征抽取与特征组合:分别利用PSI-BLAST、PSIPRED和蛋白质-维他命绑定位点倾向表抽取蛋白质的进化信息、二级结构信息以及绑定倾向性信息,使用滑动窗口与串行组合将蛋白质序列中的氨基酸残基转换为向量形式表示;使用多种特征选择算法分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,构建多个特征子空间;对所得的每个特征子空间,训练一个SVM分类器;使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;基于融合后的SVM预测器对待预测蛋白质进行蛋白质-维他命绑定位点预测。本发明的预测方法预(56)对比文件YaNan Zhang 等.Predicting protein-ATPbinding sites from primary sequencethrough fusing bi-profile sampling ofmulti-view features《.Bmc Bioinformatics》.2012,第13卷(第1期),第1-11页.陈俊芬.多神经网络分类器的融合方法的比较《.大众科技》.2012,(第9期),第30-31页.Dong-Jun Yu 等.TargetATPsite: ATemplate-free Method for ATP-BindingSites Prediction with Residue EvolutionImage Sparse Representation andClassifier Ensemble《.Journal ofComputational Chemistry》.2013,第34卷(第11期),第974-985页.陈睿 等.基于约束得分的动态集成选择算法《.计算机应用研究》.2013,第31卷(第3期),第708-712页第1.1小节.
-
公开(公告)号:CN104063632A
公开(公告)日:2014-09-24
申请号:CN201410303084.6
申请日:2014-06-27
Applicant: 南京理工大学
IPC: G06F19/16
Abstract: 本发明公开一种基于回归森林模型的蛋白质序列二硫键连接模式的预测方法,包括以下步骤:步骤1、通过多视角特征提取和特征组合,得到蛋白质序列中每个半胱氨酸残基对的特征向量;步骤2、对于待预测的蛋白质序列信息和训练数据集合,生成待预测的蛋白质序列信息和训练数据集合中所有半胱氨酸残基对的特征向量,从而分别构成训练样本集合与待预测样本集合;步骤3、采用随机森林算法学习二硫键样本在特征空间中的分布规律,生成随机森林回归模型;步骤4、利用随机森林回归模型对待预测样本集合的特征向量进行预测,得到每个半胱氨酸残基对形成二硫键的倾向值,得分最高的二硫键连接模式即为最终预测得到的蛋白质序列中的二硫键连接模式。
-
公开(公告)号:CN103955628A
公开(公告)日:2014-07-30
申请号:CN201410164632.1
申请日:2014-04-22
Applicant: 南京理工大学
IPC: G06F19/10
Abstract: 本发明提供一种基于子空间融合的蛋白质-维他命绑定位点预测方法,包括:特征抽取与特征组合:分别利用PSI-BLAST、PSIPRED和蛋白质-维他命绑定位点倾向表抽取蛋白质的进化信息、二级结构信息以及绑定倾向性信息,使用滑动窗口与串行组合将蛋白质序列中的氨基酸残基转换为向量形式表示;使用多种特征选择算法分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,构建多个特征子空间;对所得的每个特征子空间,训练一个SVM分类器;使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;基于融合后的SVM预测器对待预测蛋白质进行蛋白质-维他命绑定位点预测。本发明的预测方法预测速度快、预测精度高。
-
公开(公告)号:CN104063632B
公开(公告)日:2017-09-01
申请号:CN201410303084.6
申请日:2014-06-27
Applicant: 南京理工大学
IPC: G06F19/16
Abstract: 本发明公开一种基于回归森林模型的蛋白质序列二硫键连接模式的预测方法,包括以下步骤:步骤1、通过多视角特征提取和特征组合,得到蛋白质序列中每个半胱氨酸残基对的特征向量;步骤2、对于待预测的蛋白质序列信息和训练数据集合,生成待预测的蛋白质序列信息和训练数据集合中所有半胱氨酸残基对的特征向量,从而分别构成训练样本集合与待预测样本集合;步骤3、采用随机森林算法学习二硫键样本在特征空间中的分布规律,生成随机森林回归模型;步骤4、利用随机森林回归模型对待预测样本集合的特征向量进行预测,得到每个半胱氨酸残基对形成二硫键的倾向值,得分最高的二硫键连接模式即为最终预测得到的蛋白质序列中的二硫键连接模式。
-
-
-
-
-
-
-
-
-