-
公开(公告)号:CN114154396A
公开(公告)日:2022-03-08
申请号:CN202111305379.3
申请日:2021-11-05
Applicant: 南京邮电大学
IPC: G06F30/27 , G06K9/62 , G06F119/02
Abstract: 本发明属于生物信息领域,公开了一种跨物种编码多肽sORF的预测方法,整合了sORF数据库中人和小鼠、TAIR数据库中拟南芥以及NCBI数据库中部分原核生物的可编码蛋白的DNA序列,并通过数据过滤策略和负样本产生策略构建各物种相应的正负样本;提取序列特征,并利用最大相关最小冗余和增量选择的方法对训练集进行特征筛选,得到不同方法对应的最佳特征集,构建肽编码sORF预测模型;利用贪婪的网格搜索方法进行参数优化,构建基于支持向量机的最佳预测模型,并通过灵敏度、特异度、准确率和马修斯相关系数对预测模型经行评估。本方法有助于分类识别肽编码sORFs,对肽编码sORFs的研究和基因注释有重要意义。
-
公开(公告)号:CN111899792A
公开(公告)日:2020-11-06
申请号:CN202010777126.5
申请日:2020-08-05
Applicant: 南京邮电大学
Abstract: 本发明属于医药技术领域,具体涉及一种筛选具有肽编码能力小开放阅读框的方法,以基因组GC含量为依据,从数据库筛选具有sORFs注释的原核生物基因组,并将其按照基因组GC含量分组,然后将各基因组中具有明确生物功能的sORFs筛选出来,进而利用CD-Hit程序进行去冗余处理,依次以各基因组中肽编码sORFs作为正样本,其对应随机打乱序列为负样本,作为初步训练集分别预测其余基因组中的sORFs,将各基因组GC含量区间预测效果最好的基因组作为最终训练集来源基因组;基于筛选的训练集,以各序列密码子使用频率作为特征参数,利用分类器进行训练完成筛选。该方法对原核及真核生物都具有较好的筛选效果。
-
公开(公告)号:CN111899792B
公开(公告)日:2022-10-14
申请号:CN202010777126.5
申请日:2020-08-05
Applicant: 南京邮电大学
Abstract: 本发明属于医药技术领域,具体涉及一种筛选具有肽编码能力小开放阅读框的方法,以基因组GC含量为依据,从数据库筛选具有sORFs注释的原核生物基因组,并将其按照基因组GC含量分组,然后将各基因组中具有明确生物功能的sORFs筛选出来,进而利用CD‑Hit程序进行去冗余处理,依次以各基因组中肽编码sORFs作为正样本,其对应随机打乱序列为负样本,作为初步训练集分别预测其余基因组中的sORFs,将各基因组GC含量区间预测效果最好的基因组作为最终训练集来源基因组;基于筛选的训练集,以各序列密码子使用频率作为特征参数,利用分类器进行训练完成筛选。该方法对原核及真核生物都具有较好的筛选效果。
-
-