-
公开(公告)号:CN111899792A
公开(公告)日:2020-11-06
申请号:CN202010777126.5
申请日:2020-08-05
Applicant: 南京邮电大学
Abstract: 本发明属于医药技术领域,具体涉及一种筛选具有肽编码能力小开放阅读框的方法,以基因组GC含量为依据,从数据库筛选具有sORFs注释的原核生物基因组,并将其按照基因组GC含量分组,然后将各基因组中具有明确生物功能的sORFs筛选出来,进而利用CD-Hit程序进行去冗余处理,依次以各基因组中肽编码sORFs作为正样本,其对应随机打乱序列为负样本,作为初步训练集分别预测其余基因组中的sORFs,将各基因组GC含量区间预测效果最好的基因组作为最终训练集来源基因组;基于筛选的训练集,以各序列密码子使用频率作为特征参数,利用分类器进行训练完成筛选。该方法对原核及真核生物都具有较好的筛选效果。
-
公开(公告)号:CN111899792B
公开(公告)日:2022-10-14
申请号:CN202010777126.5
申请日:2020-08-05
Applicant: 南京邮电大学
Abstract: 本发明属于医药技术领域,具体涉及一种筛选具有肽编码能力小开放阅读框的方法,以基因组GC含量为依据,从数据库筛选具有sORFs注释的原核生物基因组,并将其按照基因组GC含量分组,然后将各基因组中具有明确生物功能的sORFs筛选出来,进而利用CD‑Hit程序进行去冗余处理,依次以各基因组中肽编码sORFs作为正样本,其对应随机打乱序列为负样本,作为初步训练集分别预测其余基因组中的sORFs,将各基因组GC含量区间预测效果最好的基因组作为最终训练集来源基因组;基于筛选的训练集,以各序列密码子使用频率作为特征参数,利用分类器进行训练完成筛选。该方法对原核及真核生物都具有较好的筛选效果。
-