-
公开(公告)号:CN111899792A
公开(公告)日:2020-11-06
申请号:CN202010777126.5
申请日:2020-08-05
Applicant: 南京邮电大学
Abstract: 本发明属于医药技术领域,具体涉及一种筛选具有肽编码能力小开放阅读框的方法,以基因组GC含量为依据,从数据库筛选具有sORFs注释的原核生物基因组,并将其按照基因组GC含量分组,然后将各基因组中具有明确生物功能的sORFs筛选出来,进而利用CD-Hit程序进行去冗余处理,依次以各基因组中肽编码sORFs作为正样本,其对应随机打乱序列为负样本,作为初步训练集分别预测其余基因组中的sORFs,将各基因组GC含量区间预测效果最好的基因组作为最终训练集来源基因组;基于筛选的训练集,以各序列密码子使用频率作为特征参数,利用分类器进行训练完成筛选。该方法对原核及真核生物都具有较好的筛选效果。
-
公开(公告)号:CN111899792B
公开(公告)日:2022-10-14
申请号:CN202010777126.5
申请日:2020-08-05
Applicant: 南京邮电大学
Abstract: 本发明属于医药技术领域,具体涉及一种筛选具有肽编码能力小开放阅读框的方法,以基因组GC含量为依据,从数据库筛选具有sORFs注释的原核生物基因组,并将其按照基因组GC含量分组,然后将各基因组中具有明确生物功能的sORFs筛选出来,进而利用CD‑Hit程序进行去冗余处理,依次以各基因组中肽编码sORFs作为正样本,其对应随机打乱序列为负样本,作为初步训练集分别预测其余基因组中的sORFs,将各基因组GC含量区间预测效果最好的基因组作为最终训练集来源基因组;基于筛选的训练集,以各序列密码子使用频率作为特征参数,利用分类器进行训练完成筛选。该方法对原核及真核生物都具有较好的筛选效果。
-
公开(公告)号:CN110349622A
公开(公告)日:2019-10-18
申请号:CN201910613818.3
申请日:2019-07-09
Applicant: 南京邮电大学
Abstract: 本发明为基因预测领域,公开了基于决策树模型和线性回归模型的癌症合成致死基因对预测方法。本方法主要分为数据训练阶段和合成致死基因对测试阶段。步骤依次为,首先基于多组学数据中提取包含所有突变基因对覆盖率、DNA甲基化、mRNA表达谱、拷贝数变异数据作为模型特征值进行聚类、去除假阳性、归一化处理,并且训练决策树模型以及线性回归模型。其次,利用决策树模型和线性回归模型分别预测在多种癌症中可能存在的合成致死基因对,得出合成致死基因对在不同癌症中的分布图谱。最后,对比两种模型得出在泛癌中均存在的合成致死基因对508对。本发明能较准确的预测多种癌症中可能存在的合成致死基因对,为癌症的精准治疗提供依据。
-
-