一种为基因数据库确定最佳序列比对阈值的方法

    公开(公告)号:CN112365930B

    公开(公告)日:2022-06-10

    申请号:CN202011117987.7

    申请日:2020-10-19

    Applicant: 北京大学

    Abstract: 一种为基因数据库确定最佳序列比对阈值的方法,包括:1)获取蛋白质序列;2)从蛋白质序列中移除被包括在基因数据库中的序列,创建假基因数据集;3)将基因数据库中的蛋白质序列划分子类,作为真基因数据集;4)合并假基因数据集与真基因数据集,针对任意一条蛋白质序列,模拟高通量测序所产生的特定长度的DNA序列,得到模拟数据集;5)进行序列比对,对比对阈值进行取值;6)判定序列比对结果,计算真阳性、错配、假阳性、假阴性、真阴性的数量;7)计算灵敏度、准确度和马修斯相关系数;8)以相似度为X轴,E值为Y轴,灵敏度、准确度或马修斯相关系数为Z轴,绘制三维曲面图;9)在三维曲面图确定基因数据库的最佳序列比对阈值。

    一种为基因数据库确定最佳序列比对阈值的方法

    公开(公告)号:CN112365930A

    公开(公告)日:2021-02-12

    申请号:CN202011117987.7

    申请日:2020-10-19

    Applicant: 北京大学

    Abstract: 一种为基因数据库确定最佳序列比对阈值的方法,包括:1)获取蛋白质序列;2)从蛋白质序列中移除被包括在基因数据库中的序列,创建假基因数据集;3)将基因数据库中的蛋白质序列划分子类,作为真基因数据集;4)合并假基因数据集与真基因数据集,针对任意一条蛋白质序列,模拟高通量测序所产生的特定长度的DNA序列,得到模拟数据集;5)进行序列比对,对比对阈值进行取值;6)判定序列比对结果,计算真阳性、错配、假阳性、假阴性、真阴性的数量;7)计算灵敏度、准确度和马修斯相关系数;8)以相似度为X轴,E值为Y轴,灵敏度、准确度或马修斯相关系数为Z轴,绘制三维曲面图;9)在三维曲面图确定基因数据库的最佳序列比对阈值。

    一种基于宏基因组数据分析微生物群体感应效应的方法

    公开(公告)号:CN112365929A

    公开(公告)日:2021-02-12

    申请号:CN202011117979.2

    申请日:2020-10-19

    Applicant: 北京大学

    Abstract: 一种基于宏基因组数据分析微生物群体感应效应的方法,包括:在第一数据库和第二数据库中获取序列;将序列合并得到合并数据集;对合并数据集分类得到结构化数据集;对结构化数据集进行聚类分析,去除冗余序列;检查数据集中序列的注释,去除非群体感应基因序列;基于序列比对及系统发育学分析方法对数据集进行自校验,去除非群体感应基因序列;确定群体感应基因的保守性结构域或基元序列;检查保守性结构域或基元序列,去除不含保守性结构域或基元序列的序列;整合所有序列,构建群体感应基因数据库;将宏基因组数据在群体感应基因数据库中比对,获取群体感应基因并计算丰度;对群体感应基因进行宿主溯源分析,以确定其在分类学水平上的宿主。

Patent Agency Ranking