一种基于压缩和聚类的批量蛋白质同源性搜索方法

    公开(公告)号:CN106022000B

    公开(公告)日:2018-06-08

    申请号:CN201610309077.6

    申请日:2016-05-11

    Inventor: 葛宏伟 余景洪

    Abstract: 本发明公开了一种基于压缩和聚类的批量蛋白质同源性搜索方法,属于计算机应用技术与生物技术的交叉领域。该方法充分利用了蛋白质数据库序列和查询序列中存在的序列相似信息,首先对查询序列和蛋白质数据库通过冗余分析和冗余移除过程进行压缩操作;进而对压缩后的蛋白质数据库进行相似子序列聚类,然后在聚类数据库基础上利用映射原理进行查找以发现潜在的结果,并根据找到的潜在结果集建立可执行数据库;最后在可执行数据库上进行同源性搜索,以获得最终的同源性序列。本发明的方法通过在构建的可执行数据库上进行同源性搜索,大大减少了重复序列比对和无间隙扩展的时间。

    一种基于压缩和聚类的批量蛋白质同源性搜索方法

    公开(公告)号:CN106022000A

    公开(公告)日:2016-10-12

    申请号:CN201610309077.6

    申请日:2016-05-11

    Inventor: 葛宏伟 余景洪

    CPC classification number: G06F19/24

    Abstract: 本发明公开了一种基于压缩和聚类的批量蛋白质同源性搜索方法,属于计算机应用技术与生物技术的交叉领域。该方法充分利用了蛋白质数据库序列和查询序列中存在的序列相似信息,首先对查询序列和蛋白质数据库通过冗余分析和冗余移除过程进行压缩操作;进而对压缩后的蛋白质数据库进行相似子序列聚类,然后在聚类数据库基础上利用映射原理进行查找以发现潜在的结果,并根据找到的潜在结果集建立可执行数据库;最后在可执行数据库上进行同源性搜索,以获得最终的同源性序列。本发明的方法通过在构建的可执行数据库上进行同源性搜索,大大减少了重复序列比对和无间隙扩展的时间。

Patent Agency Ranking