一种基于纠错的基因组测序数据无损压缩方法及相关设备

    公开(公告)号:CN115114238A

    公开(公告)日:2022-09-27

    申请号:CN202210744033.1

    申请日:2022-06-28

    Abstract: 本发明公开了一种基于纠错的基因组测序数据无损压缩方法及相关设备,所述方法包括:识别并纠正原始测序短片段中的测序碱基错误,并记录碱基错误信息,所述碱基错误信息包括测序错误的碱基位置及原碱基;将原始测序短片段归类到纠正后的索引区域文件中,并将测序错误纠正信息加入到索引区域文件中;对不同的索引区域文件内原始测序短片段中的碱基序列进行排序并进行压缩,得到基因组测序数据的压缩结果文件。本发明实现了高效的测序短片段测序错误的纠正,通过纠正碱基当中的测序错误,使得更多相似测序短片段被分配到同一桶中,进而提高了后续桶内测序短片段的压缩效率,通过记录纠正测序短片段中的桶索引序列,实现对基因组测序数据的无损压缩。

    一种基于深度学习的基因组数据无损压缩方法及相关设备

    公开(公告)号:CN115098455A

    公开(公告)日:2022-09-23

    申请号:CN202210743081.9

    申请日:2022-06-28

    Abstract: 本发明公开了一种基于深度学习的基因组数据无损压缩方法及相关设备,所述方法包括:基于深度学习模型学习得到基因组序列的上下文关系特征和非局部特征;基于上下文关系特征和非局部特征,当输入碱基上文时,深度学习模型预测碱基上文后紧邻的多个碱基分别对应的预测概率;利用深度学习模型输出的多个碱基分别对应的预测概率连接算术编码,利用算术编码,编码待压缩碱基的概率,输出压缩结果文件。本发明通过深度学习模型学习得到基因组上下文之间的相关性,利用已压缩过的碱基序列信息,预测当前待编码碱基的概率,最后利用算术编码,输出压缩结果文件,实现了对基因组数据的无损压缩。

Patent Agency Ranking