-
公开(公告)号:CN112863600A
公开(公告)日:2021-05-28
申请号:CN202110388432.4
申请日:2021-04-12
Applicant: 哈尔滨工业大学
Abstract: 一种基于外显子区域插入的数据压缩方法,涉及数据压缩领域。本发明是为了解决现有的数据压缩方法压缩时运行速度慢、压缩适应范围窄、压缩存储量消耗大的问题。本发明包括:对测序短读DNA数据进行预处理获取外显子数据集合;对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中;将哈希表中的异常值进行有序存放;使用霍夫曼编码对存放在哈希表中的异常值中的碱基进行压缩存储;利用LYZip局部解压缩方法判断此时累积插入序列深度是否已经达到30X,如果大于30X则表明无法进行插入压缩;如果小于30X,并且累加上新加入的插入序列仍然小于30X,则重复压缩步骤。本发明用于对数据的压缩。
-
公开(公告)号:CN112863600B
公开(公告)日:2022-05-24
申请号:CN202110388432.4
申请日:2021-04-12
Applicant: 哈尔滨工业大学
Abstract: 一种基于外显子区域插入的数据压缩方法,涉及数据压缩领域。本发明是为了解决现有的数据压缩方法压缩时运行速度慢、压缩适应范围窄、压缩存储量消耗大的问题。本发明包括:对测序短读DNA数据进行预处理获取外显子数据集合;对外显子数据集合进行质控获取异常值并将异常值存储在哈希表中;将哈希表中的异常值进行有序存放;使用霍夫曼编码对存放在哈希表中的异常值中的碱基进行压缩存储;利用LYZip局部解压缩方法判断此时累积插入序列深度是否已经达到30X,如果大于30X则表明无法进行插入压缩;如果小于30X,并且累加上新加入的插入序列仍然小于30X,则重复压缩步骤。本发明用于对数据的压缩。
-