-
公开(公告)号:CN110767265A
公开(公告)日:2020-02-07
申请号:CN201911008972.4
申请日:2019-10-23
Applicant: 中国科学院计算技术研究所
Abstract: 本发明公开了一种针对大数据基因组比对文件排序的并行加速方法,包括以下步骤:对目标BAM文件进行读取和解压,并存入连续的第一缓冲区B;每当第一缓冲区B存满后,进行多线程排序并通过堆排序进行归并形成一个中间文件;依次对所述中间文件进行读取,放入关联的第二缓冲区MB,对每个第二缓冲区MB的数据通过堆排序进行归并;将归并的数据通过多个线程进行压缩处理,写入结果文件。本发明通过为读取和解压单独分配线程,分别为解压和压缩构建线程池,减少开辟的线程数量,充分利用多线程资源,提高文件读写效率,减少中间文件的数量,减小内存拷贝操作次数,实现处理时间的缩短。