一种基于云计算平台Spark的变异检测方法

    公开(公告)号:CN107665291B

    公开(公告)日:2020-05-22

    申请号:CN201710886300.8

    申请日:2017-09-27

    Abstract: 本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。

    一种基于云计算平台Spark的变异检测方法

    公开(公告)号:CN107665291A

    公开(公告)日:2018-02-06

    申请号:CN201710886300.8

    申请日:2017-09-27

    Abstract: 本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。

    一种基因测序数据质量分数的并行压缩方法

    公开(公告)号:CN110349635B

    公开(公告)日:2021-06-11

    申请号:CN201910499892.7

    申请日:2019-06-11

    Abstract: 本发明公开了一种基因测序数据质量分数的并行压缩方法,包括步骤:1)对FASTQ格式文件数据进行划分,获得质量分数部分的数据;2)以行为单位,计算每一行质量分数的得分,并根据得分对这一行数据进行分类;3)当一个分类中质量分数数量达到阈值,或者这个分类无更多的质量分数加入时,将这个分类中的质量分数作为一个数据块放入计算缓冲队列中,并清空这个分类中的数据;4)由一个空闲的计算单元取走计算缓冲队列中的一个数据块,进行变换,使用向量化优化的ZPAQ进行编码,完成后放入输出缓冲队列中;5)由输出处理单元处理的压缩数据输出,直到完成所有压缩数据的输出,然后加入维护信息。本发明的技术方案具有性能高、扩展性强的特点。

    一种基因测序数据质量分数的并行压缩方法

    公开(公告)号:CN110349635A

    公开(公告)日:2019-10-18

    申请号:CN201910499892.7

    申请日:2019-06-11

    Abstract: 本发明公开了一种基因测序数据质量分数的并行压缩方法,包括步骤:1)对FASTQ格式文件数据进行划分,获得质量分数部分的数据;2)以行为单位,计算每一行质量分数的得分,并根据得分对这一行数据进行分类;3)当一个分类中质量分数数量达到阈值,或者这个分类无更多的质量分数加入时,将这个分类中的质量分数作为一个数据块放入计算缓冲队列中,并清空这个分类中的数据;4)由一个空闲的计算单元取走计算缓冲队列中的一个数据块,进行变换,使用向量化优化的ZPAQ进行编码,完成后放入输出缓冲队列中;5)由输出处理单元处理的压缩数据输出,直到完成所有压缩数据的输出,然后加入维护信息。本发明的技术方案具有性能高、扩展性强的特点。

Patent Agency Ranking