一种基于云计算平台Spark的变异检测方法

    公开(公告)号:CN107665291A

    公开(公告)日:2018-02-06

    申请号:CN201710886300.8

    申请日:2017-09-27

    Abstract: 本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。

    面向生物基因测序计算任务的多队列回填作业调度方法

    公开(公告)号:CN105718312B

    公开(公告)日:2018-10-30

    申请号:CN201610037738.4

    申请日:2016-01-20

    Abstract: 本发明公开了一种面向生物基因测序计算任务的多队列回填作业调度方法。针对生物基因测序计算任务的作业负载特性,对现有高性能计算系统作业调度技术的缺点与不足进行了改进,提出一个多对列回填作业调度方法。该方法提供了基于内存资源优化的回填调度,结合内存资源的需求进行作业预约与作业回填,充分利用系统的空闲资源,减少作业等待。在此基础上,提供了多对列负载均衡调度,以多对列的方式进行回填调度并且提供了队列级别的负载均衡,并且提出了动态选择阈值策略与优化迁移策略。多队列回填作业调度能够很好的适用于生物信息高性能计算系统,获得良好的系统性能。

    一种基于云计算平台Spark的变异检测方法

    公开(公告)号:CN107665291B

    公开(公告)日:2020-05-22

    申请号:CN201710886300.8

    申请日:2017-09-27

    Abstract: 本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。

    一种稀疏矩阵向量乘法的异构并行计算方法

    公开(公告)号:CN105068787A

    公开(公告)日:2015-11-18

    申请号:CN201510540568.7

    申请日:2015-08-28

    Abstract: 本发明公开了一种稀疏矩阵向量乘法的异构并行计算方法,包括以下步骤:CPU读取存储于硬盘上的稀疏矩阵,确定稀疏矩阵可调参数K,并根据稀疏矩阵的可调参数K申请内存存储空间,包括ELL存储结构和CSR存储结构需要的存储空间;同时也申请ELL存储结构需要的GPU存储空间;将矩阵数据填充在CPU所申请的内存存储空间中生成混合存储结构;把内存中ELL存储结构中存储的数据复制到GPU存储空间中进行存储;最后,使用处理完成的存储结构进行稀疏矩阵向量乘法。本发明的计算方法可以使计算机在进行稀疏矩阵向量乘法计算任务时,同时利用CPU和GPU的计算能力,使CPU和GPU可以各自发挥最优的计算特性。

    一种基因序列比对的云计算加速方法

    公开(公告)号:CN107704728B

    公开(公告)日:2021-01-19

    申请号:CN201710880756.3

    申请日:2017-09-26

    Abstract: 本发明公开了一种基因序列比对的云计算加速方法,包括步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在诸如HDFS、Amazon、S3等分布式文件系统。本发明采用一种更简单的方式将比对工具运行在Spark框架上,不仅可以很好的利用Spark的机制进行多机计算的调度、数据的分发、监控和容错,而且相较于JNI的实现方式,开发门槛低,代码维护简单,性能更好,扩展性可接近线性。

    一种基因序列比对的云计算加速方法

    公开(公告)号:CN107704728A

    公开(公告)日:2018-02-16

    申请号:CN201710880756.3

    申请日:2017-09-26

    CPC classification number: G16B50/00 G16B30/00

    Abstract: 本发明公开了一种基因序列比对的云计算加速方法,包括步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在诸如HDFS、Amazon、S3等分布式文件系统。本发明采用一种更简单的方式将比对工具运行在Spark框架上,不仅可以很好的利用Spark的机制进行多机计算的调度、数据的分发、监控和容错,而且相较于JNI的实现方式,开发门槛低,代码维护简单,性能更好,扩展性可接近线性。

    一种结合负载均衡的工作流回填方法

    公开(公告)号:CN106874112B

    公开(公告)日:2020-04-28

    申请号:CN201710034431.3

    申请日:2017-01-17

    Abstract: 本发明公开了一种结合负载均衡的工作流回填方法,首先,依据计算任务特性,对任务进行划分,可分为CPU资源消耗型或者IO资源消耗型;然后对回填策略进行改进,使回填调度策略以工作流为单位;最后是回填任务的投递,即回填策略在任务选择上的改进,回填的任务选择需要匹配主机负载和任务特性,负载高主机选择IO消耗型,负载低则选择CPU消耗型。本发明方法能够有效地调度任务流,减少任务流的执行时间,同时还能够实现高性能计算系统众多节点的负载均衡。

    一种结合负载均衡的工作流回填方法

    公开(公告)号:CN106874112A

    公开(公告)日:2017-06-20

    申请号:CN201710034431.3

    申请日:2017-01-17

    Abstract: 本发明公开了一种结合负载均衡的工作流回填方法,首先,依据计算任务特性,对任务进行划分,可分为CPU资源消耗型或者IO资源消耗型;然后对回填策略进行改进,使回填调度策略以工作流为单位;最后是回填任务的投递,即回填策略在任务选择上的改进,回填的任务选择需要匹配主机负载和任务特性,负载高主机选择IO消耗型,负载低则选择CPU消耗型。本发明方法能够有效地调度任务流,减少任务流的执行时间,同时还能够实现高性能计算系统众多节点的负载均衡。

    面向生物基因测序计算任务的多队列回填作业调度方法

    公开(公告)号:CN105718312A

    公开(公告)日:2016-06-29

    申请号:CN201610037738.4

    申请日:2016-01-20

    CPC classification number: G06F9/4881 G06F9/5088

    Abstract: 本发明公开了一种面向生物基因测序计算任务的多队列回填作业调度方法。针对生物基因测序计算任务的作业负载特性,对现有高性能计算系统作业调度技术的缺点与不足进行了改进,提出一个多对列回填作业调度方法。该方法提供了基于内存资源优化的回填调度,结合内存资源的需求进行作业预约与作业回填,充分利用系统的空闲资源,减少作业等待。在此基础上,提供了多对列负载均衡调度,以多对列的方式进行回填调度并且提供了队列级别的负载均衡,并且提出了动态选择阈值策略与优化迁移策略。多队列回填作业调度能够很好的适用于生物信息高性能计算系统,获得良好的系统性能。

Patent Agency Ranking