-
公开(公告)号:CN107665291A
公开(公告)日:2018-02-06
申请号:CN201710886300.8
申请日:2017-09-27
Applicant: 华南理工大学
IPC: G06F19/22
Abstract: 本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。
-
公开(公告)号:CN105868298A
公开(公告)日:2016-08-17
申请号:CN201610172881.4
申请日:2016-03-23
Applicant: 华南理工大学
CPC classification number: G06F16/9535 , G06K9/6276 , G06K9/6282 , G06Q30/0255
Abstract: 本发明公开了一种基于二叉决策树的手机游戏推荐方法,主要通过训练二叉决策树分类模型来确定用户是否对特定的待推荐手机游戏趣,从而将特征权重对推荐的影响从主观赋值转变为学习模型自动预测。本发明的特色在于使用二叉决策树来确定游戏推荐场景中的特征选择和权重衡量问题,并给出相应的推荐模型。使用本发明可以较好地保证推荐结果和用户偏好的准确性,同时对推荐结果无需做额外二次挑选的前提下又可以保证推荐结果的多样性。
-
公开(公告)号:CN105718312B
公开(公告)日:2018-10-30
申请号:CN201610037738.4
申请日:2016-01-20
Applicant: 华南理工大学
Abstract: 本发明公开了一种面向生物基因测序计算任务的多队列回填作业调度方法。针对生物基因测序计算任务的作业负载特性,对现有高性能计算系统作业调度技术的缺点与不足进行了改进,提出一个多对列回填作业调度方法。该方法提供了基于内存资源优化的回填调度,结合内存资源的需求进行作业预约与作业回填,充分利用系统的空闲资源,减少作业等待。在此基础上,提供了多对列负载均衡调度,以多对列的方式进行回填调度并且提供了队列级别的负载均衡,并且提出了动态选择阈值策略与优化迁移策略。多队列回填作业调度能够很好的适用于生物信息高性能计算系统,获得良好的系统性能。
-
公开(公告)号:CN107665291B
公开(公告)日:2020-05-22
申请号:CN201710886300.8
申请日:2017-09-27
Applicant: 华南理工大学
IPC: G16B20/50
Abstract: 本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。
-
公开(公告)号:CN105068787A
公开(公告)日:2015-11-18
申请号:CN201510540568.7
申请日:2015-08-28
Applicant: 华南理工大学
Abstract: 本发明公开了一种稀疏矩阵向量乘法的异构并行计算方法,包括以下步骤:CPU读取存储于硬盘上的稀疏矩阵,确定稀疏矩阵可调参数K,并根据稀疏矩阵的可调参数K申请内存存储空间,包括ELL存储结构和CSR存储结构需要的存储空间;同时也申请ELL存储结构需要的GPU存储空间;将矩阵数据填充在CPU所申请的内存存储空间中生成混合存储结构;把内存中ELL存储结构中存储的数据复制到GPU存储空间中进行存储;最后,使用处理完成的存储结构进行稀疏矩阵向量乘法。本发明的计算方法可以使计算机在进行稀疏矩阵向量乘法计算任务时,同时利用CPU和GPU的计算能力,使CPU和GPU可以各自发挥最优的计算特性。
-
公开(公告)号:CN107704728B
公开(公告)日:2021-01-19
申请号:CN201710880756.3
申请日:2017-09-26
Applicant: 华南理工大学
IPC: G16B30/10
Abstract: 本发明公开了一种基因序列比对的云计算加速方法,包括步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在诸如HDFS、Amazon、S3等分布式文件系统。本发明采用一种更简单的方式将比对工具运行在Spark框架上,不仅可以很好的利用Spark的机制进行多机计算的调度、数据的分发、监控和容错,而且相较于JNI的实现方式,开发门槛低,代码维护简单,性能更好,扩展性可接近线性。
-
公开(公告)号:CN107704728A
公开(公告)日:2018-02-16
申请号:CN201710880756.3
申请日:2017-09-26
Applicant: 华南理工大学
Abstract: 本发明公开了一种基因序列比对的云计算加速方法,包括步骤:1)对基因测序仪的下机数据文件Fastq进行预处理,以保证数据分发时数据的完整性;2)通过Spark对修改后的基因测序数据完成多节点分发;3)对每个节点所获得的修改后的基因数据,恢复其原有Fastq文件格式;4)每个节点通过Spark中的pipe算子执行基因序列比对程序脚本,运行结果存储在Spark的弹性分布式数据集RDD中;5)运行结果保存在诸如HDFS、Amazon、S3等分布式文件系统。本发明采用一种更简单的方式将比对工具运行在Spark框架上,不仅可以很好的利用Spark的机制进行多机计算的调度、数据的分发、监控和容错,而且相较于JNI的实现方式,开发门槛低,代码维护简单,性能更好,扩展性可接近线性。
-
公开(公告)号:CN106874112B
公开(公告)日:2020-04-28
申请号:CN201710034431.3
申请日:2017-01-17
Applicant: 华南理工大学
IPC: G06F9/50
Abstract: 本发明公开了一种结合负载均衡的工作流回填方法,首先,依据计算任务特性,对任务进行划分,可分为CPU资源消耗型或者IO资源消耗型;然后对回填策略进行改进,使回填调度策略以工作流为单位;最后是回填任务的投递,即回填策略在任务选择上的改进,回填的任务选择需要匹配主机负载和任务特性,负载高主机选择IO消耗型,负载低则选择CPU消耗型。本发明方法能够有效地调度任务流,减少任务流的执行时间,同时还能够实现高性能计算系统众多节点的负载均衡。
-
公开(公告)号:CN106874112A
公开(公告)日:2017-06-20
申请号:CN201710034431.3
申请日:2017-01-17
Applicant: 华南理工大学
IPC: G06F9/50
Abstract: 本发明公开了一种结合负载均衡的工作流回填方法,首先,依据计算任务特性,对任务进行划分,可分为CPU资源消耗型或者IO资源消耗型;然后对回填策略进行改进,使回填调度策略以工作流为单位;最后是回填任务的投递,即回填策略在任务选择上的改进,回填的任务选择需要匹配主机负载和任务特性,负载高主机选择IO消耗型,负载低则选择CPU消耗型。本发明方法能够有效地调度任务流,减少任务流的执行时间,同时还能够实现高性能计算系统众多节点的负载均衡。
-
公开(公告)号:CN105718312A
公开(公告)日:2016-06-29
申请号:CN201610037738.4
申请日:2016-01-20
Applicant: 华南理工大学
CPC classification number: G06F9/4881 , G06F9/5088
Abstract: 本发明公开了一种面向生物基因测序计算任务的多队列回填作业调度方法。针对生物基因测序计算任务的作业负载特性,对现有高性能计算系统作业调度技术的缺点与不足进行了改进,提出一个多对列回填作业调度方法。该方法提供了基于内存资源优化的回填调度,结合内存资源的需求进行作业预约与作业回填,充分利用系统的空闲资源,减少作业等待。在此基础上,提供了多对列负载均衡调度,以多对列的方式进行回填调度并且提供了队列级别的负载均衡,并且提出了动态选择阈值策略与优化迁移策略。多队列回填作业调度能够很好的适用于生物信息高性能计算系统,获得良好的系统性能。
-
-
-
-
-
-
-
-
-