-
公开(公告)号:CN107665291B
公开(公告)日:2020-05-22
申请号:CN201710886300.8
申请日:2017-09-27
Applicant: 华南理工大学
IPC: G16B20/50
Abstract: 本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。
-
公开(公告)号:CN107665291A
公开(公告)日:2018-02-06
申请号:CN201710886300.8
申请日:2017-09-27
Applicant: 华南理工大学
IPC: G06F19/22
Abstract: 本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。
-
公开(公告)号:CN105868298A
公开(公告)日:2016-08-17
申请号:CN201610172881.4
申请日:2016-03-23
Applicant: 华南理工大学
CPC classification number: G06F16/9535 , G06K9/6276 , G06K9/6282 , G06Q30/0255
Abstract: 本发明公开了一种基于二叉决策树的手机游戏推荐方法,主要通过训练二叉决策树分类模型来确定用户是否对特定的待推荐手机游戏趣,从而将特征权重对推荐的影响从主观赋值转变为学习模型自动预测。本发明的特色在于使用二叉决策树来确定游戏推荐场景中的特征选择和权重衡量问题,并给出相应的推荐模型。使用本发明可以较好地保证推荐结果和用户偏好的准确性,同时对推荐结果无需做额外二次挑选的前提下又可以保证推荐结果的多样性。
-
公开(公告)号:CN110349635B
公开(公告)日:2021-06-11
申请号:CN201910499892.7
申请日:2019-06-11
Applicant: 华南理工大学
Abstract: 本发明公开了一种基因测序数据质量分数的并行压缩方法,包括步骤:1)对FASTQ格式文件数据进行划分,获得质量分数部分的数据;2)以行为单位,计算每一行质量分数的得分,并根据得分对这一行数据进行分类;3)当一个分类中质量分数数量达到阈值,或者这个分类无更多的质量分数加入时,将这个分类中的质量分数作为一个数据块放入计算缓冲队列中,并清空这个分类中的数据;4)由一个空闲的计算单元取走计算缓冲队列中的一个数据块,进行变换,使用向量化优化的ZPAQ进行编码,完成后放入输出缓冲队列中;5)由输出处理单元处理的压缩数据输出,直到完成所有压缩数据的输出,然后加入维护信息。本发明的技术方案具有性能高、扩展性强的特点。
-
公开(公告)号:CN110349635A
公开(公告)日:2019-10-18
申请号:CN201910499892.7
申请日:2019-06-11
Applicant: 华南理工大学
Abstract: 本发明公开了一种基因测序数据质量分数的并行压缩方法,包括步骤:1)对FASTQ格式文件数据进行划分,获得质量分数部分的数据;2)以行为单位,计算每一行质量分数的得分,并根据得分对这一行数据进行分类;3)当一个分类中质量分数数量达到阈值,或者这个分类无更多的质量分数加入时,将这个分类中的质量分数作为一个数据块放入计算缓冲队列中,并清空这个分类中的数据;4)由一个空闲的计算单元取走计算缓冲队列中的一个数据块,进行变换,使用向量化优化的ZPAQ进行编码,完成后放入输出缓冲队列中;5)由输出处理单元处理的压缩数据输出,直到完成所有压缩数据的输出,然后加入维护信息。本发明的技术方案具有性能高、扩展性强的特点。
-
-
-
-