一种基于单肿瘤样本拷贝数变异及缺失类型检测方法

    公开(公告)号:CN108154007B

    公开(公告)日:2021-06-29

    申请号:CN201711219637.X

    申请日:2017-11-28

    Abstract: 本发明属于拷贝数变异检测技术领域,公开了一种基于单肿瘤样本拷贝数变异及缺失类型检测方法、计算机,建立拷贝数扩展和拷贝数缺失幅度的动态平衡机制,迭代检测过程不断更正读段数的基准,更正统计检验分布的参数,客观检测显著性拷贝数变异以及弱显著的拷贝数变异;构建贝叶斯推理模型,正确检测拷贝数变异状态及拷贝数缺失类型。本发明正确检测拷贝数变异状态及拷贝数缺失类型,提供杂合子缺失与同源缺失的信息。本发明考虑比对质量及错误问题,合理地更正了全基因组GC含量;建立拷贝数扩展和拷贝数缺失幅度的动态平衡机制,以准确定位拷贝数的基准,准确检测拷贝数的变异状态。

    肿瘤纯度和平均倍体信息的预测方法、系统、存储介质

    公开(公告)号:CN112216344A

    公开(公告)日:2021-01-12

    申请号:CN202010924523.0

    申请日:2020-09-05

    Abstract: 本发明属于信息处理技术领域,公开了一种肿瘤纯度和平均倍体信息的推测方法、系统、存储介质。从fasta文件中读取标准序列,从bam文件中读入测序读段;利用BWA软件对read段比对对齐,使用SAMtools提取readcount的值;定义Bin的长度,除去无用的位置和去除噪音,求出每个不包含缺失位置的bin的readdepth值;使用Free‑C软件检测出拷贝数变异CNV区域;使用高斯混合模型确定loss区域的类型;确定迭代范围和步长;采用偏差最小策略来筛选最优的结果,确定此时的肿瘤纯度和平均倍体为最终的结果。本发明防止噪音在模型中的传播,得到较为可靠的结果;缩短了需要比对的数据量。

    一种基于单样本二代测序数据的拷贝数变异检测方法

    公开(公告)号:CN110808084A

    公开(公告)日:2020-02-18

    申请号:CN201910888717.7

    申请日:2019-09-19

    Inventor: 刘国军 袁细国

    Abstract: 本发明属于拷贝数变异(CNV)检测技术领域,公开了一种基于单样本二代测序数据的拷贝数变异检测方法;前期对数据进行预处理,过滤无效位置,GC含量校准,均衡数据,数据去噪,通过对数据进行分段处理,一部分数据用来拟合模型,另一部分数据用作被测数据,两部分数据交叉检测使变异在模型中检测出来,计算每个数据的概率值,选取一个显著性水平(α),利用假设检验的方法预测CNV。为了进一步验证方法的有效性,本发明对仿真数据样本进行检测,并和现有几种比较流行的方法进行比对,均表现出最好的性能。本发明检测高效、精确易于操作,并且检测速度较快;在测试低纯度数据得到准确率和召回率,均大大优于比对算法。

    一种基于高通量测序数据的微生物成分及浓度检测方法

    公开(公告)号:CN110517726A

    公开(公告)日:2019-11-29

    申请号:CN201910637328.7

    申请日:2019-07-15

    Abstract: 本发明属于基因序列数据检测技术领域,公开了一种基于高通量测序数据的微生物成分及浓度检测方法;量化碱基匹配或错配指示度、比对产生的gap与特定可变区指示度信息,建立基于NGS数据的读段-物种库的隶属关系体系,通过设置隶属分数阈值过滤掉潜在的干扰读段,为准确鉴定与估计样本中物种成分与浓度奠定基础;提取物种的覆盖率、比对的gap得分、可变区得分三个特征,使用机器学习方法进行样本中物种成分的鉴定,提高物种成分鉴定的准确度。本发明基于高通量测序数据,研究病变样本中的微生物成分与浓度,脱离了以微生物培养为核心的传统临床检测手段,实现了速度快、准确率高的临床致病菌检测。

    一种基于多组学数据的癌症分型信息处理方法

    公开(公告)号:CN110379460A

    公开(公告)日:2019-10-25

    申请号:CN201910517713.8

    申请日:2019-06-14

    Abstract: 本发明属于生物及医学基因技术领域,公开了一种基于多组学数据的癌症分型信息处理方法;首先对多组学数据的单碱基突变数据进行预处理,转化成三碱基突变模式;对预处理得到的三碱基突变矩阵进行非负矩阵分解,对于分解得到的特征矩阵进行k-means聚类分析,采用轮廓系数选取最优的k,得到突变主导下的癌症样本的亚型标签。接着对剩余的组学数据进行预处理,借助iclusterplus工具进行集成聚类分析,并使用最小贝叶斯准则确定聚类模型,再一次对样本进行亚型的定义,接着采用自定义的算法融合两次分型结果,确定样本最终的癌症亚型标签。本发明的数据获取便捷,工具便于操作,结果的可靠性相对较高。

    一种多样本拷贝数一致性变异区域的统计检验方法

    公开(公告)号:CN106682455B

    公开(公告)日:2019-03-26

    申请号:CN201611040980.3

    申请日:2016-11-24

    Abstract: 本发明公开了一种多样本拷贝数一致性变异区域的统计检验方法,基于拷贝数位点的关系系数构造拟合成曲线,计算每个位点的导数值,通过假设检验方法检测显著的导数值,从而确定拷贝数断点,建立拷贝数变异候选区域;通过在全基因组及样本两个方向上随机置换CNVs的方式构建假设检验零分布,检测多样本中拷贝数一致性变异区域。本发明避免直接使用测序读段数,能够容纳一定的测序错误及噪声,能够较准确地定位拷贝数变异区域的边界;基于全基因组及样本两个方向上随机置换CNVs,相比在单个方向上的置换,能够获得更真实的假设检验零分布;同时,有利于检测多样化的一致性变异CNVs,即多样本子类中存在的拷贝数一致性变异区域。

    基于单肿瘤样本拷贝数变异及缺失类型检测方法、计算机

    公开(公告)号:CN108154007A

    公开(公告)日:2018-06-12

    申请号:CN201711219637.X

    申请日:2017-11-28

    Abstract: 本发明属于拷贝数变异检测技术领域,公开了一种基于单肿瘤样本拷贝数变异及缺失类型检测方法、计算机,建立拷贝数扩展和拷贝数缺失幅度的动态平衡机制,迭代检测过程不断更正读段数的基准,更正统计检验分布的参数,客观检测显著性拷贝数变异以及弱显著的拷贝数变异;构建贝叶斯推理模型,正确检测拷贝数变异状态及拷贝数缺失类型。本发明正确检测拷贝数变异状态及拷贝数缺失类型,提供杂合子缺失与同源缺失的信息。本发明考虑比对质量及错误问题,合理地更正了全基因组GC含量;建立拷贝数扩展和拷贝数缺失幅度的动态平衡机制,以准确定位拷贝数的基准,准确检测拷贝数的变异状态。

    一种基于新一代测序数据的Indel检测方法

    公开(公告)号:CN107229839A

    公开(公告)日:2017-10-03

    申请号:CN201710377194.0

    申请日:2017-05-25

    Abstract: 本发明属于基因工程技术领域,公开了一种基于新一代测序数据的Indel检测方法,包括:利用bwa比对软件对原始的fastq数据做比对,生成sam文件;对二维点根据设定的阈值进行层次聚类;对hang.sam文件中的每一对reads,取出未正常比对的read;将read和截取下来的参考序列做比对即可确定变异类型,变异位置,以及变异大小;利用哈希结构来存储变异;对于某个变异,根据测序的覆盖度设置阈值。本发明通过聚类确定一个变异的范围,提取Split read与变异范围内的参考序列进行比对,使得比对的过程变得简单、范围更加精确;使用层次聚类,突破提前设置聚类个数的限制,操作简单。

    基于二维统计模型的体细胞拷贝数变异显著性检测方法

    公开(公告)号:CN103778350B

    公开(公告)日:2016-10-05

    申请号:CN201410010002.9

    申请日:2014-01-09

    Abstract: 一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其包括,S1采集SCNA数据,并对SCNA数据进行预处理;S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。

    结合独立分量分析和线性判别分析的癌症预测方法

    公开(公告)号:CN103793600A

    公开(公告)日:2014-05-14

    申请号:CN201410025412.0

    申请日:2014-01-16

    Abstract: 本发明涉及一种结合独立分量分析和线性判别分析的癌症预测方法,具体包括以下步骤:(1)用过滤技术预处理基因微阵列数据;(2)将预处理后的基因微阵列数据用独立分量分析技术进行变换,得到独立分量集;(3)应用线性判别分析技术处理独立分量集,将基因微阵列数据投影到具有最佳可分性的低维空间;(4)利用投影后的基因微阵列数据训练最近邻分类器,生成分类器模型。本发明在过滤处理后的基因微阵列数据上,利用独立分量分析挖掘基因微阵列数据的隐含信息,利用线性判别分析将基因微阵列数据投影到具有最佳可分性的低维空间,提高了癌症预测的精度,降低了癌症预测的时间。

Patent Agency Ranking