一种基于新一代测序数据的插入变异检测方法及系统

    公开(公告)号:CN110299185B

    公开(公告)日:2023-07-04

    申请号:CN201910381319.6

    申请日:2019-05-08

    Abstract: 本发明属于基因组测序技术领域,公开了一种基于新一代测序数据的插入变异检测方法;在确定变异发生位点时,有插入变异发生的区域一定会产生分裂读段,针对新序列插入、序列串联倍增、序列散在倍增等插入变异类型及缺失变异、倒置变异的分裂读段分布不同的特性;在确定插入变异发生种类及位点之后,通过利用部分匹配、完全匹配、以及未匹配的读段信息来构造一条虚拟参考序列,与原始参考序列比较得到插入序列的相关信息;利用拷贝数状态信息获得变异基因型。本发明能够解决插入变异位点判定不准确的问题;能够解决SR方法检测插入变异造成遗漏的问题;能够解决现有技术遇到重复序列可能会检测出错的问题。

    基于多通道随机森林的小样本临床数据分类方法及系统

    公开(公告)号:CN110400610A

    公开(公告)日:2019-11-01

    申请号:CN201910533574.8

    申请日:2019-06-19

    Abstract: 本发明属于临床数据分析技术领域,公开了一种基于多通道随机森林的小样本临床数据分类方法(DASSMRF,Data Amplification and Semi-Supervised Multi-channel Random Forest)及系统。通过数据扩增方法对小样本临床数据进行数据扩增以扩大临床数据的容量,生成大量无标签的扩增数据;结合半监督学习思想,通过多通道随机森林集成为扩增数据标记可信度高的类别标签;用带标签的扩增数据和临床数据一道组成训练数据集,训练分类器,提升其对临床样本的分类性能。

    一种基于新一代测序数据的插入变异检测方法及系统

    公开(公告)号:CN110299185A

    公开(公告)日:2019-10-01

    申请号:CN201910381319.6

    申请日:2019-05-08

    Abstract: 本发明属于基因组测序技术领域,公开了一种基于新一代测序数据的插入变异检测方法;在确定变异发生位点时,有插入变异发生的区域一定会产生分裂读段,针对新序列插入、序列串联倍增、序列散在倍增等插入变异类型及缺失变异、倒置变异的分裂读段分布不同的特性;在确定插入变异发生种类及位点之后,通过利用部分匹配、完全匹配、以及未匹配的读段信息来构造一条虚拟参考序列,与原始参考序列比较得到插入序列的相关信息;利用拷贝数状态信息获得变异基因型。本发明能够解决插入变异位点判定不准确的问题;能够解决SR方法检测插入变异造成遗漏的问题;能够解决现有技术遇到重复序列可能会检测出错的问题。

    一种基于神经网络的核苷酸单位点变异检测方法

    公开(公告)号:CN110211632A

    公开(公告)日:2019-09-06

    申请号:CN201910371355.4

    申请日:2019-05-06

    Abstract: 本发明属于神经网络技术领域,公开了一种基于神经网络的核苷酸单位点变异检测方法;利用bwa比对软件对原始的fastq数据做比对,生成sam文件;再通过samtools将sam文件转换为其二进制形式的bam文件,在对bam文件进行排序以及转化为pileup格式文件完成原始数据的预处理;对正常细胞和肿瘤细胞提取包括测序深度、碱基转变的个数、碱基转变的频率以及碱基的38个特征值;针对特征值的数据,进行训练然后保存一个训练模型;通过训练模型的框架对样本进行检测得出SNV。本发明能够解决Fasd-somatic技术检测SNV变异位置不精确的问题;解决somatic snipper方法检测SNV变异造成遗漏的问题;解决现有技术遇到低肿瘤纯度下检测的准确率太低的问题。

    一种基于子空间学习的亚群特异性驱动基因检测方法

    公开(公告)号:CN110189795B

    公开(公告)日:2023-06-23

    申请号:CN201910366338.1

    申请日:2019-05-05

    Inventor: 习佳宁 袁细国

    Abstract: 本发明属于癌症变异基因检测技术领域,公开了一种基于子空间学习的亚群特异性驱动基因检测方法,将变异基因在癌症样本中的变异数据作为输入对象,通过子空间学习算法得到各基因的低维向量输出,各基因低维向量在子空间不同维度的坐标值大小可反映基因的亚群特异性;通过离群点检测分析基因的低维向量,将子空间中离群向量所对应的基因识别为亚群特异性驱动基因。本发明可在驱动基因的亚群从属关系未知情况时,对驱动基因的亚群从属关系进行有效推断;针对多亚群共存驱动基因漏检问题,通过子空间多峰分布的亚群特异性离群点判定方法,强化驱动基因在表征预测中的离群显著性,提升亚群特异性驱动基因的检测性能。

    基于多通道随机森林的小样本临床数据分类方法及系统

    公开(公告)号:CN110400610B

    公开(公告)日:2022-04-15

    申请号:CN201910533574.8

    申请日:2019-06-19

    Abstract: 本发明属于临床数据分析技术领域,公开了一种基于多通道随机森林的小样本临床数据分类方法(DASSMRF,Data Amplification and Semi‑Supervised Multi‑channel Random Forest)及系统。通过数据扩增方法对小样本临床数据进行数据扩增以扩大临床数据的容量,生成大量无标签的扩增数据;结合半监督学习思想,通过多通道随机森林集成为扩增数据标记可信度高的类别标签;用带标签的扩增数据和临床数据一道组成训练数据集,训练分类器,提升其对临床样本的分类性能。

    基于脑电信号进行情感分析的层级Bagging方法

    公开(公告)号:CN110414548A

    公开(公告)日:2019-11-05

    申请号:CN201910492885.4

    申请日:2019-06-06

    Abstract: 本发明属于脑电信号处理技术领域,公开了一种基于脑电信号进行情感分析的层级Bagging方法,脑电样本数据预处理、特征提取和特征选择、训练集有放回抽样、不同基分类算法用于多个数据子集的训练、多分类器投票获得分类结果。与传统Bagging算法中单个训练子集对应单个分类算法不同的是,层级Bagging将多个训练子集对应单个分类算法,减小了单个性能良好的分类算法由于不适应个别数据导致被删去的风险。本发明可以有效提高脑电信号分类的准确率,解决单个分类算法稳定性不强的问题,也可推广至其他相似类型的数据处理。本发明对情绪监测、风险预测、有监督学习的分类都有重要意义。

    基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统

    公开(公告)号:CN110289047A

    公开(公告)日:2019-09-27

    申请号:CN201910407581.3

    申请日:2019-05-15

    Abstract: 本发明属于基因组测序技术领域,公开了一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统;利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件;使用拷贝数变异检测方法对预处理好的数据样本进行实验,产生检测结果;根据拷贝数检测结果,提取出其中变异为Loss类型的结果,使用聚类方法分析各个Loss情况的倍体,倍体情况记录作为下一步预测肿瘤纯度的输入;采用无监督的机器学习方法进行肿瘤纯度的预测;利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值,计算出癌细胞的readcounts值,根据样本倍体计算出绝对拷贝数。本发明通过仿真数据的测试,可以发现本发明的测试结果相对于其它方法来说更为准确。

    一种基于子空间学习的亚群特异性驱动基因检测方法

    公开(公告)号:CN110189795A

    公开(公告)日:2019-08-30

    申请号:CN201910366338.1

    申请日:2019-05-05

    Inventor: 习佳宁 袁细国

    Abstract: 本发明属于癌症变异基因检测技术领域,公开了一种基于子空间学习的亚群特异性驱动基因检测方法,将变异基因在癌症样本中的变异数据作为输入对象,通过子空间学习算法得到各基因的低维向量输出,各基因低维向量在子空间不同维度的坐标值大小可反映基因的亚群特异性;通过离群点检测分析基因的低维向量,将子空间中离群向量所对应的基因识别为亚群特异性驱动基因。本发明可在驱动基因的亚群从属关系未知情况时,对驱动基因的亚群从属关系进行有效推断;针对多亚群共存驱动基因漏检问题,通过子空间多峰分布的亚群特异性离群点判定方法,强化驱动基因在表征预测中的离群显著性,提升亚群特异性驱动基因的检测性能。

    基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统

    公开(公告)号:CN110289047B

    公开(公告)日:2021-06-01

    申请号:CN201910407581.3

    申请日:2019-05-15

    Abstract: 本发明属于基因组测序技术领域,公开了一种基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统;利用bwa和samtools生信软件对原始fastq测序数列生成样本的readepth文件;使用拷贝数变异检测方法对预处理好的数据样本进行实验,产生检测结果;根据拷贝数检测结果,提取出其中变异为Loss类型的结果,使用聚类方法分析各个Loss情况的倍体,倍体情况记录作为下一步预测肿瘤纯度的输入;采用无监督的机器学习方法进行肿瘤纯度的预测;利用预测到的肿瘤纯度和拷贝数检测得到的样本readcounts值,计算出癌细胞的readcounts值,根据样本倍体计算出绝对拷贝数。本发明通过仿真数据的测试,可以发现本发明的测试结果相对于其它方法来说更为准确。

Patent Agency Ranking