一种基于TOS特征集成学习的拷贝数变异检测方法及系统

    公开(公告)号:CN116935960A

    公开(公告)日:2023-10-24

    申请号:CN202310805614.6

    申请日:2023-07-03

    Abstract: 本发明属于基因组序列测定的高通量测序技术领域,公开了一种基于TOS特征集成学习的拷贝数变异检测方法及系统,包括拷贝数变异五大特征提取、TOS特征构建及选择、集成学习算法分类、拷贝数变异边界精确识别和算法的性能评估,算法的性能评估采用判断算法在召回率、精确度及F1‑score等指标下的拷贝数变异检测能力。本发明首先选取反映拷贝数变异测序特点的五大基础特征及TOS特征,并利用假设检验方法对特征选择,提取可代表拷贝数变异分布的非同构特征并采用集成学习对是否拷贝数变异区域分类。此外,本发明利用滑动小窗口精确检测拷贝数变异边界,令检测结果更准确。

    基于梯度增强模糊规则模型的数据预测方法及系统

    公开(公告)号:CN117521817A

    公开(公告)日:2024-02-06

    申请号:CN202311458902.5

    申请日:2023-11-03

    Abstract: 本发明提供的基于梯度增强模糊规则模型的数据预测方法包括:获取特定区域的待预测设备的电力参数信息;将电力参数信息输入预训练的梯度增强模糊规则模型,得到特定区域待预测设备的电力能源消耗数据;预训练的梯度增强模糊规则模型是通过多个弱学习器累加得到的,多个弱学习器的训练集合电力数据集是由预训练电力数据集和前一个弱学习器的输出得到的;将多个弱学习器的预测结果进行累加,得到待预测设备的电力能源消耗数据。通过将多个弱学习器进行叠加,并利用之前弱学习器的输出不断修正训练集合电力数据集以得到预训练的梯度增强模糊规则模型,使得经预训练的梯度增强模糊规则模型预测的数据可以尽可能逼近实际值,提高了数据预测的准确度。

    一种基于相对质量孤立森林的拷贝数变异检测方法及系统

    公开(公告)号:CN118098346A

    公开(公告)日:2024-05-28

    申请号:CN202410294363.4

    申请日:2024-03-14

    Abstract: 本发明属于高通量测序技术领域,尤其涉及一种基于相对质量孤立森林的拷贝数变异检测方法及系统,包括测序数据预处理及RD信号获取、建立基于环形二元分割变化点检测的分段重组方法进行降噪处理、构建局部均值法处理局部噪声、构建基于相对质量得分的孤立森林算法并获取异常分数、对异常分数建立高斯分布,通过显著性水平确定拷贝数变异并指定变异类型和算法的性能评估,算法的性能评估采用判断算法在召回率、精确率及F1‑score等指标下的拷贝数变异检测能力。本发明解决了在低测序覆盖度、低肿瘤纯度场景下受测序噪声及拷贝数变异自身分布的不均衡性导致的拷贝数变异检测性能不高的问题。

    一种基于多组学数据的癌症分型信息处理方法

    公开(公告)号:CN110379460B

    公开(公告)日:2023-06-20

    申请号:CN201910517713.8

    申请日:2019-06-14

    Abstract: 本发明属于生物及医学基因技术领域,公开了一种基于多组学数据的癌症分型信息处理方法;首先对多组学数据的单碱基突变数据进行预处理,转化成三碱基突变模式;对预处理得到的三碱基突变矩阵进行非负矩阵分解,对于分解得到的特征矩阵进行k‑means聚类分析,采用轮廓系数选取最优的k,得到突变主导下的癌症样本的亚型标签。接着对剩余的组学数据进行预处理,借助iclusterplus工具进行集成聚类分析,并使用最小贝叶斯准则确定聚类模型,再一次对样本进行亚型的定义,接着采用自定义的算法融合两次分型结果,确定样本最终的癌症亚型标签。本发明的数据获取便捷,工具便于操作,结果的可靠性相对较高。

    一种染色体倍数异常检测方法及检测系统

    公开(公告)号:CN110428873A

    公开(公告)日:2019-11-08

    申请号:CN201910503326.9

    申请日:2019-06-11

    Abstract: 本发明属于医学染色体异常信息检测技术领域,公开了一种染色体倍数异常检测方法及检测系统,通过样本数据预处理后,得到样本的每条染色体reads值,使用t-test对样本进行检验,并估计空假设下统计量Ratio的期望值与标准差;在得到标准差与期望值之后,计算出Ratio值:计算出Ratio值后,对于不同类型的染色体,使用不同的参照组计算不同的z值;计算不同的z值后,利用决策树分类算法对于性染色体染色体进行检测。本发明选择参照组时,对参照组的选取按照检测的对象分别设置;本发明前期对数据进行大量的去重等预处理手段,以及决策树算法与随机森林算法使得检测结果更加准确。

    一种基于新一代测序数据的插入变异检测方法及系统

    公开(公告)号:CN110299185A

    公开(公告)日:2019-10-01

    申请号:CN201910381319.6

    申请日:2019-05-08

    Abstract: 本发明属于基因组测序技术领域,公开了一种基于新一代测序数据的插入变异检测方法;在确定变异发生位点时,有插入变异发生的区域一定会产生分裂读段,针对新序列插入、序列串联倍增、序列散在倍增等插入变异类型及缺失变异、倒置变异的分裂读段分布不同的特性;在确定插入变异发生种类及位点之后,通过利用部分匹配、完全匹配、以及未匹配的读段信息来构造一条虚拟参考序列,与原始参考序列比较得到插入序列的相关信息;利用拷贝数状态信息获得变异基因型。本发明能够解决插入变异位点判定不准确的问题;能够解决SR方法检测插入变异造成遗漏的问题;能够解决现有技术遇到重复序列可能会检测出错的问题。

    一种基于神经网络的核苷酸单位点变异检测方法

    公开(公告)号:CN110211632A

    公开(公告)日:2019-09-06

    申请号:CN201910371355.4

    申请日:2019-05-06

    Abstract: 本发明属于神经网络技术领域,公开了一种基于神经网络的核苷酸单位点变异检测方法;利用bwa比对软件对原始的fastq数据做比对,生成sam文件;再通过samtools将sam文件转换为其二进制形式的bam文件,在对bam文件进行排序以及转化为pileup格式文件完成原始数据的预处理;对正常细胞和肿瘤细胞提取包括测序深度、碱基转变的个数、碱基转变的频率以及碱基的38个特征值;针对特征值的数据,进行训练然后保存一个训练模型;通过训练模型的框架对样本进行检测得出SNV。本发明能够解决Fasd-somatic技术检测SNV变异位置不精确的问题;解决somatic snipper方法检测SNV变异造成遗漏的问题;解决现有技术遇到低肿瘤纯度下检测的准确率太低的问题。

    一种基于状态转移模型的新一代测序拷贝数变异仿真方法

    公开(公告)号:CN106682450B

    公开(公告)日:2019-05-07

    申请号:CN201611040978.6

    申请日:2016-11-24

    Abstract: 本发明公开了一种基于状态转移模型的新一代测序拷贝数变异仿真方法,采用拷贝数变异仿真算法;在仿真算法中增加状态转移模型,在变异仿真之后增加序列生成部分;拷贝数变异包括生殖细胞拷贝数变异和体细胞拷贝数变异;基于Illumina测序平台的Profile文件的生成;将fq文件的reads说明部分的ASCii码转换成碱基的quality value,相应方法是对应字符的ASCii码减去33;将变异仿真后的fa文件和生成的profile文件作为输入,设置read length,利用多线程和序列生成算法,生成并输出最终的fq文件。本发明使得生物变异的仿真更加具有可信度,功能完整,数据真实。

    基于二维统计模型的体细胞拷贝数变异显著性检测方法

    公开(公告)号:CN103778350A

    公开(公告)日:2014-05-07

    申请号:CN201410010002.9

    申请日:2014-01-09

    Abstract: 一种基于二维统计模型的体细胞拷贝数变异显著性检测方法,其包括,S1采集SCNA数据,并对SCNA数据进行预处理;S2计算SCNA邻近位点间的关系系数,将染色体分割成多个相对独立的SCNA结构单元;S3计算每个SCNA结构单元的统计量,并在全基因组上实施二维随机置换;S4针对SCNA结构单元的不同长度L,通过计算置换样本中任意长度为L的SCNA模式的统计量,在二维空间中构造基于L的零分布DL;将相应SCNA的统计量与DL进行对比,将所述SCNA的统计量与所述DL记为p值;若p值小于设定的阈值,则相应的SCNA显著,具有潜在的癌症功能。

Patent Agency Ranking