一种基于三代测序数据和泛基因组的结构变异检测算法、系统、设备及介质

    公开(公告)号:CN120048341A

    公开(公告)日:2025-05-27

    申请号:CN202510185062.2

    申请日:2025-02-19

    Abstract: 本发明公开了一种基于三代测序数据和泛基因组的结构变异检测算法、系统、设备及介质,检测算法包括:检测泛基因组图中的snarl结构,从gam比对文件中提取每个snarl路径对应的reads;计算每个snarl路径中所有边的平均覆盖度大小,和覆盖度为0的边的数目;统计每个snarl中可能包含的路径、路径方向、比对到路径上的reads信息以及路径覆盖度信息;根据reads信息和路径覆盖度信息,筛选最优路径和第二路径;将优化后的最优路径与第二路径,均和参考路径进行比较,得出变异信息。本发明将路径对应的reads信息、路径的碱基覆盖度信息和路径的边的覆盖度信息融合起来,作为潜在变异路径选择的依据,提高了三代测序数据检测的准确性。

    一种模型非依赖的基因组结构变异检测系统及方法

    公开(公告)号:CN111583996B

    公开(公告)日:2023-03-28

    申请号:CN202010313833.9

    申请日:2020-04-20

    Abstract: 本发明提供一种模型非依赖的基因组结构变异检测系统及方法,以模型非依赖结构变异检测理论为核心,通过变异信号提取模块、频繁最大子图挖掘模块和分类模块,实现了不依靠任何变异模型的结构变异检测。频繁变异模式挖掘模块正是抓住了结构变异遗留在基因组上的特征,仅仅通过挖掘大量正常数据中的异常点来判断潜在结构变异区域;其次,根据不同变异类型扰动基因组的方式不同,进而导致变异信号的不同排列顺序,基于此结合具有记忆功能的深度学习模型对不同变异类型进行分类。本发明不依靠任何变异模型,因此变异的检测灵敏度和错误率大大降低,并且适用于复杂变异类型的检测,不需要建立额外的结构变异模型。

    多组学融合剪接位点的识别方法及系统、设备和存储介质

    公开(公告)号:CN113178227B

    公开(公告)日:2022-12-09

    申请号:CN202110485740.9

    申请日:2021-04-30

    Inventor: 杨晓飞 魏宏 叶凯

    Abstract: 组学融合剪接位点的识别方法及系统、设备和存储介质,对待测试样本进行高通量测序,进行质量控制,获得转录组数据高质量的读段文件、组蛋白数据高质量的读段文件和甲基化数据高质量的读段文件;将转录组数据的高质量的读段文件和参考基因组文件进行比对,组装后与标准注释文件对比,得到剪接位点的位置;然后对基因组数据、组蛋白数据以及甲基化数据进行提取并进行编码,得到多组学数据集;将多组学数据集进行分割,得到训练集、验证集和测试集;将训练集放入到卷积神经网络中,加入神经网络注意力机制后对测试集进行识别,得到网络识别结果。本发明能够提高可变剪接位点的识别的准确率并且可以用来预测新的可变剪接位点。

    一种基于二代测序数据的反转相关复杂变异检测方法

    公开(公告)号:CN111261225B

    公开(公告)日:2022-08-16

    申请号:CN202010081979.5

    申请日:2020-02-06

    Abstract: 一种基于二代测序数据的反转相关复杂变异检测方法,在滑动窗口内,根据给定的bam文件与选定的参考基因组进行比对,得到Read Pair信号,并以Read Pair信号对不能完全匹配的Read进行Split Read信号分析,得到对应的断点匹配情况;建立Split Read信号理论模型;将断点匹配情况经过建立的模型,如果符合某个模型时,记录下相应的变异类型和位置,再判断是否是可信的变异。本发明根据理论信号建立了变异模型信号,因此可以很准确地提出变异类型;本发明使用Split Read信号,以模式增长算法寻找字符串的最大最小唯一子串,所以能够很精确地指出变异的位置信息。

    多组学融合剪接位点的识别方法及系统、设备和存储介质

    公开(公告)号:CN113178227A

    公开(公告)日:2021-07-27

    申请号:CN202110485740.9

    申请日:2021-04-30

    Inventor: 杨晓飞 魏宏 叶凯

    Abstract: 组学融合剪接位点的识别方法及系统、设备和存储介质,对待测试样本进行高通量测序,进行质量控制,获得转录组数据高质量的读段文件、组蛋白数据高质量的读段文件和甲基化数据高质量的读段文件;将转录组数据的高质量的读段文件和参考基因组文件进行比对,组装后与标准注释文件对比,得到剪接位点的位置;然后对基因组数据、组蛋白数据以及甲基化数据进行提取并进行编码,得到多组学数据集;将多组学数据集进行分割,得到训练集、验证集和测试集;将训练集放入到卷积神经网络中,加入神经网络注意力机制后对测试集进行识别,得到网络识别结果。本发明能够提高可变剪接位点的识别的准确率并且可以用来预测新的可变剪接位点。

    一种基于基因组测序的微卫星不稳定性检测系统及方法

    公开(公告)号:CN109637590B

    公开(公告)日:2020-06-19

    申请号:CN201811641480.4

    申请日:2018-12-29

    Abstract: 一种基于基因组测序的微卫星不稳定性检测系统及方法,微卫星检测位点选择:根据对某种肿瘤样本的测序数据,选择有效检测位点,计算有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准;根据有效检测位点对应的单个微卫星位点不稳定性的阈值以及某种肿瘤样本微卫星不稳定性的评价标准,对检测样本进行微卫星不稳定性检测。本发明不依赖对照样本,可以减少取样是给被检测者带来的痛苦;对照样本中含有被测试者的全部的遗传信息,本发明不使用对照样本可以减少对被测试者隐私泄露的可能性;不检测对照样本可以减少检测的成本。本发明操作方便,成本低,可信度高。

    一种基于二代测序数据的反转相关复杂变异检测方法

    公开(公告)号:CN111261225A

    公开(公告)日:2020-06-09

    申请号:CN202010081979.5

    申请日:2020-02-06

    Abstract: 一种基于二代测序数据的反转相关复杂变异检测方法,在滑动窗口内,根据给定的bam文件与选定的参考基因组进行比对,得到Read Pair信号,并以Read Pair信号对不能完全匹配的Read进行Split Read信号分析,得到对应的断点匹配情况;建立Split Read信号理论模型;将断点匹配情况经过建立的模型,如果符合某个模型时,记录下相应的变异类型和位置,再判断是否是可信的变异。本发明根据理论信号建立了变异模型信号,因此可以很准确地提出变异类型;本发明使用Split Read信号,以模式增长算法寻找字符串的最大最小唯一子串,所以能够很精确地指出变异的位置信息。

    基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质

    公开(公告)号:CN111210873A

    公开(公告)日:2020-05-29

    申请号:CN202010038141.8

    申请日:2020-01-14

    Abstract: 本发明公开了一种基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质。方法包括:对正常样本的外显子测序数据进行数据清理,然后对数据进行标准化处理,得到正常样本集数据矩阵;根据每个外显子区域在所有样本中的离散程度,将外显子区域划分成稳定与不稳定的区域;正常样本集数据矩阵在外显子稳定的区域中处理批次效应进而构建参考数据矩阵;使用PCA方法对参考数据矩阵进行处理,通过用主成分重构原始数据,将参考数据矩阵转换到其他空间并得到新的参数;将测试数据变换到参考数据矩阵使用PCA转换后的空间中,然后使用Z-score方法得到测试数据与参考数据矩阵在当前空间中的差异程度,完成对测试样本的拷贝数变异的检测。采用该方法可以降低成本,实现外显子测序数据拷贝数变异检测的准确性和有效性。

    一种基于序列模式挖掘算法的系统发生树构建方法

    公开(公告)号:CN109545283A

    公开(公告)日:2019-03-29

    申请号:CN201811408608.2

    申请日:2018-11-23

    Abstract: 一种基于序列模式挖掘算法的系统发生树构建方法,包括挖掘隐藏在序列集中能够用于衡量序列相似性的特异模式,得到初始模式集;过滤初始模式集中的非闭合频繁模式,得到更能够代表序列集的优化模式集;然后构造模式向量集,再计算数值向量之间的距离,进而构建用于生产系统发生树的距离矩阵。本发明采取序列模式挖掘算法来提取序列集中频繁出现的序列模式,然后利用过滤后的模式集将序列集转换为二进制或是赋有权重信息的模式向量集的形式计算距离矩阵,后而构建系统发生树。对大规模、低相似度的序列集,利用模式增长的策略可以挖掘序列集中更具代表性的模式,避免了提取对衡量序列相似性无用的冗余模式,优化了全局范围内序列之间相似性的衡量。

Patent Agency Ranking