一种基于二代测序技术的宏基因组数据分析方法

    公开(公告)号:CN112071366B

    公开(公告)日:2024-02-27

    申请号:CN202011089931.5

    申请日:2020-10-13

    Applicant: 南开大学

    Inventor: 刘健 田妹 陈娇

    Abstract: 本发明公开了一种基于二代测序技术的宏基因组数据分析方法,包括以下步骤:1)对原始测序数据进行质量控制,得到clean reads;2)对质量控制后的clean reads进行物种注释;3)基于物种丰度矩阵对样本多样性进行统计分析;4)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;5)对clean reads拼接组装得到contigs序列;6)对拼接组装得到的contigs分箱,得到bins;7)对分箱后的bins进行基因注释;8)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;9)基于基因注释结果,对序列进行功能及物种注释;提供了从宏基因组二代测序数据处理到物种组成分析、基因组成分析与功能注释的全部流程,为研究人员提供准确的分析结果、全面解析宏基因组学问题。

    跨语言平台的空间转录组数据转换方法及系统

    公开(公告)号:CN115206439A

    公开(公告)日:2022-10-18

    申请号:CN202210550264.9

    申请日:2022-05-20

    Applicant: 南开大学

    Inventor: 刘健 阮志涵 陈娇

    Abstract: 本发明公开了跨语言平台的空间转录组数据转换方法及系统,对第一语言平台的空间转录组数据、单细胞转录组参考数据或空间转录组分析工具产生的中间结果,采用映射文件进行读取和存储;在第二语言平台上,读取存储的结果,继续运行;其中,所述采用映射文件进行读取和存储;具体包括:初始化映射文件;当第一语言平台为R语言平台;则在R语言平台上,实现映射文件与R语言中数据结构的相互转换操作;当第一语言平台为Python语言平台;则在Python平台上,实现映射文件与Python中数据结构的相互转换操作。减少存储空间的消耗,和提供兼容现有数据结构的读写策略,让工作流的构建更加简单,从而发挥不同平台上分析工具的优势。

    真菌基因组测序数据自动分析方法及系统

    公开(公告)号:CN113035277A

    公开(公告)日:2021-06-25

    申请号:CN202110271328.7

    申请日:2021-03-12

    Applicant: 南开大学

    Inventor: 刘健 孙嘉良 陈娇

    Abstract: 本公开提供了一种真菌基因组测序数据自动分析方法及系统,包括:获取真菌基因组测序数据,判断测序数据类型;根据测序数据的类型分别进行相应预处理;将预处理后的测序数据进行组装,得到组装后的contigs;基于基因组序列对比对contigs的相似参考基因组进行初步筛选,获得候选参考基因组;利用MinHash数据结构从候选参考基因组中估算所述contigs的相似参考基因组,实现真菌基因组鉴定;并利用获得的相似参考基因组对所述contigs进行下游分析;实现真菌基因组测序数据的自动分析;所述方案基于序列比对和MinHash数据结构对真菌全基因组进行鉴定,可以在实现对真菌种类进行鉴定的同时,找到与真菌同源性最高的参考基因组,从而便于下游分析。

    一种病毒测序序列的自动化分析方法及系统

    公开(公告)号:CN112863599A

    公开(公告)日:2021-05-28

    申请号:CN202110271331.9

    申请日:2021-03-12

    Applicant: 南开大学

    Inventor: 刘健 孙嘉良 陈娇

    Abstract: 本发明公开一种病毒测序序列的自动化分析方法及系统,包括:对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。针对大量增长的病毒测序数据量以及硬盘空间被大量占用的问题,本发明引入深度学习构建鉴定模型,在实现病毒类型鉴定的同时,提供病毒注释功能。

    联合病理表型特征的DNA甲基化水平谱预测方法及系统

    公开(公告)号:CN116246702A

    公开(公告)日:2023-06-09

    申请号:CN202310279340.1

    申请日:2023-03-21

    Applicant: 南开大学

    Inventor: 刘健 闫朝阳 陈娇

    Abstract: 本发明属于计算机技术领域,提供了一种联合病理表型特征的DNA甲基化水平谱预测方法及系统。该训练方法包括,根据数字病理切片数据,得到数字病理切片数据的肿瘤区域细胞核特征谱;根据患者的DNA甲基化原始测序数据,得到所有CpG位点甲基化水平矩阵;基于所有CpG位点甲基化水平矩阵和患者临床信息,确定癌症组织样本、正常组织样本以及癌症样本患者的临床诊断分期,进行差异甲基化CpG位点分析,得到肿瘤差异CpG位点甲基化水平谱和肿瘤分期差异CpG位点甲基化水平谱;以数字病理切片数据的肿瘤区域细胞核特征谱为输入,以该肿瘤差异CpG位点甲基化水平谱和该肿瘤分期差异CpG位点甲基化水平谱为输出,训练生成式模型。

    一种病毒测序序列的自动化分析方法及系统

    公开(公告)号:CN112863599B

    公开(公告)日:2022-10-14

    申请号:CN202110271331.9

    申请日:2021-03-12

    Applicant: 南开大学

    Inventor: 刘健 孙嘉良 陈娇

    Abstract: 本发明公开一种病毒测序序列的自动化分析方法及系统,包括:对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。针对大量增长的病毒测序数据量以及硬盘空间被大量占用的问题,本发明引入深度学习构建鉴定模型,在实现病毒类型鉴定的同时,提供病毒注释功能。

    基于测序数据的自动化血清型分析鉴定方法及系统

    公开(公告)号:CN114944197A

    公开(公告)日:2022-08-26

    申请号:CN202210540274.4

    申请日:2022-05-18

    Applicant: 南开大学

    Inventor: 刘健 孙嘉良 陈娇

    Abstract: 本申请提供一种基于测序数据的自动化血清型分析鉴定方法及系统,涉及基因测序数据分析技术领域,该方法包括:获取微生物基因组测序数据;将微生物基因组测序数据与关键等位基因数据库中的各关键等位基因进行比对,记录相似度大于预设阈值的关键等位基因和相应的比对评分;根据关键等位基因和相应的比对评分,确定微生物基因组测序数据所属的生物体;使用生物体的关键等位基因,确定序列型数据库中的序列型;使用序列型搜索血清型数据库,根据序列型和血清型之间的映射关系确定微生物基因组测序数据的血清型,以实现生物信息学分析鉴定的自动化,同时,能够针对不同平台产生的短读长和长读长测序数据进行定制的生物信息学分析,得到准确的分析结果。

    一种推断空间转录组内细胞亚群表达模式的方法及系统

    公开(公告)号:CN114944194A

    公开(公告)日:2022-08-26

    申请号:CN202210552099.0

    申请日:2022-05-20

    Applicant: 南开大学

    Inventor: 刘健 阮志涵 陈娇

    Abstract: 本发明公开了一种推断空间转录组内细胞亚群表达模式的方法及系统,涉及生物信息学空间转录组测序数据分析技术领域。本发明包括对scRNA‑seq数据集进行质量控制和预处理,得到细胞亚群表达矩阵;对细胞亚群表达矩阵进行标准化和归一化;构建变分神经网络,以学习scRNA‑seq数据集中每个细胞亚群的隐变量分布;在训练好的隐变量分布中进行采样,生成细胞亚群的表达模式;基于所述的细胞亚群的表达模式,对空间转录组组织切片中所有空间域的表达模式进行解卷积,得到细胞亚群在空间域中分布的最大后验估计。本发明使空间转录组中解卷积法所需单细胞参考数据在降低维度的同时,保留大量有关信息,提高解卷积方法的运行速度和准确性,使细胞在组织切片内的分布更加精确。

    一种基于JSON的基因本体映射系统及方法

    公开(公告)号:CN112187953B

    公开(公告)日:2022-05-03

    申请号:CN202011090831.4

    申请日:2020-10-13

    Applicant: 南开大学

    Inventor: 刘健 陈娇 陈萍

    Abstract: 本发明公开了一种基于JSON的基因本体映射系统及方法,包括基因本体的自动识别与数据抽取,从基因本体到JSON的映射机制及基于JSON的基因本体数据存储。具体步骤为:识别基因本体中的元数据信息,获取基因本体元数据中的细胞组分(cellular component)、分子功能(molecular function)、生物过程(biological process)三个类别以及父子关系(is_a)、部分关系(part_of)和调控关系(regulates)三种关系特征;建立基因本体元数据特征与JSON模型的一一对应映射规则,采用半监督学习方法完成元数据抽取;构建基于JSON的基因本体存储模型,完成从基因本体到JSON的数据迁移。本发明建立了基因本体与JSON的映射模型,解决了基因本体数据无法自动转换成JSON数据的难题,实现了基因本体在异构Web平台间的高效数据交互与充分共享。

    面向非标准化单细胞转录组测序数据的聚类方法及系统

    公开(公告)号:CN113257365A

    公开(公告)日:2021-08-13

    申请号:CN202110579883.6

    申请日:2021-05-26

    Applicant: 南开大学

    Inventor: 刘健 潘逸辰 陈娇

    Abstract: 本公开提供了一种面向非标准化单细胞转录组测序数据的聚类方法及系统,获取单细胞转录组测序数据;对获取的测序数据进行预处理;对预处理后的测序数据进行降维和聚类处理,得到聚类结果;将聚类结果根据Spearman相关性由小到大或由大到小排列,从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果;取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果;本公开在聚类融合阶段前,使得参与聚类融合的聚类结果中和其它聚类结果差距较大的异常聚类结果被剔除,从而提升了聚类融合的性能。

Patent Agency Ranking