-
公开(公告)号:CN112187953A
公开(公告)日:2021-01-05
申请号:CN202011090831.4
申请日:2020-10-13
Applicant: 南开大学
Abstract: 本发明公开了一种基于JSON的基因本体映射系统及方法,包括基因本体的自动识别与数据抽取,从基因本体到JSON的映射机制及基于JSON的基因本体数据存储。具体步骤为:识别基因本体中的元数据信息,获取基因本体元数据中的细胞组分(cellular component)、分子功能(molecular function)、生物过程(biological process)三个类别以及父子关系(is_a)、部分关系(part_of)和调控关系(regulates)三种关系特征;建立基因本体元数据特征与JSON模型的一一对应映射规则,采用半监督学习方法完成元数据抽取;构建基于JSON的基因本体存储模型,完成从基因本体到JSON的数据迁移。本发明建立了基因本体与JSON的映射模型,解决了基因本体数据无法自动转换成JSON数据的难题,实现了基因本体在异构Web平台间的高效数据交互与充分共享。
-
公开(公告)号:CN112133368B
公开(公告)日:2024-02-23
申请号:CN202011090802.8
申请日:2020-10-13
Applicant: 南开大学
Abstract: 本发明公开了一种基于三代测序技术的宏基因组测序数据自动化分析方法,包括以下步骤:1)原始三代测序数据进行质量控制,得到clean reads;2)对clean reads拼接组装得到contigs序列;3)对contigs进行纠错优化;4)对优化后的contigs进行物种注释;5)基于物种丰度矩阵对样本多样性进行统计分析;6)基于物种丰度矩阵对样本组间差异显著物种进行统计分析;7)对优化后的contigs进行分箱;8)对分箱得到的bins进行基因注释;9)基于基因丰度矩阵对样本组间差异显著基因进行统计分析;10)基于基因注释结果,完成功能注释以及物种注释;本发明提供了从三代宏基因组测序数据处理到物种组成分析、基因组成分析与功能注释的分析方法,解决了宏基因组数据自动化精准分析难题。
-
公开(公告)号:CN116629123A
公开(公告)日:2023-08-22
申请号:CN202310601945.8
申请日:2023-05-25
Applicant: 南开大学
Abstract: 本发明属于单细胞多组学分析领域,提供了一种基于配对的单细胞多组学数据整合方法及系统,包括获取配对的单细胞多组学数据并进行预处理,得到不同组学的表达矩阵;基于不同组学的表达矩阵,利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合,得到整合后的单细胞多组学数据;在训练阶段基于不同组学的表达矩阵,利用不同的变分自编码器生成不同的细胞表达矩阵,该数据将有助于得到更好的预先训练好的孪生神经网络模型。本发明进行配对细胞联合嵌入时,消除了不同批次数据的批次效应问题,且保护了大量生物学信息,使得在低纬空间下的细胞类型分布更加明显,并保持了高水平的细胞对齐关系。
-
公开(公告)号:CN114944193A
公开(公告)日:2022-08-26
申请号:CN202210552093.3
申请日:2022-05-20
Applicant: 南开大学
Abstract: 本发明提出了整合单细胞转录组与空间转录组数据的分析方法及系统,包括:获取空间转录组数据,对空间转录组数据进行预处理;通过聚类方法将空间转录组数据中的采样点划分为若干个类别,每一个类别表示组织切片图像中一个组织区域;根据去污染后的空间基因表达数据,和空间聚类步骤的结果,筛选出在空间中具有差异性表达的基因;根据输入的单细胞数据进行分析,基于筛选出在空间中具有差异性表达的基因得出每个细胞亚群的表达模式;根据单细胞数据集中的细胞亚群表达模式,将所有spot的基因表达作为输入,获得细胞类型在各个组织区域中的分布。
-
公开(公告)号:CN113257365B
公开(公告)日:2022-07-12
申请号:CN202110579883.6
申请日:2021-05-26
Applicant: 南开大学
Abstract: 本公开提供了一种面向非标准化单细胞转录组测序数据的聚类方法及系统,获取单细胞转录组测序数据;对获取的测序数据进行预处理;对预处理后的测序数据进行降维和聚类处理,得到聚类结果;将聚类结果根据Spearman相关性由小到大或由大到小排列,从Spearman相关性变化最大的间隙处删除Spearman相关性小的聚类结果;取删除处理后的各个聚类结果的等价关系矩阵平均值进行层次聚类得到最终的聚类结果;本公开在聚类融合阶段前,使得参与聚类融合的聚类结果中和其它聚类结果差距较大的异常聚类结果被剔除,从而提升了聚类融合的性能。
-
公开(公告)号:CN112863603A
公开(公告)日:2021-05-28
申请号:CN202110271336.1
申请日:2021-03-12
Applicant: 南开大学
IPC: G16B30/10
Abstract: 本公开提供了一种细菌全基因组测序数据的自动化分析方法,包括:获取细菌基因组测序数据,判断测序数据类型;根据测序数据的类型分别进行相应预处理;根据用户选择的分析类型及预设的工具软件和软件参数,对预处理后的测序数据进行重测序分析和从头测序分析;实现细菌全基因组的鉴定和注释。所述方案提供了一种用户友好的自动化分析方法,对于没有专业生物信息学知识的研究人员和临床医生,自动化了生物信息学分析步骤,包括测序质量控制、重测序和从头组装、相似细菌参考基因组鉴定、细菌基因组注释,同时,能够针对不同平台产生的短读长和长读长测序数据进行定制的生物信息学分析,获得准确的分析结果。
-
公开(公告)号:CN114944197B
公开(公告)日:2024-06-25
申请号:CN202210540274.4
申请日:2022-05-18
Applicant: 南开大学
Abstract: 本申请提供一种基于测序数据的自动化血清型分析鉴定方法及系统,涉及基因测序数据分析技术领域,该方法包括:获取微生物基因组测序数据;将微生物基因组测序数据与关键等位基因数据库中的各关键等位基因进行比对,记录相似度大于预设阈值的关键等位基因和相应的比对评分;根据关键等位基因和相应的比对评分,确定微生物基因组测序数据所属的生物体;使用生物体的关键等位基因,确定序列型数据库中的序列型;使用序列型搜索血清型数据库,根据序列型和血清型之间的映射关系确定微生物基因组测序数据的血清型,以实现生物信息学分析鉴定的自动化,同时,能够针对不同平台产生的短读长和长读长测序数据进行定制的生物信息学分析,得到准确的分析结果。
-
公开(公告)号:CN118136095A
公开(公告)日:2024-06-04
申请号:CN202410274406.2
申请日:2024-03-11
Applicant: 南开大学
IPC: G16B15/00 , G06V10/80 , G06V10/774 , G16H70/60 , G16H30/00
Abstract: 本发明公开的基于表型引导的乳腺癌HER2分子状态预测方法及系统,包括:获取乳腺癌病理图像和乳腺癌HER2分子状态的形态表型特征;提取乳腺癌病理图像的实例特征;以乳腺癌病理图像的实例特征为键,以乳腺癌HER2分子状态的形态表型特征为查询条件,对乳腺癌病理图像的实例特征和乳腺癌HER2分子状态的形态表型特征进行交叉注意力特征融合,获得乳腺癌病理图像的切片层面表示;根据乳腺癌病理图像的切片层面表示,确定乳腺癌HER2分子状态预测结果,实现了对乳腺癌HER2分子状态的准确预测。
-
公开(公告)号:CN114974421B
公开(公告)日:2024-04-30
申请号:CN202210552055.8
申请日:2022-05-20
Applicant: 南开大学
IPC: G16B30/00 , G16B40/00 , G06F17/16 , G06F18/2135 , G06N3/045 , G06N3/0499 , G06N3/042 , G06N3/08
Abstract: 本发明提出了一种基于扩散‑降噪的单细胞转录组测序数据补插方法及系统,包括:获取单细胞转录组测序数据矩阵并进行预处理;对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点,对补插位点进行扩散操作,完成初步补插;对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化;对原始获取的单细胞转录组测序数据矩阵进行加权处理,获得细胞间权重图;基于主成分分析白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。通过扩散‑降噪两阶段的补插处理,能够提高后续对不同细胞的识别的准确性。
-
公开(公告)号:CN114944190B
公开(公告)日:2024-04-19
申请号:CN202210512716.4
申请日:2022-05-12
Applicant: 南开大学
Abstract: 本发明公开了基于Hi‑C测序数据的TAD识别方法及系统;其中,所述方法包括:获取单条染色体的Hi‑C测序数据;对单条染色体的Hi‑C测序数据进行分段,生成若干个染色体片段;对每个染色体片段进行TAD结构识别;根据识别的TAD结构,识别假阳性结果。充分利用了整条染色体Hi‑C测序数据,提高了精度;同时引入随机重启游走算法和惩罚操作,通过惩罚系数有效的限制了基因变异带来的影响。
-
-
-
-
-
-
-
-
-