-
公开(公告)号:CN115240775A
公开(公告)日:2022-10-25
申请号:CN202210843836.2
申请日:2022-07-18
Applicant: 东北林业大学
Abstract: 基于stacking集成学习策略的Cas蛋白预测方法,涉及一种Cas蛋白预测方法。为了解决目前Cas蛋白识别方法中在模型构建及特征工程方面存在着一定的局限性,导致无法达到理想的预测效果问题。本发明利用双层预测模型对潜在Cas蛋白进行识别;所述双层预测模型的建立过程中,首先获取Cas蛋白序列数据集,使用基于序列模式特征、进化信息特征、理化性质特征、深度表示学习特征的编码对Cas蛋白数据进行编码,构建初始特征空间;然后通过对初始特征空间进行特征空间优化,利用最优特征空间构建多个基学习模型,再基于多个基学习模型输出的置信度得分特征作为第二层模型的输入特征,进行二次建模,构建得到双层预测模型。
-
公开(公告)号:CN120032714A
公开(公告)日:2025-05-23
申请号:CN202311550340.7
申请日:2023-11-21
Applicant: 东北林业大学
Abstract: 本发明公开提供一种与细胞通讯相关高度可变基因的识别方法,属于生物信息学领域,该方法对单细胞RNA测序(scRNA‑seq)数据和空间转录组学(ST)数据进行特征提取,然后使用Seurat的函数对scRNA‑seq数据中的基因表达信息和ST数据中的空间细胞坐标信息进行筛选和提取,并对基因表达信息进行主成分分析。从而使用多元线性回归模型CPPLS对这两种信息进行拟合,构建出细胞通讯网络。首先先将细胞通讯网络中的基因表达水平与人类基因组和小鼠基因组的表达水平进行对比,得到细胞通讯对基因表达的影响。后续使用有向图的特征,对数据集中每两种细胞类型之间的关系进行分析,并且基于GeneCards、GO等官方数据库中记录的基因功能,为参与细胞网络构建的基因打标签,最后基于标签使用神经网络模型MLP对基因进行预测和分类,即可以识别与细胞通讯相关高度可变基因;该方法综合了单细胞及空间转录组学数据的信息,并且基于先验知识的准确性,因此可以精确识别与细胞通讯相关高度可变基因。
-
公开(公告)号:CN119626311A
公开(公告)日:2025-03-14
申请号:CN202311180921.6
申请日:2023-09-14
Applicant: 东北林业大学
Abstract: 本发明公开提供一种细胞空间组成的推断方法,属于生物信息学领域,该方法对单细胞RNA测序(scRNA‑seq)数据和空间转录组学(ST)数据进行特征提取,然后利用scRNA‑seq数据集来模拟每个测序位点(spot)上的细胞混合物构建称为“伪ST”的合成ST数据,使用Seurat的IntegrateData方法将制作的伪ST数据和真实ST数据整合,以消除二者之间的批次效应,提高数据一致性和可比性,接着利用随机投影森林构建带权邻接矩阵来精确表示伪ST和真ST之间的拓扑关系,将特征和带权邻接矩阵一起导入GAT模型中,可以推断空间转录组学中每个位置的细胞类型组成;该方法充分利用了scRNA‑seq数据和ST数据之间的拓扑关系,因此可以更加精确的推断细胞空间组成。
-
公开(公告)号:CN120032719A
公开(公告)日:2025-05-23
申请号:CN202311554149.X
申请日:2023-11-21
Applicant: 东北林业大学
IPC: G16B35/20 , G16B40/00 , G06N3/042 , G06N3/0464 , G06F18/2413 , G06F18/23
Abstract: 本发明公开提供一种细胞类型划分的推断方法,属于生物信息学领域,该方法利用零膨胀负二项(ZINB)模型对scRNA‑seq数据进行降噪。随后,该方法采用自适应图对比表示学习方法,使用近似个性化传播的神经预测图卷积作为图对比学习的编码器。这确保了每个单元的表示不仅捕获了它的单个特征,而且反映了它在图中的位置以及它与其他单元的关系。图对比学习利用节点之间的关系来捕获单元之间的相似性,更好地表示数据的潜在连续性和复杂拓扑结构。最后,利用Kullback‑Leibler散度对学习到的低维潜在表征进行聚类。
-
公开(公告)号:CN119323992A
公开(公告)日:2025-01-17
申请号:CN202411311555.8
申请日:2024-09-20
Applicant: 东北林业大学
IPC: G16B40/00 , G16B20/50 , G06N3/0464
Abstract: 本发明提出了一种基于多组学数据识别细胞通讯的方法,通过以下步骤实现:步骤一,获取单细胞和空间转录组数据集。步骤二,对单细胞和空间转录组学数据集进行预处理。步骤三,构建深度神经网络模型。步骤四,将预处理后的单细胞和空间转录组学数据集对构建的深度神经网络模型进行训练。步骤五,将训练后的深度神经网络模型对待测数据进行细胞间通讯识别。本发明在多套单细胞和空间转录组学数据集上,可取得优秀的识别细胞间通讯的效果。通过与其它最新的细胞间通讯识别方法进行比较具有在多个评价指标上均表现出更优秀的性能。此外,在面对不同程度的噪声的情况下以及缺失的空间转录组数据集上,都取得了较高的稳定性和准确性。
-
公开(公告)号:CN115240775B
公开(公告)日:2023-10-03
申请号:CN202210843836.2
申请日:2022-07-18
Applicant: 东北林业大学
Abstract: 基于stacking集成学习策略的Cas蛋白预测方法,涉及一种Cas蛋白预测方法。为了解决目前Cas蛋白识别方法中在模型构建及特征工程方面存在着一定的局限性,导致无法达到理想的预测效果问题。本发明利用双层预测模型对潜在Cas蛋白进行识别;所述双层预测模型的建立过程中,首先获取Cas蛋白序列数据集,使用基于序列模式特征、进化信息特征、理化性质特征、深度表示学习特征的编码对Cas蛋白数据进行编码,构建初始特征空间;然后通过对初始特征空间进行特征空间优化,利用最优特征空间构建多个基学习模型,再基于多个基学习模型输出的置信度得分特征作为第二层模型的输入特征,进行二次建模,构建得到双层预测模型。
-
公开(公告)号:CN119446253A
公开(公告)日:2025-02-14
申请号:CN202411290050.8
申请日:2024-09-14
Applicant: 东北林业大学
IPC: G16B20/00 , G16B40/00 , G06F18/241 , G06F18/23213 , G06N3/045 , G06N3/0455 , G06N3/08
Abstract: 本发明涉及一种基于单细胞多组学数据进行细胞类型划分的方法,属于生物信息学技术领域。解决常用技术形成的高噪声和高稀疏性的问题。包括如下步骤,步骤一,构建深度神经网络模型,步骤二,获取单细胞多组学综合数据集,步骤三,对所述单细胞多组学数据集进行预处理,步骤四,基于预处理后的单细胞多组学数据集对深度神经网络模型进行训练,步骤五,基于训练后的深度神经网络模型对待测数据进行细胞类型划分。本发明提出scDRMAE模型,通过两个并行的MAE模块捕捉不同组学的依赖关系,将通常被忽略的因素考虑到细胞聚类之中并借助其中的掩码预测机制实现了对不同组学数据的插补,最后通过注意力机制有效融合各个组学数据,提高了模型细胞聚类的准确性。
-
公开(公告)号:CN119132389A
公开(公告)日:2024-12-13
申请号:CN202411113195.0
申请日:2024-08-14
Applicant: 东北林业大学
Abstract: 本发明提出一种单细胞测序数据的生成方法,包括:S1:构建深度神经网络模型;S2:获取scRNA‑seq综合数据集;S3、对所述scRNA‑seq综合数据集进行预处理;S4:基于预处理后的scRNA‑seq综合数据集对深度神经网络模型进行训练;S5:基于训练后的深度神经网络模型对待测数据的特征进行加噪、去噪和重构,生成单细胞测序数据。本发明在多种测序平台的数据集上,深度神经网络模型都能生成高质量的scRNA‑seq数据。通过与其它最新的数据生成模型进行比较深度神经网络模型在多个评价指标上均表现出更优秀的性能。此外,深度神经网络模型还能够模拟伪时间尺度下的单细胞数据,为追踪细胞分化和发育轨迹、分析细胞间的通讯、揭示细胞的异质性等分析提供高质量的数据支持。
-
公开(公告)号:CN117059175A
公开(公告)日:2023-11-14
申请号:CN202311031740.7
申请日:2023-08-16
Applicant: 东北林业大学
IPC: G16B40/30 , G06F18/214 , G06F18/25 , G06N3/0464 , G06N3/0455 , G06N3/048 , G06N3/088 , G16B15/30
Abstract: 一种细胞特异性沉默子及其强度的识别方法,涉及生物信息技术领域,针对现有技术中单纯依赖沉默子序列的识别方法识别沉默子的准确率低的问题,本申请有效提高了识别特定细胞中沉默子的准确率,并且优于现有的识别沉默子方法,gkm‑SVM方法、DeepSilencer方法和SEPredict方法。同时,本申请首次提出基于多组学数据的复杂深度学习框架识别强沉默子和弱沉默子,并在独立测试集上取得较高的准确率。此外,本申请进一步分析了深度学习捕捉的与沉默子强相关的生物学组合信号。
-
公开(公告)号:CN116805508A
公开(公告)日:2023-09-26
申请号:CN202310288886.3
申请日:2023-03-22
Applicant: 东北林业大学
IPC: G16B20/00 , G16B40/00 , G06N3/0442 , G06N3/084
Abstract: 一种组织特异性eRNA的识别方法,具体涉及一种基于深度学习的组织特异性eRNA的识别方法,为解决eRNA识别方法仅依赖eRNA的序列特征进行识别,导致识别结果的准确率不高的问题。它包括获取某组织的eRNA数据集和非增强子数据集,以及此组织不同年龄样本的多种组蛋白修饰数据;提取每个eRNA和每个非增强子的序列特征,以及每个eRNA和每个非增强子在不同年龄样本下的每种组蛋白修饰特征;合并此组织中所有eRNA和非增强子在每个年龄样本下的多种组蛋白修饰特征,利用聚类和投票得到此组织的RE和AE,将RE和AE加入此组织中不同年龄样本的组蛋白修饰特征,通过深度神经网络模型识别组织特异性eRNA。属于生物信息学领域。
-
-
-
-
-
-
-
-
-