-
公开(公告)号:CN119811504A
公开(公告)日:2025-04-11
申请号:CN202411931012.6
申请日:2024-12-26
Applicant: 桂林电子科技大学
IPC: G16B40/00 , G16B5/00 , G16B30/00 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种识别DNA序列中超级增强子与典型增强子的预测方法,采用整数编码和k‑mer编码方案进行编码,使用残差连接的卷积神经网络提取序列的局部特征,使用两个双向长短期记忆网络提取序列的多尺度全局特征。利用注意力机制将这些局部特征和全局特征进行特征融合,然后输入到全连接神经网络中得到预测概率。采用五折交叉验证的评估方式对模型性能进行评估,使用准确率(ACC)、召回率(REC)、精度(PRE)、F1分数(F1)、ROC曲线下面积(AUC)等五个评估指标衡量模型;独立测试集上的实验结果表明,相比于最先进的方法,我们的模型在识别超级增强子与典型增强子上有了显著的性能提升。
-
公开(公告)号:CN118098572A
公开(公告)日:2024-05-28
申请号:CN202410324041.X
申请日:2024-03-21
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种根据血液检测结果诊断患者肝纤维化分期状态的可解释OPTUNADF检测方法,获取肝纤维化患者的血液检测结果以及肝纤维化诊断状况;对特征进行标准化,并对异常值进行处理,使用数据均衡策略,获得均衡化后的数据集,使用前向特征选择筛选最相关特征子集;使用级联森林模型深度森林(DF)对数据集进行预测;使用OPTUNA超参数优化框架对模型进行处理;迭代100次,选择精度最优的超参数并输出OPTUNADF的预测结果;采用五折交叉验证的评估方式对模型性能进行评估,使用ROC、准确率、精确度、F1‑score、召回率五个评估指标衡量模型;使用SHAP中的kernelExplainer构建模型解释器对步骤5)中选取出的模型进行全局解释和局部解释。该方法无需侵入性检测,通过非侵入性的血液检测就可以诊断患者肝纤维化状态,同时兼具可解释性,相比于最先进的方法具有更优越的识别性能且预测过程更加透明。
-
公开(公告)号:CN117672367A
公开(公告)日:2024-03-08
申请号:CN202311297790.X
申请日:2023-10-09
Applicant: 桂林电子科技大学
Abstract: 本发明公开了一种环状RNA亚细胞定位的预测方法,其特征包含如下步骤:获取含有携带亚细胞定位信息的环状RNA序列;使用CD‑HIT软件去除相似度超过80%的同源性序列;使用8‑mer划分RNA序列并计算每个短序列出现的频率特征,根据RNA二核苷酸物理化学性质计算自协方差与交叉协方差组成DACC特征;使用工具提取RNA序列的数学统计特征;使用IFS方法对8‑mer特征进行第一次特征选择,经过筛选的特征与DACC特征、数学特征进行融合,然后使用RFE方法进行第二次特征选择;将特征选择后的特征集输入到岭回归模型得到预测结果;采用十折交叉验证的评估方式对模型性能进行评估。该方法可以仅通过数学手段提取RNA序列中的特征,与基于生物学知识提取的序列特征相结合可以显著提高模型预测的能力。
-
公开(公告)号:CN119763652A
公开(公告)日:2025-04-04
申请号:CN202411931086.X
申请日:2024-12-26
Applicant: 桂林电子科技大学
IPC: G16B15/30 , G16B30/00 , G16B40/00 , G16C20/50 , G16C20/70 , G06N3/042 , G06N3/0464 , G06N3/0895 , G06N3/09
Abstract: 本发明公开了一种基于多层次对比学习和等变图神经网络的药物靶点亲和力预测方法MLC‑DTA。该方法将预测问题转化为多层次(分子层次、网络层次)分子图的回归问题,利用AlphaFold2和RDKit分别获取蛋白质分子和药物分子的三维坐标,并分别通过等变图神经网络从分子层次捕获信息。药物靶点亲和力关系图则采用图卷积网络从网络层次捕获信息。这些多层次图嵌入经过对比学习策略后得到更具代表性的特征,最终通过MLP多层感知机输出预测回归值。MLC‑DTA模型在两个经典数据集上进行了预测,并通过Grid Search优化参数。划分训练集和测试集对模型性能进行评估,使用均方误差、一致性指数和回归趋向均值三个评估指标衡量模型性能。案例分析验证了模型的泛化能力,相比于最先进的方法,MLC‑DTA有了显著的性能提升。
-
公开(公告)号:CN118824353A
公开(公告)日:2024-10-22
申请号:CN202410923888.X
申请日:2024-07-11
Applicant: 桂林电子科技大学
IPC: G16B15/30 , G16B40/00 , G16B15/00 , G06F18/213 , G06F18/241 , G06F18/25 , G06F18/21 , G06N3/045 , G06N3/042 , G06N3/0464 , G06N3/0499 , G06N3/08
Abstract: 本发明公开了一种多视图图嵌入融合的蛋白质‑DNA结合位点预测方法EGPDI,利用蛋白质结构生成模型AlphaFold2获取蛋白质结构,整合蛋白质序列构成数据集;将蛋白质‑DNA结合位点问题转换为图节点分类问题;使用预训练的蛋白质语言模型(pLMs)生成嵌入和手工设计的特征共同构成图的节点特征编码;基于蛋白质的3D结构信息设计图的边特征编码;采用等变图神经网络和图卷积网络从不同的视图角度捕获信息;使用搭建的EGPDI模型对数据集进行预测,并采用Grid Search超参数优化对模型进行参数优化;采用五折交叉验证的评估方式对模型性能进行评估,使用特异性、精确率、召回率、F1‑score和马修斯相关系数,五个评估指标衡量模型;采用独立测试和案例分析进行模型泛化能力的验证,相比于最先进的方法,EGPDI有了显著的性能提升。
-
公开(公告)号:CN118800331A
公开(公告)日:2024-10-18
申请号:CN202410993153.4
申请日:2024-07-24
Applicant: 桂林电子科技大学
IPC: G16B30/00 , G16B40/00 , G06N3/0442 , G06N3/048 , G06N3/0464 , G06F18/24 , G06N3/049
Abstract: 本发明公开了一种度学习模型结合核苷酸化学性质对于ncRNA家族的预测方法,使用的是公共数据库Rfam中的数据集,利用计算核苷酸化学性质与核苷酸密度的方法NCP‑ND对核苷酸序列数据进行编码,使用多尺度注意力机制(MSA)对初始特征向量进行加权,再使用Bi‑LSTM捕获核苷酸序列的上下文特征,进而使用DenseNet来提取核苷酸序列的全局特征,最后通过全连接网络进行多分类;通过正则化等技术来防止模型过拟合,使用十折交叉验证以及独立测试集来对模型进行性能测试。该方法使用NCP‑ND进行特征编码,不需要生物学的先验知识,利用深度学习的计算方法提高了ncRNA家族预测的准确率。
-
公开(公告)号:CN119786038A
公开(公告)日:2025-04-08
申请号:CN202411930976.9
申请日:2024-12-26
Applicant: 桂林电子科技大学
IPC: G16H50/30 , G16H30/40 , G06T7/11 , G06T5/70 , G06T5/60 , G06V10/82 , G06V10/80 , G06N3/0455 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种基于文字‑3D图像的多模态脑卒中预测方法,其过程包含如下步骤:收集样本数据和预处理:获取脑卒中患者MRI样本以及每个样本病灶区域的自然语言描述信息,并将文字描述转换为向量表示,作为后续模型的输入;构建模型:使用卷积神经网络(CNN)作为图像特征编码模块,均采用U‑Net架构。模型优化:我们采用Soft Dice Loss和Cross Entropy Loss两个的加权作为模型的损失函数,以更好地优化模型;多模态融合:我们利用Transformer结构将视觉和语言信息进行融合,实现跨模态特征的深度交互;模型评估:使用Dice系数、精确度、召回率、HD95共4个评价指标来评估分割模型的性能。通过对比模型在不同评估指标下的表现,不断优化分割结果。
-
公开(公告)号:CN118800452A
公开(公告)日:2024-10-18
申请号:CN202410993056.5
申请日:2024-07-24
Applicant: 桂林电子科技大学
IPC: G16H50/30 , G16H50/70 , G06F18/214 , G06N20/10 , G06N5/01 , G06F18/23213 , G06N3/0985
Abstract: 本发明公开了一种基于聚类下采样和可解释深度森林的脑卒中预测方法,获取脑卒中和正常患者的代谢指标以及分类情况;对特征进行标准化,并对异常值进行处理,获取完整的、标准化数据;使用提出的CBUC算法对不平衡数据重采样,尽可能多地将多类型的数据纳入训练,得到一个平衡训练集;使用级联深度森林模型(DF)对数据集进行预测;采用Grid search技术对预测的模型进行优化;采用10折交叉验证对模型的性能进行评估,使用Specificity(SP)、Sensitivity(SE)、Gmean、Area Under the Curve(AUC)以及Accuracy(ACC)五个指标衡量模型性能;计算深度模型中第一层森林的MDI,对输入的特征进行重要性比较。该方法将极度不平衡脑卒中数据重采样为平衡数据集,提高模型的预测精度,同时兼具可解释性,相比于最先进的方法具有更优越的识别性能且预测过程更加透明。
-
公开(公告)号:CN116779182A
公开(公告)日:2023-09-19
申请号:CN202310822955.4
申请日:2023-07-06
Applicant: 桂林电子科技大学
IPC: G16H50/80 , G16H50/20 , G16H10/40 , G16H15/00 , G16H50/30 , G06F18/10 , G06F18/2411 , G06F18/243 , G06F18/21 , G06N20/20
Abstract: 在这项发明将使用一个集成学习模型(REGX)中来进行COVID‑19的诊断和预后。该集成学习模型使用了两层的多个分类器来提升模型性能。第一级多样化分类器包括额外树、随机森林、梯度提升和极端梯度提升模型,之后第一层的输出被送至第二层SVM分类器。同时,在数据预处理时,本文采用KNNImputer算法来处理空值,使用iForest来筛选异常值,之后再用少数过采样技术(SMOTE)来使数据分布均衡。最后,通过Feature_Importances(scikit‑Learn)和SHapley Additive exPlanations(SHAP)来报告特征重要性,以满足医疗环境中模型可解释性的需求。最后,通过sklearn中的Feature_Importances和SHAP事后可解释性来揭示黑盒模型中揭示由于新型冠状病毒感染感染患者剧增而可能被医疗从业者忽略的重要的生物标志物。
-
公开(公告)号:CN119763670A
公开(公告)日:2025-04-04
申请号:CN202411931046.5
申请日:2024-12-26
Applicant: 桂林电子科技大学
IPC: G16B40/00 , G16B50/00 , G16B30/00 , G06N3/042 , G06N3/0464 , G06N3/0455 , G06N3/084
Abstract: 本发明公开了一种基于深度学习模型对于ncRNA与蛋白质相互作用的预测方法,使用的是公共数据库四个数据集(RPI488,NPInter2.0,RPI1807,RPI7317),kmer编码策略对ncRNA和蛋白质的序列进行提取高维稀疏特征后,通过Embedding层将稀疏特征映射为低维稠密向量;使用ResNet结合SE注意力机制提取关键的局部特征;随后通过Transformer利用位置编码和多头注意力捕捉长程依赖并提取全局特征;最终,将ResNet和Transformer的特征与线性变换后的蛋白质特征拼接,并通过DNN层进一步提炼特征后使用Sigmoid激活函数输出分类概率。通过正则化等技术来防止模型过拟合,使用十折交叉验证以及独立测试集来对模型进行性能测试。该方法使用k‑mer进行特征编码,不需要生物学的先验知识,并且通过局部特征提取与全局特征建模相结合的方式,充分捕获序列中的关键信息,利用深度学习的计算方法提高了预测ncRNA与蛋白质相互作用的准确率。
-
-
-
-
-
-
-
-
-