-
公开(公告)号:CN118969099A
公开(公告)日:2024-11-15
申请号:CN202411142198.7
申请日:2024-08-20
Applicant: 江南大学
IPC: G16B40/00 , G06F18/24 , G06N20/00 , G06F18/214 , G06F18/23 , G06F18/213
Abstract: 本发明属于人工智能算法应用‑多标签预测领域,涉及基于平衡子空间和对比学习的多标签亚细胞定位方法。基于RNALocate v2.0数据库构建本发明所需要的数据集,清洗数据集,去除冗余序列。构建多类别对比学习数据对并使用自适应N‑pair‑mc‑loss多类别对比表征学习算法获取表征学习向量。利用聚类平衡子空间划分算法来划分聚类子空间,子空间内部使用最大类别上采样方法平衡子空间内部。在每个子集上初始化XGBoost模型,通过多个子集上的XGBoost集成学习,最后通过投票机制产生该位置的最终结果。本发明量化了核苷酸及核苷酸组合对于预测结果的贡献,帮助用户更好地理解模型的工作原理和决策依据。
-
公开(公告)号:CN118692563A
公开(公告)日:2024-09-24
申请号:CN202410853387.9
申请日:2024-06-28
Applicant: 江南大学
IPC: G16B20/30 , G16B40/20 , G16B40/30 , G06F18/213 , G06F18/214 , G06F18/23213 , G06F18/2415 , G06F18/2431 , G06N3/0464 , G06N3/048 , G06N3/084 , G06N5/045
Abstract: 本发明属于人工智能算法应用‑生物序列识别领域,涉及基于ClusterCentroids欠采样技术预测多种赖氨酸修饰位点的方法。首先,通过数据收集、整合与去冗余,优化特征空间,减少冗余信息,获得了一批存在显著类别不均衡问题的蛋白质序列作为输入数据。接着,使用多标签具体位置三联氨基酸倾向特征提取算法对蛋白质序列进行特征编码,获得输入特征矩阵。而后,采用ClusterCentroids框架辅以MinibatchKmeans算法计算多数类的聚类中心对不平衡数据集进行处理,确保模型在各种修饰位点预测上都能有很好的预测效果。本发明使用可通过说明书和已开源的代码实现预测多个赖氨酸翻译后修饰位点。
-
公开(公告)号:CN119649914A
公开(公告)日:2025-03-18
申请号:CN202411696475.9
申请日:2024-11-25
Applicant: 江南大学
IPC: G16B40/20 , G16B20/30 , G16B30/00 , G06N3/0455 , G06N3/096 , G06N3/0985
Abstract: 本发明属于人工智能算法应用‑生物序列识别领域,涉及基于大模型技术识别磷酸化修饰位点的方法。本发明将最新的蛋白质大模型技术ESM‑2应用到了磷酸化修饰位点识别方向,充分利用了当下最前沿的技术实现SARS‑CoV‑2感染的磷酸化修饰位点的识别,显著提升了识别的准确率以及可靠性。本发明创新性地提取蛋白质预训练大模型的中间输出用作后续的研究。面对不同任务可能需要不同的层次输出特征,本研究提供了一个清晰的范例,展示了模型中间层输出的有效性。本发明创新性地使用了迁移学习相关技术有效解决了SARS‑CoV‑2感染的磷酸化修饰位点中酪氨酸(Y)数据稀少从而无法有效进行分类预测的问题。
-
公开(公告)号:CN118629486A
公开(公告)日:2024-09-10
申请号:CN202410752007.2
申请日:2024-06-12
Applicant: 江南大学
IPC: G16B15/00 , G16B20/00 , G16B40/00 , G06F18/214 , G06N3/0464 , G06N3/0499 , G06N3/084 , G06N3/096 , G06N3/0985
Abstract: 本发明属于人工智能算法应用‑多标签亚细胞定位预测方法,涉及一种基于深度迁移学习的多标签亚细胞定位预测方法。过程如下:首先,对原始数据进行数据清洗以获得数据集1和数据集2,去除冗余信息,提高模型效率。接着,采用MDNDO和SMDU重采样算法对不平衡数据集进行处理,确保模型在各类别样本上都能获得良好性能。本发明基于AlexNet,重新修改了输出层的网络结构,充分利用了已有结构,捕获特征信息,最终在输出层输出预测结果。本发明进一步引入了SHAP算法,量化每个特征对模型预测结果的贡献度,帮助用户更好地理解模型的工作原理和决策依据。
-
公开(公告)号:CN119479794A
公开(公告)日:2025-02-18
申请号:CN202411550944.6
申请日:2024-11-01
Applicant: 江南大学
Abstract: 本发明属于人工智能算法应用‑生物序列识别领域,涉及基于EPDCC技术识别多种赖氨酸修饰位点的方法。本发明能够同时预测多种赖氨酸修饰位点。本发明还特别解决了先前技术未能充分考虑的修饰之间的串扰问题,从而提高了预测的准确性和可靠性。通过将离散数据拟合成函数型数据进行聚类来平衡数据集,本发明采用的极值点偏差补偿聚类欠采样算法有效减少了模型训练过程种对多数类的偏向。通过构建多尺度数据,结合序列信息特征和氨基酸理化性质特征,丰富了数据语义,显著提升了模型对赖氨酸翻译后修饰位点的预测性能。
-
公开(公告)号:CN118521411A
公开(公告)日:2024-08-20
申请号:CN202410585782.3
申请日:2024-05-13
Applicant: 江南大学
IPC: G06Q40/08 , G06F18/23213 , G06F18/2431 , G06N20/00
Abstract: 本发明属于人工智能算法应用‑欺诈识别领域,涉及一种基于多种分类算法集成学习的智能医疗欺诈监测方法。过程如下:首先,通过详尽的数据预处理和LASSO算法进行特征选择,优化特征空间,减少冗余信息,提高模型效率。接着,采用DPC‑SMOTE和NCACL算法对不平衡数据集进行处理,确保模型在各类别样本上都能获得良好性能。在模型构建方面,本发明集成了XGBoost、LightGBM、MLP和SVM等多种分类算法,通过Stacking框架将它们组合成强大的集成学习模型,以捕获数据中的多维度信息,实现精准的医疗欺诈识别。
-
-
-
-
-