一种GPCR蛋白序列的识别方法及计算机可读存储介质

    公开(公告)号:CN117437983A

    公开(公告)日:2024-01-23

    申请号:CN202311471325.3

    申请日:2023-11-07

    Abstract: 本发明提供一种GPCR蛋白序列的识别方法及计算机可读存储介质,包括:获取待识别的GPCR蛋白序列,使用PsePSSM提取方法提取蛋白序列的GPCR特征;将所述GPCR特征输入预先训练完成的MLapRVFL分类模型中,得到所述MLapRVFL分类模型输出的识别结果,其中,所述MLapRVFL分类模型是通过将多拉普拉斯和L2,1‑norm正则化项引入基本的随机向量功能链接RVFL方法中进行训练得到的,且所述MLapRVFL分类模型根据Spec、ACC、SN、MCC、AUC至少五个衡量指标衡量MLapRVFL分类模型的准确度,根据实验结果显示,PsePSSM特征提取方法相对于其他特征提取方法在MLapRVFL分类模型上的ACC、AUC衡量指标上能获得了更好的分类效果,本发明相比现有的机器学习方法在GPCR数据集上也有更好的分类性能,且提高了GPCR蛋白质序列的预测准确性。

    生物序列集成分类器的构建方法及生物序列预测分类方法

    公开(公告)号:CN116343915B

    公开(公告)日:2023-11-24

    申请号:CN202310249336.0

    申请日:2023-03-15

    Abstract: 本方案公开了一种生物序列集成分类器的构建方法及生物序列预测分类方法,首先通过多序列比对技术构建序列核,通过表征生物序列之间的距离构建结构核,通过本体论的的标注,在树形结构上估算生物序列之间的距离来构建功能核;然后使用不同的多核学习方法求解核权重,使用多核融合技术融合序列核、功能核和结构核,基于序列核、结构核、功能核构建及训练相应的基分类器并集成为生物序列集成分类器,完成对生物序列的分类,针对生物序列的特殊性,从序列、结构和功能三维层面学习训练样本之间的距离关系,创新地提出“序列核”、“结构核”和功能核”,直接处理生物序列样本,避免了数值特征提取时造成的信息丢失与信息冗余。

    蛋白预测模型训练方法、预测方法及可读存储介质

    公开(公告)号:CN115240771A

    公开(公告)日:2022-10-25

    申请号:CN202210900274.0

    申请日:2022-07-28

    Inventor: 邹权 丁漪杰

    Abstract: 本发明提供了一种目标蛋白预测模型的训练方法,包括:获取目标蛋白序列样本;根据研究视角对目标蛋白序列样本进行序列特征提取,得到序列特征;根据共享隐藏向量的方法,对所述序列特征进行耦合,得到耦合特征;将所述耦合特征导入分类机进行训练,得到目标蛋白预测模型。发明人通过共享隐藏向量的方法,对序列特征进行耦合,再导入分类机进行训练,提高了目标蛋白预测模型的预测的精确程度。

    基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法

    公开(公告)号:CN113611355B

    公开(公告)日:2022-07-29

    申请号:CN202110950026.2

    申请日:2021-08-18

    Abstract: 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,涉及医药技术领域,针对现有技术中根据序列信息预测的二级结构,使用PSI‑PRED等工具提取蛋白质二级结构信息的特征时,预测的蛋白质二级结构存在误差,进而导致抗氧化蛋白识别准确低的问题,本申请提出了一种全新的抗氧化蛋白识别方法,利用蛋白质‑蛋白质相互作用的特征和氨基酸的组成来表达抗氧化蛋白序列的特征,能够实现对抗氧化蛋白的准确识别,为相应蛋白质定位、疾病分析及药物研究提供了理论基础。本申请在处理不平衡的抗氧化蛋白数据时引入了多种不平衡数据处理方法,最终使用SMOTE算法处理数据得到的模型最优,优化了抗氧化蛋白的识别效果。

    一种甲基化位点识别方法及装置

    公开(公告)号:CN113823356A

    公开(公告)日:2021-12-21

    申请号:CN202111136225.6

    申请日:2021-09-27

    Inventor: 邹权 李静 杜军平

    Abstract: 本发明提供一种甲基化位点识别方法及装置,方法包括:导入甲基化位点识别序列数据文件,并从甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;从原始甲基化位点数据集中提取数据特征,得到特征矩阵;对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据多个特征和与其关联的实例类别得到特征子集基于所述特征子集中的多个目标特征分别生成对应的基分类器;将多个基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。本发明能够实现对甲基化位点的准确识别,为相应药物开发提供了理论基础,通过对基分类器进行集成进而构建甲基化位点识别模型,提升了甲基化位点识别精度。

    基于图的特征排序和降维方法

    公开(公告)号:CN113780416A

    公开(公告)日:2021-12-10

    申请号:CN202111063272.2

    申请日:2021-09-10

    Inventor: 贺世达 邹权

    Abstract: 基于图的特征排序和降维方法,它属于计算机和生物学交叉领域。本发明解决了现有降维方法的通用性差,降维过程费时的问题。本发明集成了多种特征排序方法,利用这些方法之间存在的互补性,这样更有利于挖掘出数据的潜在信息,有利于去除数据的冗余特征,有利于筛选出更有利于建模的特征。将这些算法的结果以图的形式表示,相对于其他算法而言,本发明方法更具有普适性、通用性。使用户不需要去尝试测试不同的降维方法,大大节省了降维所需要的时间。本发明可以应用于计算机和生物学交叉领域。

    基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备

    公开(公告)号:CN113724779A

    公开(公告)日:2021-11-30

    申请号:CN202111027448.9

    申请日:2021-09-02

    Abstract: 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。

    药物-靶标相互作用的预测方法、装置、设备和存储介质

    公开(公告)号:CN113409897A

    公开(公告)日:2021-09-17

    申请号:CN202110606005.9

    申请日:2021-05-25

    Inventor: 邹权 茹晓青

    Abstract: 本申请提供了一种药物‑靶标相互作用的预测方法、装置、设备和存储介质。方法包括:获取训练数据集,所述训练数据集包括:靶标对象的蛋白序列和药物对象的化学结构,以及所述靶标对象和所述药物对象两者之间的相互作用关系;提取所述靶标对象的蛋白序列的靶标特征和所述药物对象的化学结构的药物特征;对所述靶标特征和所述药物特征进行特征选择;将选择后的靶标特征和药物特征进行特征融合;基于融合后的靶标特征和药物特征,构建用于预测药物‑靶标相互作用强弱顺序的排序模型;获取待预测靶标对象和待预测药物对象;基于所述排序模型,预测所述待预测靶标对象和所述待预测药物对象的亲和力。能够预测靶标对象和药物对象的亲和力。

    肿瘤基因共表达网络构建方法、装置、设备和存储介质

    公开(公告)号:CN112908405A

    公开(公告)日:2021-06-04

    申请号:CN202110113106.2

    申请日:2021-01-27

    Inventor: 徐磊 王彦苏 邹权

    Abstract: 本申请提供了一种肿瘤基因共表达网络构建方法、装置、设备和存储介质。所述方法包括:获取目标人体系统中的多种组织癌变转录组测序数据和所述多种组织的正常转录组测序数据;所述目标人体系统是人体解剖学八大人体系统中的任一人体系统;根据基因和转录本的关系,以及正常转录组测序数据中基因表达量呈现均一化的RNA,提取出多种组织的癌变转录组测序数据中存在差异的mRNA、lncRNA和miRNA;对所述多种组织的癌变差异mRNA、lncRNA和miRNA进行GO分析,得到融合为一个目标表达矩阵;对所述目标表达矩阵进行WGCNA分析,根据性状构建表达模块,取相关性最高的模块进行网络的构建。能够实现对多种癌症的网络构建。

Patent Agency Ranking