基于集成卷积神经网络模型和回归分层训练的蛋白质突变稳定性变化预测方法

    公开(公告)号:CN119580835A

    公开(公告)日:2025-03-07

    申请号:CN202410177964.7

    申请日:2024-02-08

    Abstract: 基于集成卷积神经网络模型和回归分层训练的蛋白质突变稳定性变化预测方法,属于蛋白质稳定性变化预测技术领域。首先构建训练集和测试集,收集整理了四个数据集。然后按以下四个步骤进行:一是基于反对称性对数据进行增强处理,平衡训练集中稳定和不稳定突变的样本数据;二是提取蛋白质特征;三是采用回归分层采样策略训练模型;四是构建基于多个CNN子模型的集成模型用于蛋白质突变稳定性变化预测。本发明首次引入空间近邻进化信息;第一次提出回归分层采样策略并成功应用在模型的训练过程中,有效提高了模型对于极端ΔΔG的预测能力;将训练的CNN子模型进行组合,充分利用训练集中全部样本的信息,有利于增强模型的泛化能力。

    考虑统计偏好和随机分组特征选择策略的蛋白质-DNA相互作用热点预测方法

    公开(公告)号:CN117174176A

    公开(公告)日:2023-12-05

    申请号:CN202310912834.9

    申请日:2023-07-24

    Abstract: 考虑统计偏好和随机分组特征选择策略的蛋白质‑DNA相互作用热点预测方法,属于蛋白质‑DNA相互作用与识别预测技术领域。包括四个步骤:一是从蛋白质‑DNA复合物结构中提取残基特征,包括传统的序列和结构特征,以及新特征(残基界面统计偏好、共进化、动力学特征和加权网络特征),二是使用ADASYN方法平衡训练集中的正负样本数据,三是基于随机分组策略,并结合Boruta方法筛选最优特征组合,四是构建基于多个子模型的集成分类模型进行热点残基预测。本发明首次将残基界面统计偏好、共进化、动力学特征和加权网络特征,以及基于随机分组的特征选择策略用于蛋白质‑DNA相互作用热点预测。其中,残基界面统计偏好和基于随机分组的特征选择策略是我们之前开发的,前者可以很好地考虑蛋白质中的氨基酸残基与DNA中的核苷酸相互作用的偏好性;后者对最优特征的选择有很好的效果。

Patent Agency Ranking