一种基于自然邻域密度的数据不平衡分类过采样方法、装置、设备及介质

    公开(公告)号:CN115481300A

    公开(公告)日:2022-12-16

    申请号:CN202211300942.2

    申请日:2022-10-24

    Abstract: 本发明属于数据不平衡预处理领域,具体涉及一种基于自然邻域密度的数据不平衡分类过采样方法,包括:获得待处理的不平衡数据集;搜索不平衡数据集中的数据,构建所有少数类样本的自然邻域;根据每个少数类样本的自然邻域内同质与异质样本的比例关系,筛选出种子样本集;提取每个种子样本的自然邻域密度;计算每个种子样本的权重信息;通过线性插值的方式合成新样本;汇总新合成样本集、种子样本集与多数类样本集,得到采样后的平衡数据集。本发明根据自然邻域关系的无参数邻域搜索策略,能自适应地搜索合适的邻域,也能有效地区分并过滤噪声样本和离群样本,同时,对邻域进行了合理地泛化,平衡数据分布的同时提高了数据质量。

    一种基于多粒度表示的药物-靶标相互作用预测方法

    公开(公告)号:CN119626315A

    公开(公告)日:2025-03-14

    申请号:CN202411664097.6

    申请日:2024-11-20

    Inventor: 刘群 张秀平 龚旭

    Abstract: 本发明属于生物信息技术领域,具体涉及一种基于多粒度表示的药物‑靶标相互作用预测方法;该方法包括:使用分层网络提取药物分子的增强分子表示;基于氨基酸序列中相邻的残基,分别对氨基酸序列中的一阶信息和二阶信息进行建模,从而提取多阶序列特征;采用Pconsc4工具对多重序列信息进行处理,得到蛋白质的空间结构信息表示;拼接增强分子表示、多阶序列信息和蛋白质的空间结构信息表示,得到融合特征;将融合信息输入到交互预测网络中,得到药物‑靶标相互作用预测结果;本发明不仅能够解决现有方法仅关注单粒度信息的弱点,提高预测准确度,而且表现出可解释性。

    一种结合领域知识的药物分子生成方法

    公开(公告)号:CN115410659A

    公开(公告)日:2022-11-29

    申请号:CN202211061498.3

    申请日:2022-09-01

    Abstract: 本发明涉及药物表示学习领域,具体涉及一种结合领域知识的药物分子生成方法,包括利用构象搜索算法获得分子3D构象,从而获得分子空间信息,利用分子空间信息增强分子的初始表示;利用优化后的谱聚类算法以及优化后的CH聚类评价指标获取分子的分子划分结果;根据分子的增强表示和分子划分结果,利用图卷积神经网络对其编码获得其隐空间嵌入表示,即分别为全局图表示和局部子图表示;利用互信息最大化机制优化全局图表示和局部子图表示,得到富含空间信息和子结构信息的分子表示,并应用于下游分子生成任务;本发明有助于捕捉到分子的空间和结构信息,同时能更好地服务于基于深度学习的药物发现领域相关任务。

Patent Agency Ranking