一种鉴定RNA假尿苷位点的新方法
    12.
    发明公开

    公开(公告)号:CN117198396A

    公开(公告)日:2023-12-08

    申请号:CN202311011172.4

    申请日:2023-08-11

    Abstract: 本方案公开了一种鉴定RNA假尿苷位点的新方法,该方法提出使用多种特征表示技术来提取序列特征,然后利用SVM‑RFE方法进行特征选择来压缩特征空间,优化特征子集,将经过特征选择后的最佳特征集输入到基于多项式随机森林的核方法KeMRF中识别序列中的假尿苷位点。KeMRF作为一种新提出的分类方法,与传统的随机森林相比,其不仅优化了节点分裂的判别准则,同时结合易于解释的核方法,使得分类性能更加优越。该方法减少了模型的训练时间,同时提高了模型的分类性能,也进一步提升了对假尿苷位点识别的准确率。

    DNA6mA修饰类别的预测方法、装置、设备和存储介质

    公开(公告)号:CN113409891B

    公开(公告)日:2023-02-03

    申请号:CN202110606033.0

    申请日:2021-05-25

    Inventor: 邹权 张昊宇

    Abstract: 本申请提供了一种DNA6mA修饰类别的预测方法、装置、设备和存储介质。方法包括:获取DNA6mA特征数据集;确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵距离矩阵;对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵;将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对待预测序列的DNA6mA修饰类别进行预测。能够预测序列的DNA6mA修饰类别。

    基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备

    公开(公告)号:CN113724779B

    公开(公告)日:2022-06-17

    申请号:CN202111027448.9

    申请日:2021-09-02

    Abstract: 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。

    基于深度学习的nanopore测序数据碱基识别方法

    公开(公告)号:CN113870949B

    公开(公告)日:2022-05-17

    申请号:CN202111172443.5

    申请日:2021-10-08

    Abstract: 基于深度学习的nanopore测序数据碱基识别方法,涉及生物信息学领域,针对现有技术中nanopore测序准确率低的问题,一:下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集;二:对50组原始数据进行碱基识别,得到碱基序列;三:获取准确率在99%以上的Illumina测序序列,并以准确率在99%以上的Illumina测序序列作为参考基因组,以参考基因组作为ground truth并使用Tombo算法对碱基序列进行校正;四:使用Re‑squiggle方法将校正后的碱基序列转换为对应的电信号数据,然后将电信号数据进行标记;五:利用标记后的电信号数据以及原始数据训练神经网络,并利用训练好的神经网络进行碱基识别。本申请实现了对nanopore测序数据碱基序列高准确的识别。

    一种植物中sgRNA活性预测方法及装置

    公开(公告)号:CN113838529A

    公开(公告)日:2021-12-24

    申请号:CN202111138368.0

    申请日:2021-09-27

    Abstract: 本发明提供一种植物中sgRNA活性预测方法及装置,方法包括:下载sgRNA活性序列数据集,sgRNA活性序列数据集包括植物sgRNA活性数据;采用热编码方法对植物sgRNA活性数据进行编码,得到植物sgRNA序列数据;采用k‑mer编码方法对植物sgRNA序列数据进行二次编码;通过编码后的sgRNA活性序列数据集构建卷积神经网络模型;通过卷积神经网络模型按设定次数n分别对编码后的sgRNA活性序列数据集进行预测训练,得到n个训练模型,将n个训练模型集成,得到卷积神经网络预测模型sgRNACNN;将待预测的植物sgRNA活性序列输入卷积神经网络预测模型sgRNACNN中,得到预测结果。本发明的卷积神经网络预测模型sgRNACNN泛化性能较好,可应用于多物种植物sgRNA活性预测,能够实现对sgRNA活性的准确识别,具有较好的实用性能。

    S-亚硝基化位点预测方法、模型训练方法及存储介质

    公开(公告)号:CN113838524A

    公开(公告)日:2021-12-24

    申请号:CN202111136267.X

    申请日:2021-09-27

    Inventor: 邹权 马家奇 韩轲

    Abstract: 本发明提供S‑亚硝基化位点预测模型的训练方法,预测方法和装置,包括:获取数据文件,对数据文件进行预处理,得到序列样本;根据特征提取算法对所述序列样本进行特征提取,并将序列特征拼接,得到初始特征集;对所述初始特征集进行平衡处理,并根据重要性对所述序列特征进行筛选,得到目标特征集;根据目标特征集对集成分类算法进行训练,得到目标S‑亚硝基化位点预测模型。本发明通过样本预处理手段,以及通过对特征集的优化,解决了通过试验筛选的方法来鉴别SNO位点却费时费力且代价不菲的技术问题,并且使得训练速度更快,训练完成后的目标S‑亚硝基化位点预测模型能够更加有效且准确的对S‑亚硝基化位点进行预测。

    DNA6mA修饰类别的预测方法、装置、设备和存储介质

    公开(公告)号:CN113409891A

    公开(公告)日:2021-09-17

    申请号:CN202110606033.0

    申请日:2021-05-25

    Inventor: 邹权 张昊宇

    Abstract: 本申请提供了一种DNA6mA修饰类别的预测方法、装置、设备和存储介质。方法包括:获取DNA6mA特征数据集;确定所述DNA6mA特征数据集中各个序列间的相似度矩阵;对所述相似度矩阵进行对数化处理,获得所述各个序列间的第一矩阵;对所述距离矩阵进行高斯化处理,获得满足正定性要求的距离矩阵;将所述满足正定性要求的距离矩阵作为支持向量机的自定义核矩阵,并基于支持向量机模型,对待预测序列的DNA6mA修饰类别进行预测。能够预测序列的DNA6mA修饰类别。

    一种植物抗性蛋白识别方法、装置、设备和存储介质

    公开(公告)号:CN112906755A

    公开(公告)日:2021-06-04

    申请号:CN202110111933.8

    申请日:2021-01-27

    Inventor: 徐磊 王彦苏 邹权

    Abstract: 本申请提供了一种植物抗性蛋白识别方法、装置、设备和存储介质。方法包括:获取植物抗性蛋白的序列数据,组成正训练集、负训练集和测试集;提取正训练集和负训练集中的数据特征;将所有的数据特征进行拼接,获得特征集;进行特征选择,以获取目标特征子集;筛选出预设分类模型和预设k值;基于目标特征子集,对预设分类模型进行训练;基于测试集,对训练后的分类模型进行分类性能测试,直至获得性能满足预设条件的目标分类模型;基于目标分类模型,对序列数据进行结构域和跨膜蛋白预测,并搭建植物抗性蛋白分类预测器,以用于植物抗性蛋白识别。能够实现准确识别植物抗性蛋白。

Patent Agency Ranking