-
公开(公告)号:CN113724779B
公开(公告)日:2022-06-17
申请号:CN202111027448.9
申请日:2021-09-02
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。
-
公开(公告)号:CN113870949B
公开(公告)日:2022-05-17
申请号:CN202111172443.5
申请日:2021-10-08
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于深度学习的nanopore测序数据碱基识别方法,涉及生物信息学领域,针对现有技术中nanopore测序准确率低的问题,一:下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集;二:对50组原始数据进行碱基识别,得到碱基序列;三:获取准确率在99%以上的Illumina测序序列,并以准确率在99%以上的Illumina测序序列作为参考基因组,以参考基因组作为ground truth并使用Tombo算法对碱基序列进行校正;四:使用Re‑squiggle方法将校正后的碱基序列转换为对应的电信号数据,然后将电信号数据进行标记;五:利用标记后的电信号数据以及原始数据训练神经网络,并利用训练好的神经网络进行碱基识别。本申请实现了对nanopore测序数据碱基序列高准确的识别。
-
公开(公告)号:CN116259363A
公开(公告)日:2023-06-13
申请号:CN202310255871.7
申请日:2023-03-16
Applicant: 东北林业大学
Abstract: 一种基于深度学习的植物抗旱基因的识别方法,为了解决现有的植物抗旱基因识别方法耗时长,成本大或过度依赖序列同源性,导致预测结果准确率低的问题。它包括以下步骤:首先获取不同植物的氨基酸序列及其对应的样本标签,样本标签为是否具有抗旱基因;将每条氨基酸序列分为多个长度为2的kmer,根据kmer提取每条氨基酸序列的特征;构建的BiLSTM‑Attention模型依次包括输入层、词嵌入层、特征提取层、注意力层和输出层,将每条氨基酸序列的特征输入BiLSTM‑Attention模型中进行训练,输出所述氨基酸序列是否具有抗旱基因。属于基因识别领域。
-
公开(公告)号:CN114627964A
公开(公告)日:2022-06-14
申请号:CN202111069507.9
申请日:2021-09-13
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 一种基于多核学习预测增强子及其强度分类方法及分类设备,本发明涉及基于多核学习预测增强子及其强度分类方法及分类设备。本发明的目的是为了解决现有方法需要花费大量的人力物力去制备实验所需的试剂,以及通过生物实验注释DNA片段功能,效率低的问题。过程为:获取带标签的DNA测序序列;使用三种特征描述符进行编码转换为向量;分别对得到的向量进行特征筛选获得各自的F值,分别进行降维排序,选出各自对应的最佳的特征子集;计算每个高斯函数对应的最佳权重;构建增强子预测模型;构建强弱增强子预测模型;通过构建好的增强子预测模型和强弱增强子预测模型对待测DNA测序序列进行判断。本发明用于生物信息技术领域。
-
公开(公告)号:CN113764045A
公开(公告)日:2021-12-07
申请号:CN202111056316.9
申请日:2021-09-09
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备,属于计算机与蛋白质识别结合技术领域。本发明为了解决现有的DNA结合蛋白识别方法存在不能兼顾通用性和识别准确率的问题。本发明利用DNA结合蛋白识别分类器对待识别的DNA结合蛋白进行识别;DNA结合蛋白识别分类器的确定过程中,首先获取处理的DNA结合蛋白特征数据集;采用不同的提取算法提取DNA结合蛋白数据集的数据特征,得到多个特征文件;并将不同特征提取算法提取的序列特征矩阵拼接起来,得到拼接后的特征矩阵;然后对生成的特征矩阵进行规范化处理,使用MRMD算法矩阵进行降维处理;最后使用XGboost算法构建并训练DNA结合蛋白识别分类器模型。主要用于DNA结合蛋白的识别。
-
公开(公告)号:CN118298925A
公开(公告)日:2024-07-05
申请号:CN202410490998.1
申请日:2024-04-23
Applicant: 东北林业大学
IPC: G16B40/00 , G16B10/00 , G16B20/00 , G16B30/00 , G06N3/0442 , G06N3/045 , G06N3/0464 , G06N3/048 , G06N3/096
Abstract: 基于迁移学习的植物NLR‑无毒蛋白Avr对应关系识别方法,涉及蛋白质互作识别领域。本发明是为了解决由于现有NLR和无毒蛋白对应关系识别方法还存在识别成本高、单位时间内识别效率低导致NLR在抗性育种中应用受限的问题。本发明包括:利用已知对应关系的NLR‑Avr蛋白质序列对构建蛋白质序列对数据集,并将蛋白质序列对数据集划分为训练集和验证集;利用训练集训练Avr‑BAN模型,获得训练好的Avr‑BAN模型,利用验证集对训练好的Avr‑BAN模型验证,获得植物NLR‑待测无毒蛋白预测模型;将待测植物NLR和待测无毒蛋白输入到植物NLR‑待测无毒蛋白预测模型中,获得待测植物NLR和待测无毒蛋白的对应关系概率;本发明用于预测植物NLR和无毒蛋白Avr的对应关系。
-
公开(公告)号:CN113611355B
公开(公告)日:2022-07-29
申请号:CN202110950026.2
申请日:2021-08-18
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,涉及医药技术领域,针对现有技术中根据序列信息预测的二级结构,使用PSI‑PRED等工具提取蛋白质二级结构信息的特征时,预测的蛋白质二级结构存在误差,进而导致抗氧化蛋白识别准确低的问题,本申请提出了一种全新的抗氧化蛋白识别方法,利用蛋白质‑蛋白质相互作用的特征和氨基酸的组成来表达抗氧化蛋白序列的特征,能够实现对抗氧化蛋白的准确识别,为相应蛋白质定位、疾病分析及药物研究提供了理论基础。本申请在处理不平衡的抗氧化蛋白数据时引入了多种不平衡数据处理方法,最终使用SMOTE算法处理数据得到的模型最优,优化了抗氧化蛋白的识别效果。
-
公开(公告)号:CN113724779A
公开(公告)日:2021-11-30
申请号:CN202111027448.9
申请日:2021-09-02
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备,属于生物信息技术领域。为了解决现有的蛋白质识别方法识别SNAREs蛋白存在时间开销大、准确率有待于提高的问题。本发明首先对蛋白序列文件,进行去冗余等预处理,通过BLAST比对提取蛋白序列的PSSM矩阵,从PSSM矩阵中获取蛋白质序列的特征数据,使用最大最小标准化算法对特征数据进行归一化处理,判断数据集的平衡状态,选择Smote‑ENN和Smote‑TOMEK采样算法解决不平衡问题;然后使用SVM‑RFE‑CBR算法对特征进行排序,剔除了排序靠后的噪声特征;使用机器学习中的分类器,使用交叉验证的方法训练模型,最终得到有效识别SNAREs蛋白的模型。主要用于SNAREs蛋白的识别。
-
公开(公告)号:CN114627964B
公开(公告)日:2023-03-24
申请号:CN202111069507.9
申请日:2021-09-13
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
IPC: G16B30/00 , G16B40/20 , G06F18/214 , G06F18/2411 , G06N20/10
Abstract: 一种基于多核学习预测增强子及其强度分类方法及分类设备,本发明涉及基于多核学习预测增强子及其强度分类方法及分类设备。本发明的目的是为了解决现有方法需要花费大量的人力物力去制备实验所需的试剂,以及通过生物实验注释DNA片段功能,效率低的问题。过程为:获取带标签的DNA测序序列;使用三种特征描述符进行编码转换为向量;分别对得到的向量进行特征筛选获得各自的F值,分别进行降维排序,选出各自对应的最佳的特征子集;计算每个高斯函数对应的最佳权重;构建增强子预测模型;构建强弱增强子预测模型;通过构建好的增强子预测模型和强弱增强子预测模型对待测DNA测序序列进行判断。本发明用于生物信息技术领域。
-
公开(公告)号:CN113764045B
公开(公告)日:2022-05-06
申请号:CN202111056316.9
申请日:2021-09-09
Applicant: 东北林业大学 , 电子科技大学长三角研究院(衢州)
Abstract: 基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备,属于计算机与蛋白质识别结合技术领域。本发明为了解决现有的DNA结合蛋白识别方法存在不能兼顾通用性和识别准确率的问题。本发明利用DNA结合蛋白识别分类器对待识别的DNA结合蛋白进行识别;DNA结合蛋白识别分类器的确定过程中,首先获取处理的DNA结合蛋白特征数据集;采用不同的提取算法提取DNA结合蛋白数据集的数据特征,得到多个特征文件;并将不同特征提取算法提取的序列特征矩阵拼接起来,得到拼接后的特征矩阵;然后对生成的特征矩阵进行规范化处理,使用MRMD算法矩阵进行降维处理;最后使用XGboost算法构建并训练DNA结合蛋白识别分类器模型。主要用于DNA结合蛋白的识别。
-
-
-
-
-
-
-
-
-