-
公开(公告)号:CN109559781A
公开(公告)日:2019-04-02
申请号:CN201811244350.7
申请日:2018-10-24
Applicant: 成都信息工程大学
Abstract: 本发明提出了一种预测DNA-蛋白质结合的双向LSTM和CNN模型,其中包括输入层、BLSTM层、卷积层、最大池化层、全连接层和输出层。输入层使用独热编码将每个输入序列表示为4行二进制矩阵;在BLSTM层中,前一层中的每个LSTM模型将从输入序列中接收DNA上感兴趣的信息,对从过去历史信息传递到隐藏状态的贡献进行编码解释;然后将其传播到下一个BLSTM模块中;卷积层中每个卷积核扫描输入的矩阵用于模体发现,不同强度的信息关联潜在的序列模式;最大池化层用于最大化每个卷积核的输出信号使其成一个完整的序列;输出层执行非线性转换以确定DNA-蛋白质结合的特征信息。
-
公开(公告)号:CN109272056B
公开(公告)日:2021-09-21
申请号:CN201811280097.0
申请日:2018-10-30
Applicant: 成都信息工程大学
IPC: G06K9/62
Abstract: 本发明公开了一种基于伪负样本的数据平衡方法及提高数据分类性能的方法,包括步骤:步骤1:正负样本分离,得到正样本集和负样本集;步骤2:计算得到负样本皮尔逊相关系数集合;步骤3:将伪负样本集和被挑选样本集初始化;步骤4:使用最大相关‑最小冗余方法计算权重,得到权重集合;步骤5:挑选出最大权重,更新伪负样本集和被挑选样本集;步骤6:重复步骤4和步骤5,直到挑选出伪负样本集;步骤7:将挑选出的伪负样本集并入正样本集,同时,从所述负样本集中剔除挑选出的伪负样本集;本发明首次提出并定义了伪负样本的概念,提出的算法可提高数据分类准确性,进而提高分类器性能,特别是在处理不平衡的生物信息数据方面优势明显。
-
公开(公告)号:CN109272056A
公开(公告)日:2019-01-25
申请号:CN201811280097.0
申请日:2018-10-30
Applicant: 成都信息工程大学
IPC: G06K9/62
Abstract: 本发明公开了一种基于伪负样本的数据平衡方法及提高数据分类性能的方法,包括步骤:步骤1:正负样本分离,得到正样本集和负样本集;步骤2:计算得到负样本皮尔逊相关系数集合;步骤3:将伪负样本集和被挑选样本集初始化;步骤4:使用最大相关-最小冗余方法计算权重,得到权重集合;步骤5:挑选出最大权重,更新伪负样本集和被挑选样本集;步骤6:重复步骤4和步骤5,直到挑选出伪负样本集;步骤7:将挑选出的伪负样本集并入正样本集,同时,从所述负样本集中剔除挑选出的伪负样本集;本发明首次提出并定义了伪负样本的概念,提出的算法可提高数据分类准确性,进而提高分类器性能,特别是在处理不平衡的生物信息数据方面优势明显。
-
公开(公告)号:CN111312329B
公开(公告)日:2023-03-24
申请号:CN202010115572.X
申请日:2020-02-25
Applicant: 成都信息工程大学
IPC: G16B15/30 , G16B30/00 , G16B40/00 , G06N3/0464 , G06N3/045 , G06N3/0442
Abstract: 本发明公开一种基于深度卷积自动编码器的转录因子结合位点预测的方法,应用于计算机技术和生物信息技术领域,为了解决模型对没有结合位点的阴性序列样本的依赖性同时提高模型泛化能力;本发明首先通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段,从而获得原始数据集;然后对原始数据集进行预处理,得到训练数据集;其次将训练数据集输入卷积自动编码器进行训练;最后根据训练完成的卷积自动编码器进行结合位点识别;实验证明本发明能够针对不同细胞系的不同转录因子结合位点预测,且具备高准确率识别的效果。
-
公开(公告)号:CN111312329A
公开(公告)日:2020-06-19
申请号:CN202010115572.X
申请日:2020-02-25
Applicant: 成都信息工程大学
Abstract: 本发明公开一种基于深度卷积自动编码器的转录因子结合位点预测的方法,应用于计算机技术和生物信息技术领域,为了解决模型对没有结合位点的阴性序列样本的依赖性同时提高模型泛化能力;本发明首先通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段,从而获得原始数据集;然后对原始数据集进行预处理,得到训练数据集;其次将训练数据集输入卷积自动编码器进行训练;最后根据训练完成的卷积自动编码器进行结合位点识别;实验证明本发明能够针对不同细胞系的不同转录因子结合位点预测,且具备高准确率识别的效果。
-
-
-
-