-
公开(公告)号:CN113658641B
公开(公告)日:2024-07-26
申请号:CN202110819164.7
申请日:2021-07-20
Applicant: 北京大学
IPC: G16B30/00 , G16B40/00 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请提供了一种噬菌体分类方法、装置、设备及存储介质,涉及生物测序技术领域。本申请将从噬菌体全基因组数据提取出的短序列样本进行独热编码,直接使用碱基信息训练预先构建的深度神经网络,得到能够基于短序列信息,鉴定噬菌体属于温和噬菌体还是烈性噬菌体的分类器。鉴于宏基因组测序得到的噬菌体序列长度跨度较大,本申请设置对应四组不同长度区间的深度神经网络,各组长度区间下的深度神经网络学习不同长度的序列特征,提高预测性能。另外针对长度超过四组长度区间的序列,设置了基于权重的预测方法,使得本申请可以对任意长度的噬菌体序列进行分类。本申请还对短序列样本进行补序,扩充训练数据,提高了深度神经网络的分类性能。
-
公开(公告)号:CN113658641A
公开(公告)日:2021-11-16
申请号:CN202110819164.7
申请日:2021-07-20
Applicant: 北京大学
Abstract: 本申请提供了一种噬菌体分类方法、装置、设备及存储介质,涉及生物测序技术领域。本申请将从噬菌体全基因组数据提取出的短序列样本进行独热编码,直接使用碱基信息训练预先构建的深度神经网络,得到能够基于短序列信息,鉴定噬菌体属于温和噬菌体还是烈性噬菌体的分类器。鉴于宏基因组测序得到的噬菌体序列长度跨度较大,本申请设置对应四组不同长度区间的深度神经网络,各组长度区间下的深度神经网络学习不同长度的序列特征,提高预测性能。另外针对长度超过四组长度区间的序列,设置了基于权重的预测方法,使得本申请可以对任意长度的噬菌体序列进行分类。本申请还对短序列样本进行补序,扩充训练数据,提高了深度神经网络的分类性能。
-