-
公开(公告)号:CN113658633B
公开(公告)日:2023-10-20
申请号:CN202110819120.4
申请日:2021-07-20
Applicant: 北京大学
IPC: G16B5/00 , G16B30/10 , G16B50/00 , G06F18/214 , G06F18/20
Abstract: 本申请提供了一种噬菌体宿主属预测方法、装置、设备及存储介质,涉及生物测序技术领域。能够根据噬菌体的短序列片段,直接预测噬菌体的宿主属。本申请构建了第一预设模型和第二预设模型,第一预设模型针对待检测噬菌体片段与每个候选宿主属的配输出第一得分,第一预设模型打分依据是待检测噬菌体片段的序列特征和蛋白编码特征、候选宿主属的序列特征。根据第一预设模型的打分获得多个目标候选宿主属,再将待检测噬菌体片段的密码子序列依次输入目标候选宿主属下的多个原核生物的马尔可夫链模型,根据原核生物的马尔可夫链模型输出的得分,确定每个目标候选宿主属的第三得分,根据第一得分和第三得分,确定目标宿主属。
-
公开(公告)号:CN113658633A
公开(公告)日:2021-11-16
申请号:CN202110819120.4
申请日:2021-07-20
Applicant: 北京大学
Abstract: 本申请提供了一种噬菌体宿主属预测方法、装置、设备及存储介质,涉及生物测序技术领域。能够根据噬菌体的短序列片段,直接预测噬菌体的宿主属。本申请构建了第一预设模型和第二预设模型,第一预设模型针对待检测噬菌体片段与每个候选宿主属的配输出第一得分,第一预设模型打分依据是待检测噬菌体片段的序列特征和蛋白编码特征、候选宿主属的序列特征。根据第一预设模型的打分获得多个目标候选宿主属,再将待检测噬菌体片段的密码子序列依次输入目标候选宿主属下的多个原核生物的马尔可夫链模型,根据原核生物的马尔可夫链模型输出的得分,确定每个目标候选宿主属的第三得分,根据第一得分和第三得分,确定目标宿主属。
-
公开(公告)号:CN113658641B
公开(公告)日:2024-07-26
申请号:CN202110819164.7
申请日:2021-07-20
Applicant: 北京大学
IPC: G16B30/00 , G16B40/00 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请提供了一种噬菌体分类方法、装置、设备及存储介质,涉及生物测序技术领域。本申请将从噬菌体全基因组数据提取出的短序列样本进行独热编码,直接使用碱基信息训练预先构建的深度神经网络,得到能够基于短序列信息,鉴定噬菌体属于温和噬菌体还是烈性噬菌体的分类器。鉴于宏基因组测序得到的噬菌体序列长度跨度较大,本申请设置对应四组不同长度区间的深度神经网络,各组长度区间下的深度神经网络学习不同长度的序列特征,提高预测性能。另外针对长度超过四组长度区间的序列,设置了基于权重的预测方法,使得本申请可以对任意长度的噬菌体序列进行分类。本申请还对短序列样本进行补序,扩充训练数据,提高了深度神经网络的分类性能。
-
公开(公告)号:CN113658641A
公开(公告)日:2021-11-16
申请号:CN202110819164.7
申请日:2021-07-20
Applicant: 北京大学
Abstract: 本申请提供了一种噬菌体分类方法、装置、设备及存储介质,涉及生物测序技术领域。本申请将从噬菌体全基因组数据提取出的短序列样本进行独热编码,直接使用碱基信息训练预先构建的深度神经网络,得到能够基于短序列信息,鉴定噬菌体属于温和噬菌体还是烈性噬菌体的分类器。鉴于宏基因组测序得到的噬菌体序列长度跨度较大,本申请设置对应四组不同长度区间的深度神经网络,各组长度区间下的深度神经网络学习不同长度的序列特征,提高预测性能。另外针对长度超过四组长度区间的序列,设置了基于权重的预测方法,使得本申请可以对任意长度的噬菌体序列进行分类。本申请还对短序列样本进行补序,扩充训练数据,提高了深度神经网络的分类性能。
-
-
-