-
公开(公告)号:CN117831608A
公开(公告)日:2024-04-05
申请号:CN202410033433.0
申请日:2024-01-09
Applicant: 北京大学
Abstract: 本发明提供了一种人工微生物群落从头设计方法、装置、设备及存储介质,涉及微生物群落设计技术领域。该方法包括:构建得到大规模微生物对应的基因组规模代谢网络模型(GEM)候选池,基于设计目标确定底物和产物,以广度优先搜索的方式从该GEM候选池中识别具有生物意义的生物合成或降解途径,鉴定微生物是否具有从底物到若干个衔接物最终到产物的部分或完整通路;再定量推断单一微生物及微生物群落的最大化代谢目标效率时的稳态代谢通量分布,筛选出高生长、高代谢目标效率的候选微生物群落;最后利用深度学习算法预测候选微生物群落的共现概率,最终实现从大规模候选微生物池中从头设计满足预设功能(目标物质的高效生产或降解)的人工微生物群落。
-
公开(公告)号:CN113658633B
公开(公告)日:2023-10-20
申请号:CN202110819120.4
申请日:2021-07-20
Applicant: 北京大学
IPC: G16B5/00 , G16B30/10 , G16B50/00 , G06F18/214 , G06F18/20
Abstract: 本申请提供了一种噬菌体宿主属预测方法、装置、设备及存储介质,涉及生物测序技术领域。能够根据噬菌体的短序列片段,直接预测噬菌体的宿主属。本申请构建了第一预设模型和第二预设模型,第一预设模型针对待检测噬菌体片段与每个候选宿主属的配输出第一得分,第一预设模型打分依据是待检测噬菌体片段的序列特征和蛋白编码特征、候选宿主属的序列特征。根据第一预设模型的打分获得多个目标候选宿主属,再将待检测噬菌体片段的密码子序列依次输入目标候选宿主属下的多个原核生物的马尔可夫链模型,根据原核生物的马尔可夫链模型输出的得分,确定每个目标候选宿主属的第三得分,根据第一得分和第三得分,确定目标宿主属。
-
公开(公告)号:CN113658641B
公开(公告)日:2024-07-26
申请号:CN202110819164.7
申请日:2021-07-20
Applicant: 北京大学
IPC: G16B30/00 , G16B40/00 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请提供了一种噬菌体分类方法、装置、设备及存储介质,涉及生物测序技术领域。本申请将从噬菌体全基因组数据提取出的短序列样本进行独热编码,直接使用碱基信息训练预先构建的深度神经网络,得到能够基于短序列信息,鉴定噬菌体属于温和噬菌体还是烈性噬菌体的分类器。鉴于宏基因组测序得到的噬菌体序列长度跨度较大,本申请设置对应四组不同长度区间的深度神经网络,各组长度区间下的深度神经网络学习不同长度的序列特征,提高预测性能。另外针对长度超过四组长度区间的序列,设置了基于权重的预测方法,使得本申请可以对任意长度的噬菌体序列进行分类。本申请还对短序列样本进行补序,扩充训练数据,提高了深度神经网络的分类性能。
-
公开(公告)号:CN117894372A
公开(公告)日:2024-04-16
申请号:CN202410050281.5
申请日:2024-01-12
Applicant: 北京大学
Abstract: 本发明提供一种基于深度学习的16S rRNA基因测序引物设计方法及系统,涉及引物设计技术领域。首先获取目标细菌群落相关的属列表,基于属列表得到代表性16S rRNA基因全长序列,利用预先训练的区域划分模型预测代表性全长序列的各个可变区域及保守区域,确定符合测序平台要求的候选扩增区域用于引物设计,针对每个候选扩增区域确定对应的正向引物结合区序列集和反向引物结合区序列集,基于两种序列集分别进行多序列比对得到候选特异性引物对,最后筛选得到目标细菌群落特异性引物对。本发明无需进行16S rRNA基因全长序列多序列比对,直接基于区域划分模型划分确定出候选扩增区域进行多序列比对,可有效节省运算时间和使用内存,提高引物设计流程的整体效率。
-
公开(公告)号:CN113658641A
公开(公告)日:2021-11-16
申请号:CN202110819164.7
申请日:2021-07-20
Applicant: 北京大学
Abstract: 本申请提供了一种噬菌体分类方法、装置、设备及存储介质,涉及生物测序技术领域。本申请将从噬菌体全基因组数据提取出的短序列样本进行独热编码,直接使用碱基信息训练预先构建的深度神经网络,得到能够基于短序列信息,鉴定噬菌体属于温和噬菌体还是烈性噬菌体的分类器。鉴于宏基因组测序得到的噬菌体序列长度跨度较大,本申请设置对应四组不同长度区间的深度神经网络,各组长度区间下的深度神经网络学习不同长度的序列特征,提高预测性能。另外针对长度超过四组长度区间的序列,设置了基于权重的预测方法,使得本申请可以对任意长度的噬菌体序列进行分类。本申请还对短序列样本进行补序,扩充训练数据,提高了深度神经网络的分类性能。
-
公开(公告)号:CN114496070A
公开(公告)日:2022-05-13
申请号:CN202210074550.2
申请日:2022-01-21
Applicant: 北京大学
IPC: G16B20/00
Abstract: 本发明实施例提供了一种转录组序列分类方法、装置、电子设备及计算机可读存储介质,本发明实施例中,转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列,从而,本发明实施例采用的转录组序列分类预测模型,可以结合待分类转录组序列的碱基序列、密码子序列和氨基酸序列,准确地预测该待分类转录组序列所属的微生物类别。本发明实施例中,通过对转录组序列进行比对和预测,可以确定转录组序列所属的微生物类别。从而可以从虫媒介宏转录组中发现更多的未知的RNA病毒(主要的人类病毒),以作为疾病的检测、防控,以及新病毒或其他病原体的研究的基础。
-
公开(公告)号:CN113658633A
公开(公告)日:2021-11-16
申请号:CN202110819120.4
申请日:2021-07-20
Applicant: 北京大学
Abstract: 本申请提供了一种噬菌体宿主属预测方法、装置、设备及存储介质,涉及生物测序技术领域。能够根据噬菌体的短序列片段,直接预测噬菌体的宿主属。本申请构建了第一预设模型和第二预设模型,第一预设模型针对待检测噬菌体片段与每个候选宿主属的配输出第一得分,第一预设模型打分依据是待检测噬菌体片段的序列特征和蛋白编码特征、候选宿主属的序列特征。根据第一预设模型的打分获得多个目标候选宿主属,再将待检测噬菌体片段的密码子序列依次输入目标候选宿主属下的多个原核生物的马尔可夫链模型,根据原核生物的马尔可夫链模型输出的得分,确定每个目标候选宿主属的第三得分,根据第一得分和第三得分,确定目标宿主属。
-
公开(公告)号:CN1566365A
公开(公告)日:2005-01-19
申请号:CN03147763.1
申请日:2003-06-24
Applicant: 北京大学
IPC: C12Q1/68
Abstract: 本发明涉及微生物基因组序列分析、微生物基因识别、微生物物种识别等生物信息技术,包括以下步骤:a.设置部分已知编码的ORF和非编码的ORF,作为初始状态的聚类中心点;b.读取微生物DNA序列;c.从上述序列中找出所有最长的ORF,并记录它们在此序列中的位置;d.对该微生物DNA序列进行分析判别,将其分为编码序列、非编码序列和未定编码序列;e.将未定编码序列加入聚类中心点,重复步骤d,直到未定编码序列都归入到编码序列或者非编码序列;f.将分为编码序列的候选基因定为编码蛋白的基因。采用本发明地测试方法,可以方便准确地测试出基因组序列,与现有技术相比较,其测试精度明显提高,其测试方法简便易行。
-
公开(公告)号:CN114496070B
公开(公告)日:2024-11-01
申请号:CN202210074550.2
申请日:2022-01-21
Applicant: 北京大学
IPC: G16B20/00
Abstract: 本发明实施例提供了一种转录组序列分类方法、装置、电子设备及计算机可读存储介质,本发明实施例中,转录组序列分类预测模型预先学习了多个已知类别的微生物的转录组序列的碱基序列、密码子序列和氨基酸序列,从而,本发明实施例采用的转录组序列分类预测模型,可以结合待分类转录组序列的碱基序列、密码子序列和氨基酸序列,准确地预测该待分类转录组序列所属的微生物类别。本发明实施例中,通过对转录组序列进行比对和预测,可以确定转录组序列所属的微生物类别。从而可以从虫媒介宏转录组中发现更多的未知的RNA病毒(主要的人类病毒),以作为疾病的检测、防控,以及新病毒或其他病原体的研究的基础。
-
公开(公告)号:CN116415190A
公开(公告)日:2023-07-11
申请号:CN202111626354.3
申请日:2021-12-28
Applicant: 北京大学
IPC: G06F18/2415 , G06F18/214 , G16B30/00
Abstract: 本发明实施例提供了一种病毒分类方法、装置、电子设备及计算机可读存储介质,本发明实施例中,以3‑mer的形式从目标DNA序列中按照顺序提取三联体核苷酸集合,再利用距离依赖函数确定该三联体核苷酸集合对应的距离依赖矩阵。从而利用距离依赖矩阵表示目标DNA序列,作为病毒分类模型的输入,以对目标DNA序列所属类别(真核病毒或者原核病毒)进行预测。本发明实施例中,病毒分类模型预先学习了多个具有标签的已知DNA序列的距离依赖矩阵。从而病毒分类模型不仅可以学习到不同类型的DNA片段的局部信息,还可以学习到顺序信息和远程信息。从而本发明实施例可以利用目标DNA序列对应的距离依赖矩阵,准确地预测得到目标DNA序列所属类别。
-
-
-
-
-
-
-
-
-