-
公开(公告)号:CN117497054A
公开(公告)日:2024-02-02
申请号:CN202311394977.1
申请日:2023-10-25
Applicant: 鹏城实验室
IPC: G16B30/00 , G16B5/00 , G06F18/214
Abstract: 本申请实施例提供了一种多肽序列构建方法和装置、设备及存储介质,属于生物信息技术领域。该方法包括:获取包含具备靶向信息和预设性质信息的多肽训练序列的蛋白质训练数据集;根据多肽训练序列对预设的原始多肽序列预测模型进行模型参数微调得到目标多肽序列预测模型;获取包括参考多肽序列的参考多肽序列集;通过目标多肽序列预测模型对参考多肽序列进行序列预测得到多肽预测序列;根据参考多肽序列和多肽预测序列组合形成候选多肽序列;对候选多肽序列进行结构预测得到多肽结构信息;根据预设的筛选条件和多肽结构信息对候选多肽序列进行筛选处理得到目标多肽序列。本申请实施例能够生成方向性且质量更高的多肽序列。
-
公开(公告)号:CN117292756A
公开(公告)日:2023-12-26
申请号:CN202311136170.8
申请日:2023-09-01
Applicant: 鹏城实验室
IPC: G16B40/20 , G16B20/00 , G06F18/211 , G06F18/214 , G06F18/24 , G06F18/27 , G06N3/0464 , G06N3/047
Abstract: 本申请实施例提供了病毒性质预测模型训练方法和病毒性质预测方法,通过由病毒蛋白质序列数据集提取的特征训练预测模型得到目标预测模型;在训练模型的过程中,根据第一模型预测结果、回归标签和第一惩罚指数得到回归任务的回归损失函数值,根据第二模型预测结果、分类标签、第二惩罚指数和权重系数得到分类任务的分类损失函数值,根据回归损失函数值和分类损失函数值调整模型参数,通过第一惩罚指数指导对回归任务中的负样本的惩罚程度,通过第二惩罚指数指导对分类任务中的负样本的惩罚程度,通过权重系数调整分类损失函数对于分类任务的正样本的注重程度,从而解决训练数据正负样本不平衡问题。
-
公开(公告)号:CN117393047A
公开(公告)日:2024-01-12
申请号:CN202311155326.7
申请日:2023-09-07
Applicant: 鹏城实验室
IPC: G16B30/10 , G16B40/00 , G16B5/20 , G16B15/30 , G06F18/22 , G06F18/2415 , G06N3/0464 , G06N3/0455 , G06N3/08
Abstract: 本申请涉及蛋白质多肽设计技术领域,提供了一种基于语言模型的抗病毒多肽序列设计方法,该利用目标病毒在病毒分类体系中所属更高类别的病毒的多肽序列进行分层筛选,即利用适用于对抗第一类别的病毒的多肽序列训练语言模型,以使语言模型能够按照适用于对抗第一类别的病毒的多肽序列生成候选多肽序列,同时利用适用于对抗第二类别的病毒的多肽序列训练多肽序列分类模型,以使多肽序列分类模型能够筛选出适用于对抗第二类别的候选多肽序列,最后利用适用于对抗目标病毒的多肽序列从序列相似度层面筛选候选多肽序列,将自然语言处理技术迁移到蛋白质工程领域通过分层式筛选不断缩小目标多肽序列的范围,降低抗病毒多肽序列的设计时间和资金成本。
-
-