-
公开(公告)号:CN119948566A
公开(公告)日:2025-05-06
申请号:CN202280098500.6
申请日:2022-08-02
IPC: G16B15/20
Abstract: 本申请公开了一种蛋白质结构预测方法和装置,该方法包括:获取第一氨基酸序列;基于第一氨基酸序列中多个氨基酸在第一氨基酸序列中的上下文关系,生成第一多序列比对MSA数据;基于第一MSA数据分别进行N次预测,得到蛋白质的N个3D结构,N为正整数。通过本申请,可以有效缩短蛋白质结构预测过程的时长,提升用于进行蛋白质结构预测的MSA数据的准确率,且对于自然界中的孤儿序列,也可以准确地预测其蛋白质结构。
-
公开(公告)号:CN118136094A
公开(公告)日:2024-06-04
申请号:CN202410237524.6
申请日:2024-03-01
Applicant: 北京昌平实验室
IPC: G16B15/00
Abstract: 本说明书涉及生物信息技术领域,尤其涉及一种高分子物质的表示方法、生成方法、搜索方法以及计算机设备。其中所述的表示方法,包括:获取高分子物质的结构数据;在高分子物质为多链的条件下,在所述结构数据中提取单链结构数据;根据单链结构数据,对多链的对称性进行解析;根据解析结果对单链结构数据进行压缩编码,得到单链结构压缩码;根据单链结构压缩码,确定用于表示高分子物质三维结构的结构压缩码。本说明书实施例可以对高分子物质的三维结构进行高效编码、以及基于结构压缩码高保真地复原三维结构。
-
公开(公告)号:CN117476113A
公开(公告)日:2024-01-30
申请号:CN202311501603.5
申请日:2023-11-10
IPC: G16B40/00 , G06N3/0455 , G06N3/08
Abstract: 本发明提供了一种预训练模型的模型训练方法和装置、存储介质及电子设备,其中,该方法包括:获取训练掩码序列集,其中,训练掩码序列集中的每个训练掩码序列是对一个抗体序列中的部分序列进行掩码处理得到的序列,在每个训练掩码序列中,重链序列的开始位置插入有重链符号,轻链序列的开始位置插入有轻链符号;依次将每个训练掩码序列作为输入序列对待训练的预训练模型执行多轮训练,得到训练好的预训练模型,其中,预训练模型包括编码器和解码器,编码器用于将输入序列的序列向量编码为对应的特征编码向量,解码器用于基于编码器输出的特征编码向量解码出编码器的输入序列中被掩码的部分序列;能够提高预训练模型的特征表征准确性。
-
-