一种基于掩码语言模型的基因型补全方法及相关设备

    公开(公告)号:CN117594123A

    公开(公告)日:2024-02-23

    申请号:CN202311531832.1

    申请日:2023-11-15

    Inventor: 陈俊杰 梁世琦

    Abstract: 本发明公开了一种基于掩码语言模型的基因型补全方法及相关设备,所述方法包括:获取全基因组单倍体缺失序列以及对应的染色体位置序列,并对全基因组单倍体缺失序列进行映射处理,得到模型输入序列;根据模型输入序列和染色体位置序列对掩码语言模型进行训练和优化,得到基因型补全模型;获取目标全基因组单倍体缺失序列,并输入至基因型补全模型,得到目标缺失基因,并根据目标缺失基因对目标全基因组单倍体缺失序列中的缺失点位进行补全,得到补全后完整的基因序列。本发明能够提高全基因组单倍体序列,特别是低频率等位基因中缺失位点的基因补全准确度,同时也能够提升其基因补全效率。

Patent Agency Ranking