基于自动编码器样本匹配的缺失基因型填充方法

    公开(公告)号:CN117637021A

    公开(公告)日:2024-03-01

    申请号:CN202311691018.6

    申请日:2023-12-11

    Applicant: 扬州大学

    Abstract: 本发明提供了一种基于自动编码器样本匹配的缺失基因型填充方法,实现了对缺失基因型的低成本精确填充,能够为各种遗传分析工作提供更为准确的基因数据支撑。本发明将目标数据文件中每个位置上样本的基因型信息数值进行转换并最终编码为独热编码,划分训练集和测试集,继而构建卷积去噪自编码器模型。本发明使用自动预处理策略,将参与填充的样本数据集进行分段处理,降低了装置内存占用,使得用户仅使用较低成本的装置就可以顺利进行高精度的基因型填充。本发明填充精度高,模型结构简单可靠,训练效率高,在基因序列分析领域具有广阔的应用前景,可用于后续的生物全基因组关联分析和全基因组选择工作。

Patent Agency Ranking