一种基于对比学习的TCR与抗原复合物亲和力预测算法

    公开(公告)号:CN114822680A

    公开(公告)日:2022-07-29

    申请号:CN202210172888.1

    申请日:2022-02-24

    Inventor: 刘辉 房意明

    Abstract: 本发明公布了一种基于自监督对比学习的TCR与抗原复合物亲和力预测算法,包括预训练与预测两个阶段:1)对比学习预训练阶段,使用TCR序列作为训练集,对TCR序列的氨基酸计算注意力权重,以一定概率掩盖部分氨基酸产生新的TCR序列,通过Transformer编码器进行编码,生成两条序列的向量表示(embedding),然后根据对比学习框架,计算两条序列的余弦相似性,归一化温度‑尺度交叉熵(NT‑Xent损失)计算损失,使用梯度下降算法进行损失函数优化。2)下游预测阶段,操作者将待测试的TCR序列与抗原复合物序列,输入至训练好的Transformer编码器得到向量表示,将特征向量串联后输入到全连接网络中预测TCR与抗原复合物亲和力。该实施例中,在样本数32,044和619两个独立的benchmark数据集上分别可以达到acc=0.88、auc=0.09和acc=0.96、auc=0.97,说明本算法具有可靠的预测性能,且对不同的数据集都有很好的鲁棒性。

    一种基于对比学习的TCR与抗原复合物亲和力预测算法

    公开(公告)号:CN114822680B

    公开(公告)日:2024-10-15

    申请号:CN202210172888.1

    申请日:2022-02-24

    Inventor: 刘辉 房意明

    Abstract: 本发明公布了一种基于自监督对比学习的TCR与抗原复合物亲和力预测算法,包括预训练与预测两个阶段:1)对比学习预训练阶段,使用TCR序列作为训练集,对TCR序列的氨基酸计算注意力权重,以一定概率掩盖部分氨基酸产生新的TCR序列,通过Transformer编码器进行编码,生成两条序列的向量表示(embedding),然后根据对比学习框架,计算两条序列的余弦相似性,归一化温度‑尺度交叉熵计算损失,使用梯度下降算法进行损失函数优化。2)下游预测阶段,操作者将待测试的TCR序列与抗原复合物序列,输入至训练好的Transformer编码器得到向量表示,将特征向量串联后输入到全连接网络中预测TCR与抗原复合物亲和力。

Patent Agency Ranking