Patent search ap:("桂林理工大学") AND inv:"曾文武" Page 1

1.

发明公开
一种DNA结合蛋白领域特异的大规模蛋白质语言模型无效

公开(公告)号：CN117854595A

公开(公告)日：2024-04-09

申请号：CN202311604588.7

申请日：2023-11-28

Applicant: 桂林理工大学

Inventor： 谢晓兰 , 邹海涛 , 曾文武

IPC: G16B40/00 , G16B50/00 , G16B30/10 , G06N3/0442 , G06N3/045 , G06N3/0499 , G06N3/088

Abstract: 本发明公开了一种DNA结合蛋白（DBP）领域特异的大规模蛋白质语言模型（PLM）。包括：注释为DBP序列的UniProtKB数据集，基于全空间多任务模型(ESM2)构建非冗余DBP序列，基于ESM2的领域自适应预训练，微调下游任务；本发明在四个与DBP相关的下游任务（即DNA结合蛋白、DNA结合残基、转录因子和DNA结合Cys2His2锌指预测）上的实验结果表明，与原始ESM2相比，ESM‑DBP提供了更好的DBP特征表征，从而提高了预测性能，在准确性上优于其他最先进的预测方法。通过对集成梯度算法的可解释性分析，ESM‑DBP在转录因子预测方面的突出表现主要来自于对各种DNA结合域的高灵敏度。此外，本发明对那些只有少量相似同源序列的DBP也有很好的表现，而且这种泛化效果比ESM2更好。

Patent Agency Ranking