基于玻尔兹曼噪音多态SMILE式训练大模型的化合物活性预测

    公开(公告)号:CN120048388A

    公开(公告)日:2025-05-27

    申请号:CN202510185355.0

    申请日:2025-02-20

    Abstract: 本发明公开了一种基于玻尔兹曼噪音多态SMILE式训练大模型的化合物活性预测方法,属于计算化学与人工智能交叉领域。方法包括:从Tox21数据集筛选高质量化合物活性数据,通过化学多态性将单条SMILE式扩展为500条异构式;基于生理热力学条件生成玻尔兹曼噪音修正pEC50值,构建多态性训练数据集;采用DORA技术对大型语言模型进行参数高效微调,目标为最小化预测误差。本发明的创新点在于:(1)通过化学多态性扩展实现数据增强,解决小样本学习问题;(2)引入玻尔兹曼噪音模拟生理环境下分子相互作用的不确定性;(3)结合动态低秩适配技术,在保持模型泛化能力的同时提升预测精度。实验表明,本方法在测试集上的MAE显著优于传统QSAR模型。

Patent Agency Ranking