一种基于知识图谱的分子性质预测大语言模型构建方法

    公开(公告)号:CN119446336A

    公开(公告)日:2025-02-14

    申请号:CN202411471393.4

    申请日:2024-10-22

    Abstract: 本发明公开了一种基于知识图谱的分子性质预测大语言模型构建方法。该方法包括多个步骤:首先,利用高通量数据采集技术获取预训练语料,包括分子属性和代谢途径等相关数据。然后,基于这些数据构建关于十四个端点的知识图谱,知识图谱以三元组形式表示分子与其属性和端点间的关系。接着,使用LoRA技术对大语言模型进行预训练,采用增量学习策略优化模型,并形成专家大模型。随后,利用RAG技术从知识图谱中检索与目标端点相关的三元组,并对检索结果进行整理。通过提示词设计,专家大模型对检索到的三元组进行过滤,提取关键信息。最后,将过滤后的三元组列表转化为自然语言输入给专家大模型,生成分子性质的预测结果并提供推理依据。该方法显著提升了分子与端点化学反应预测的准确性和效率。

Patent Agency Ranking