一种基于大型语言模型的酶活参数抽取方法与系统

    公开(公告)号:CN119443093A

    公开(公告)日:2025-02-14

    申请号:CN202510050672.1

    申请日:2025-01-13

    Abstract: 本发明提出了一种基于大型语言模型的酶活参数抽取方法与系统,属于文本信息处理和数据挖掘领域。本发明通过OCR技术将PDF格式文献转换为Markdown格式,随后利用大型语言模型结合优化的提示词自动提取关键数据;自动提取流程经过严格的提示词优化和后处理操作,确保数据的准确性和一致性;然后通过精确度和召回率验证自动提取的有效性,最终生成的酶数据库可供后续的研究和分析使用。本发明通过结合OCR技术与大型语言模型,突破了现有手动数据提取的局限,显著提升了文献解析和数据提取的自动化程度;通过提示词工程和优化的提示词设计,实现了复杂文献中的结构化数据自动提取,特别是对于酶动力学参数的精确识别和提取。

    一种基于多层奖励和分步训练的知识图谱截取方法和设备

    公开(公告)号:CN116796836A

    公开(公告)日:2023-09-22

    申请号:CN202310856616.8

    申请日:2023-07-12

    Abstract: 本发明涉及一种基于多层奖励和分步训练的知识图谱截取方法和设备,用于根据知识图谱中选定的多个节点,得到与选定节点所属领域相关的子图,方法包括数学建模、分布训练和模型使用三部分。在数学建模过程中设计基于episode和基于step的奖励,在训练过程中首先基于有监督学习的策略网络初步训练,然后基于奖励的再训练。与现有技术相比,本发明实现从知识图谱中基于给定的若干节点来截取所属领域的子图的同时,具有模型建模准确度高、训练收敛性好等优点。

Patent Agency Ranking