一种基于大型语言模型的酶活参数抽取方法与系统

    公开(公告)号:CN119443093A

    公开(公告)日:2025-02-14

    申请号:CN202510050672.1

    申请日:2025-01-13

    Abstract: 本发明提出了一种基于大型语言模型的酶活参数抽取方法与系统,属于文本信息处理和数据挖掘领域。本发明通过OCR技术将PDF格式文献转换为Markdown格式,随后利用大型语言模型结合优化的提示词自动提取关键数据;自动提取流程经过严格的提示词优化和后处理操作,确保数据的准确性和一致性;然后通过精确度和召回率验证自动提取的有效性,最终生成的酶数据库可供后续的研究和分析使用。本发明通过结合OCR技术与大型语言模型,突破了现有手动数据提取的局限,显著提升了文献解析和数据提取的自动化程度;通过提示词工程和优化的提示词设计,实现了复杂文献中的结构化数据自动提取,特别是对于酶动力学参数的精确识别和提取。

    科学文献信息抽取方法、装置、计算机设备和存储介质

    公开(公告)号:CN117668173A

    公开(公告)日:2024-03-08

    申请号:CN202311367647.3

    申请日:2023-10-20

    Abstract: 本申请涉及一种科学文献信息抽取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取参考科学文献,基于所述参考科学文献的属性确定信息抽取方式,基于所述参考科学文献和信息抽取方式构建信息抽取指令集,所述信息抽取指令集包括对应不同信息的信息抽取指令,基于所述信息抽取指令集标注所述参考科学文献,得到信息抽取数据集,所述信息抽取数据集包括标注信息,基于所述参考科学文献和信息抽取数据集训练初始信息抽取模型,得到目标信息抽取模型,将待处理科学文献和用户信息抽取指令输入所述目标信息抽取模型,得到目标信息抽取结果。实现了从多元异构的科学文献中抽取信息,提高了信息抽取的准确性和可扩展性。

Patent Agency Ranking