-
公开(公告)号:CN119069138A
公开(公告)日:2024-12-03
申请号:CN202411184816.4
申请日:2024-08-27
Applicant: 北京工业大学
IPC: G16H50/70 , G06F16/332 , G06F16/33 , G06F40/279 , G06F40/30
Abstract: 本发明公开了一种基于大语言模型生成医学领域多样化指令数据的方法,利用自然语言处理工具对医学文档进行数据预处理。使用TF‑IDF算法提取医学文档中最具信息性和独特性的关键词。设计了先进的提示词进化策略。采用大语言模型对生成的问题进行严格筛选和过滤。创建标准化的提示词模板,并结合具体文档chunk内容提示模型生成答案,确保模型能够基于文档内容生成准确、相关和高质量的答案,从而提升模型的回答能力。对生成的答案进行严格过滤,以确保其准确性和相关性,从而提高问答数据的真实性和专业性。本发明通过大语言模型而非人工创建大量多样性指令数据,以此缓解人工数据标注的负担,同时着力解决数据质量、多样性、准确性等问题。