-
公开(公告)号:CN117831695A
公开(公告)日:2024-04-05
申请号:CN202311729840.7
申请日:2023-12-15
Applicant: 华东理工大学
IPC: G16H10/60 , G06F40/295 , G06F40/247 , G06F16/28
Abstract: 本发明公开一种电子病历数据集构建方法、系统及电子设备,涉及数据集构建领域,方法包括:获取待构建数据集的电子病历数据;对电子病历数据进行预处理,得到结构化电子病历数据;根据结构化电子病历数据,确定待构建数据集的下游任务,并建立下游任务相应的指令Prompt模板集,解决了人工构造指令Prompt模板集耗时耗力且多样性差的问题。利用同义词替换方法、候选项约束和否定性引导策略以及时间序列技术与自适应数据清洗算法,根据结构化电子病历数据和相应指令Prompt模板集,确定相应下游任务的任务数据,以确定电子病历数据集。本发明提供专为中文设计的大规模数据集,以提升电子病历领域模型的性能。