基于病历文本的病人相似性度量装置及方法

    公开(公告)号:CN108877880B

    公开(公告)日:2020-11-20

    申请号:CN201810697392.X

    申请日:2018-06-29

    Applicant: 清华大学

    Abstract: 本发明公开了一种基于病历文本的病人相似性度量装置及方法,包括病历向量样本库存储部,存储第一病历向量;标签标注部;预处理部,将第一病历向量转化为第一连续数值型病历向量;连续病历向量存储部,存储第一连续数值型病历向量;距离度量矩阵获得部,学习第一连续数值型病历向量,获得距离度量矩阵;病历向量提取部,提取第二病历向量;连续病历向量获得部,获得第二连续数值型病历向量;比较部,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度;输出部,选取与第二病历文本的相似的一个或多个第一病历文本并输出。本发明可以得到不同评价指标下病人的相似性。

    一种中文电子病历文本分析方法与系统

    公开(公告)号:CN108831559B

    公开(公告)日:2021-01-15

    申请号:CN201810635258.7

    申请日:2018-06-20

    Applicant: 清华大学

    Abstract: 中文电子病历文本分析方法与系统,该方法包括以下步骤:利用病历文本获取病历数据集;用正则处理分离数值变量和文本信息,根据上下文表述确定数值信息含义,利用正则表达式搜索并结构化保存不同类别的时间信息;采用自然语言处理对文本分词及词性标注,结合医学实体识别进一步筛选,确定文本中医学关键词汇的位置及类型;分析筛选出医学关键词汇和信息;利用上述相关结果,对病历进行仿真;将文本内容转化成数值向量;对各病历文本添加相似性标签;对病历文本的标注进行学习;根据标注和训练结果对新到的病历样本在病历数据集中筛选出具有相似性的病历。本发明对不同的评价标准,每一新到病历文本可从已有病历文本中找到不同的相似病历文本簇。

    基于病历文本的病人相似性度量装置及方法

    公开(公告)号:CN108877880A

    公开(公告)日:2018-11-23

    申请号:CN201810697392.X

    申请日:2018-06-29

    Applicant: 清华大学

    CPC classification number: G16H10/60

    Abstract: 本发明公开了一种基于病历文本的病人相似性度量装置及方法,包括病历向量样本库存储部,存储第一病历向量;标签标注部;预处理部,将第一病历向量转化为第一连续数值型病历向量;连续病历向量存储部,存储第一连续数值型病历向量;距离度量矩阵获得部,学习第一连续数值型病历向量,获得距离度量矩阵;病历向量提取部,提取第二病历向量;连续病历向量获得部,获得第二连续数值型病历向量;比较部,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度;输出部,选取与第二病历文本的相似的一个或多个第一病历文本并输出。本发明可以得到不同评价指标下病人的相似性。

    一种中文电子病历文本分析方法与系统

    公开(公告)号:CN108831559A

    公开(公告)日:2018-11-16

    申请号:CN201810635258.7

    申请日:2018-06-20

    Applicant: 清华大学

    Abstract: 中文电子病历文本分析方法与系统,该方法包括以下步骤:利用病历文本获取病历数据集;用正则处理分离数值变量和文本信息,根据上下文表述确定数值信息含义,利用正则表达式搜索并结构化保存不同类别的时间信息;采用自然语言处理对文本分词及词性标注,结合医学实体识别进一步筛选,确定文本中医学关键词汇的位置及类型;分析筛选出医学关键词汇和信息;利用上述相关结果,对病历进行仿真;将文本内容转化成数值向量;对各病历文本添加相似性标签;对病历文本的标注进行学习;根据标注和训练结果对新到的病历样本在病历数据集中筛选出具有相似性的病历。本发明对不同的评价标准,每一新到病历文本可从已有病历文本中找到不同的相似病历文本簇。

Patent Agency Ranking