-
公开(公告)号:CN108153734A
公开(公告)日:2018-06-12
申请号:CN201711435006.1
申请日:2017-12-26
Applicant: 北京嘉和美康信息技术有限公司
IPC: G06F17/27
CPC classification number: G06F17/271 , G06F17/277 , G06F17/2775
Abstract: 本申请实施例公开了一种文本处理方法,预先通过统计获取疾病和疾病相关信息之间的映射关系;所述方法包括:获取病历文本;按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句。本申请可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行归类,使得对应同一种疾病的多组待处理子句可以归为一组归类子句,且不同组归类子句对应的疾病不同,从而可以从病历文本中,准确地获取到疾病与其对应的疾病相关信息,进而可以实现对病历文本进行有效地分析、处理。
-
公开(公告)号:CN108009157A
公开(公告)日:2018-05-08
申请号:CN201711448094.9
申请日:2017-12-27
Applicant: 北京嘉和美康信息技术有限公司
CPC classification number: G06F17/277 , G06F16/35 , G06K9/6277
Abstract: 本申请实施例公开了一种语句归类方法,方法包括:获取病历文本,并对病历文本中的语句进行分割,得到若干个子句;对若干个子句进行分词,得到每一个子句的分词结果;根据每一个子句的分词结果以及属性词语概率表得到每一个子句属于各个属性的概率;基于每一个子句属于各个属性的概率确定每一个子句的待定属性;若存在至少两个相邻的且待定属性相同的子句,则将至少两个相邻的且待定属性相同的子句归为一类。这样,可以将不同类别的子句分开提取,避免了在结构化提取过程中会出现差错,进而提高了结构化提取的准确性,使得能够对一句话中的多个子句进行准确地结构化提取。
-
公开(公告)号:CN109582975A
公开(公告)日:2019-04-05
申请号:CN201910099201.4
申请日:2019-01-31
Applicant: 北京嘉和美康信息技术有限公司
IPC: G06F17/27
CPC classification number: G06F17/278
Abstract: 本申请公开了一种命名实体的识别方法及装置,且该方法包括:对目标文本中的命名实体进行词性标注;根据命名实体的词性和并列符号,确定目标文本中存在隐藏实体,并从目标文本中获取隐藏实体以及核心实体;对由核心实体的词根和隐藏实体构成的组合实体进行词性标注;核心实体的词根是根据核心实体的词性,在预设实体词根表中进行查询获取的;当组合实体的词性与核心实体的词性相同时,根据组合实体的词性,更新隐藏实体标注的词性。该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。
-
公开(公告)号:CN108831560A
公开(公告)日:2018-11-16
申请号:CN201810645565.3
申请日:2018-06-21
Applicant: 北京嘉和美康信息技术有限公司
CPC classification number: G16H50/70
Abstract: 本申请公开了一种确定医疗数据属性数据的方法和装置,该方法包括:根据从医疗本体词典选取的目标医疗本体,基于对应的预设医疗本体属性,获得包括第一属性值和其他属性值的第一属性数据,第一属性数据来源于多个实际医疗文本信息;统计包括第一属性值的实际医疗文本信息数量和包括其他属性值的实际医疗文本信息数量;基于上述数量获得第一属性值的分值;若第一属性值的分值大于目标阈值,确定第一属性值为目标医疗本体的预设医疗本体属性数据。可见,分值大于目标阈值表示第一属性值属于该属性的可能性大,采用数据融合计算得到的分值相较于数据源权重更为准确,进而得到第一属性值是否属于目标医疗本体的预设医疗本体属性的结果更为准确。
-
公开(公告)号:CN108154928A
公开(公告)日:2018-06-12
申请号:CN201711448095.3
申请日:2017-12-27
Applicant: 北京嘉和美康信息技术有限公司
IPC: G16H50/20
Abstract: 本申请公开了一种疾病诊断方法及装置,预先建立疾病模型,所述疾病模型用于根据机器学习已有电子病历和/或已有医学知识得到的学习结果实现疾病诊断;基于此,当针对某电子病历进行疾病诊断时,先获取待诊断的目标电子病历,再根据所述疾病模型分析所述目标电子病历中的病历信息,以生成疾病概率列表,所述病历信息包括用于实现疾病诊断的可用信息,所述疾病概率列表包括至少一种疑似疾病以及所述疑似疾病的真实性概率。由于所述疾病模型学习了已有的电子病历和/或医学知识,对疾病知识覆盖更为全面,因此,当利用所述疾病模型进行疾病诊断时,诊断结果将更为准确。
-
公开(公告)号:CN118445387A
公开(公告)日:2024-08-06
申请号:CN202410483764.4
申请日:2024-04-22
Applicant: 北京嘉和美康信息技术有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/295 , G06N3/0455 , G06N3/048 , G06N3/08
Abstract: 本申请实施例提供了一种自然语言处理方法、装置、设备及可读存储介质,该方法包括:获取待处理语料数据;从待处理语料数据获取关键实体;获取预先构建的知识图谱中与关键实体对应的关联节点;基于关联节点对应的向量构建融合矩阵;将待处理语料数据和融合矩阵输入训练好的大语言模型,得到处理结果。本申请实施例利用知识图谱确定待处理语料数据的关联节点,对大语言模型进行知识增强,解决或减少了大语言模型的输出结果存在事实性错误的问题,提高了大语言模型输出结果的准确性。
-
公开(公告)号:CN118262925A
公开(公告)日:2024-06-28
申请号:CN202410361932.2
申请日:2024-03-27
Applicant: 中国人民解放军总医院 , 北京嘉和美康信息技术有限公司
Abstract: 本申请提供了一种研究人群集合构建方法、装置、设备以及存储介质,涉及医疗技术领域。在执行该方法时,先确定研究人群的纳排标准,再获取临床病历数据,接着,将临床病历数据进行处理,再按照病历文书类型对处理后的临床病历数据进行整合索引,得到研究人群构建数据集,根据纳排标准和处理后的临床病历数据,确定纳排条件,并根据纳排条件对研究人群构建数据集进行纳排,以构建研究人群结果集,并对其进行干预剔除,得到研究人群集合。这样,通过对处理后的临床病例历数据进行整合索引,可以有效的减少纳排条件的条目数,进而提高研究人群集合构建的效率。
-
公开(公告)号:CN117727412A
公开(公告)日:2024-03-19
申请号:CN202311774452.0
申请日:2023-12-21
Applicant: 中国人民解放军总医院 , 北京嘉和美康信息技术有限公司
IPC: G16H10/60 , G06F16/31 , G06F16/84 , G06F40/216 , G06F40/284 , G06F18/22 , G06F18/25 , G06N3/0442 , G06N3/045 , G06N3/047
Abstract: 本发明提供了一种电子病历的噪声过滤方法、系统、电子设备及存储介质,该方法包括:对待处理电子病历进行分词处理以得到多个待处理文本元素,待处理文本元素为字或词;确定待处理文本元素的多个指定特征值,以及确定待处理文本元素的多个普通特征值;将待处理文本元素的文本元素向量、多个指定特征值、多个普通特征值进行融合以得到相应的融合特征;将各个待处理文本元素对应的融合特征输入预设的噪声识别模型进行处理,以预测出待处理文本元素的标签;过滤待处理电子病历中标签为噪声标签的待处理文本元素。本发明基于融合特征和噪声识别模型预测出噪声标签的待处理文本元素进行过滤,有效提高噪声过滤效果和降低噪声误判率。
-
公开(公告)号:CN109840327A
公开(公告)日:2019-06-04
申请号:CN201910099222.6
申请日:2019-01-31
Applicant: 北京嘉和美康信息技术有限公司
Abstract: 本申请公开了一种词汇识别方法及装置,可以先获取对待识别文本进行识别得到的多个词汇长度比较短第一词汇;所述多个第一词汇的顺序,与所述多个第一词汇在待识别文本中出现的顺序相同;考虑到词汇长度比较长的词汇,可以包括多个词汇长度比较短的词汇。鉴于此,在本申请实施例中,可以判断连续多个第一词汇是否满足预设组词条件,若满足,则按照所述连续多个第一词汇在所述待识别文本中的顺序,对所述连续多个第一词汇进行组合,将所述多个连续第一词汇组成的词汇确定为一个词汇,即目标词汇,从而实现了对长度比较长的词汇的识别。由此可见,利用本申请实施例的方案,能够给弥补现有技术的缺陷,可以识别长度比较长的词汇。
-
公开(公告)号:CN108170677A
公开(公告)日:2018-06-15
申请号:CN201711448103.4
申请日:2017-12-27
Applicant: 北京嘉和美康信息技术有限公司
CPC classification number: G06F17/2785
Abstract: 本申请公开了一种医疗术语抽取方法及装置,在获取目标电子病历中的自由文本后,可以利用预先建立的信息抽取模型对所述自由文本进行信息抽取,获取所述信息抽取模型所抽取到的医疗术语集合;然后,由于某些医疗术语之间预先定义了承接关系,因此,在所述医疗术语集合中,为预先定义有承接关系的每组医疗术语建立对应的承接关系。这样,可以使抽取出的医疗术语之间的承接关系得以体现,从而可以根据预定义属性对抽取出的医疗术语进行准确地归类,避免了抽取结果存在偏差,从而提高了医疗术语抽取结果的准确性,进而可以满足医生对自由文本处理结果的需求。
-
-
-
-
-
-
-
-
-