-
公开(公告)号:CN109582975A
公开(公告)日:2019-04-05
申请号:CN201910099201.4
申请日:2019-01-31
Applicant: 北京嘉和美康信息技术有限公司
IPC: G06F17/27
CPC classification number: G06F17/278
Abstract: 本申请公开了一种命名实体的识别方法及装置,且该方法包括:对目标文本中的命名实体进行词性标注;根据命名实体的词性和并列符号,确定目标文本中存在隐藏实体,并从目标文本中获取隐藏实体以及核心实体;对由核心实体的词根和隐藏实体构成的组合实体进行词性标注;核心实体的词根是根据核心实体的词性,在预设实体词根表中进行查询获取的;当组合实体的词性与核心实体的词性相同时,根据组合实体的词性,更新隐藏实体标注的词性。该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。
-
公开(公告)号:CN108153734A
公开(公告)日:2018-06-12
申请号:CN201711435006.1
申请日:2017-12-26
Applicant: 北京嘉和美康信息技术有限公司
IPC: G06F17/27
CPC classification number: G06F17/271 , G06F17/277 , G06F17/2775
Abstract: 本申请实施例公开了一种文本处理方法,预先通过统计获取疾病和疾病相关信息之间的映射关系;所述方法包括:获取病历文本;按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句。本申请可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行归类,使得对应同一种疾病的多组待处理子句可以归为一组归类子句,且不同组归类子句对应的疾病不同,从而可以从病历文本中,准确地获取到疾病与其对应的疾病相关信息,进而可以实现对病历文本进行有效地分析、处理。
-