-
公开(公告)号:CN108052508A
公开(公告)日:2018-05-18
申请号:CN201711476786.4
申请日:2017-12-29
Applicant: 北京嘉和美康信息技术有限公司
IPC: G06F17/27
CPC classification number: G06F17/2775
Abstract: 本申请实施例公开了一种信息提取方法,根据预设词库对预设文本进行分词,得到第一分词结果,从第一分词结果中提取所包括的多个待定词,从多个待定词中确定出没有包含关系的待定词作为对第一分词结果的信息提取结果。由于采用了两次分词,不仅可以将较长的第一分词结果提取出来,还可以从较长的第一分词结果中进一步提取出较短的、不具有包含关系的对第一分词结果的信息抽取结果,例如从完整的表示手术名称的词中提取出表示部位、疾病等信息的词,一方面增加了提取到的信息量,另一方面,通过第一分词结果与第一分词结果的信息抽取结果的结构层次设置,增强了数据结构化效果,有利于数据查询和定位。本申请实施例还公开了一种信息提取装置。
-
公开(公告)号:CN109840327A
公开(公告)日:2019-06-04
申请号:CN201910099222.6
申请日:2019-01-31
Applicant: 北京嘉和美康信息技术有限公司
Abstract: 本申请公开了一种词汇识别方法及装置,可以先获取对待识别文本进行识别得到的多个词汇长度比较短第一词汇;所述多个第一词汇的顺序,与所述多个第一词汇在待识别文本中出现的顺序相同;考虑到词汇长度比较长的词汇,可以包括多个词汇长度比较短的词汇。鉴于此,在本申请实施例中,可以判断连续多个第一词汇是否满足预设组词条件,若满足,则按照所述连续多个第一词汇在所述待识别文本中的顺序,对所述连续多个第一词汇进行组合,将所述多个连续第一词汇组成的词汇确定为一个词汇,即目标词汇,从而实现了对长度比较长的词汇的识别。由此可见,利用本申请实施例的方案,能够给弥补现有技术的缺陷,可以识别长度比较长的词汇。
-