一种文本处理方法及装置

    公开(公告)号:CN108153734A

    公开(公告)日:2018-06-12

    申请号:CN201711435006.1

    申请日:2017-12-26

    CPC classification number: G06F17/271 G06F17/277 G06F17/2775

    Abstract: 本申请实施例公开了一种文本处理方法,预先通过统计获取疾病和疾病相关信息之间的映射关系;所述方法包括:获取病历文本;按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句。本申请可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行归类,使得对应同一种疾病的多组待处理子句可以归为一组归类子句,且不同组归类子句对应的疾病不同,从而可以从病历文本中,准确地获取到疾病与其对应的疾病相关信息,进而可以实现对病历文本进行有效地分析、处理。

    一种语句归类方法及装置

    公开(公告)号:CN108009157A

    公开(公告)日:2018-05-08

    申请号:CN201711448094.9

    申请日:2017-12-27

    CPC classification number: G06F17/277 G06F16/35 G06K9/6277

    Abstract: 本申请实施例公开了一种语句归类方法,方法包括:获取病历文本,并对病历文本中的语句进行分割,得到若干个子句;对若干个子句进行分词,得到每一个子句的分词结果;根据每一个子句的分词结果以及属性词语概率表得到每一个子句属于各个属性的概率;基于每一个子句属于各个属性的概率确定每一个子句的待定属性;若存在至少两个相邻的且待定属性相同的子句,则将至少两个相邻的且待定属性相同的子句归为一类。这样,可以将不同类别的子句分开提取,避免了在结构化提取过程中会出现差错,进而提高了结构化提取的准确性,使得能够对一句话中的多个子句进行准确地结构化提取。

    一种命名实体的识别方法及装置

    公开(公告)号:CN109582975A

    公开(公告)日:2019-04-05

    申请号:CN201910099201.4

    申请日:2019-01-31

    CPC classification number: G06F17/278

    Abstract: 本申请公开了一种命名实体的识别方法及装置,且该方法包括:对目标文本中的命名实体进行词性标注;根据命名实体的词性和并列符号,确定目标文本中存在隐藏实体,并从目标文本中获取隐藏实体以及核心实体;对由核心实体的词根和隐藏实体构成的组合实体进行词性标注;核心实体的词根是根据核心实体的词性,在预设实体词根表中进行查询获取的;当组合实体的词性与核心实体的词性相同时,根据组合实体的词性,更新隐藏实体标注的词性。该方法不仅能够准确地识别目标文本中那些易识别的命名实体对应的词性,还能够准确地识别目标文本中的隐藏实体对应的词性,从而提高命名实体的识别精确度。

    一种确定医疗数据属性数据的方法和装置

    公开(公告)号:CN108831560A

    公开(公告)日:2018-11-16

    申请号:CN201810645565.3

    申请日:2018-06-21

    Inventor: 杜丽萍 胡可云

    CPC classification number: G16H50/70

    Abstract: 本申请公开了一种确定医疗数据属性数据的方法和装置,该方法包括:根据从医疗本体词典选取的目标医疗本体,基于对应的预设医疗本体属性,获得包括第一属性值和其他属性值的第一属性数据,第一属性数据来源于多个实际医疗文本信息;统计包括第一属性值的实际医疗文本信息数量和包括其他属性值的实际医疗文本信息数量;基于上述数量获得第一属性值的分值;若第一属性值的分值大于目标阈值,确定第一属性值为目标医疗本体的预设医疗本体属性数据。可见,分值大于目标阈值表示第一属性值属于该属性的可能性大,采用数据融合计算得到的分值相较于数据源权重更为准确,进而得到第一属性值是否属于目标医疗本体的预设医疗本体属性的结果更为准确。

    一种疾病诊断方法及装置

    公开(公告)号:CN108154928A

    公开(公告)日:2018-06-12

    申请号:CN201711448095.3

    申请日:2017-12-27

    Abstract: 本申请公开了一种疾病诊断方法及装置,预先建立疾病模型,所述疾病模型用于根据机器学习已有电子病历和/或已有医学知识得到的学习结果实现疾病诊断;基于此,当针对某电子病历进行疾病诊断时,先获取待诊断的目标电子病历,再根据所述疾病模型分析所述目标电子病历中的病历信息,以生成疾病概率列表,所述病历信息包括用于实现疾病诊断的可用信息,所述疾病概率列表包括至少一种疑似疾病以及所述疑似疾病的真实性概率。由于所述疾病模型学习了已有的电子病历和/或医学知识,对疾病知识覆盖更为全面,因此,当利用所述疾病模型进行疾病诊断时,诊断结果将更为准确。

    一种词汇识别方法及装置

    公开(公告)号:CN109840327A

    公开(公告)日:2019-06-04

    申请号:CN201910099222.6

    申请日:2019-01-31

    Abstract: 本申请公开了一种词汇识别方法及装置,可以先获取对待识别文本进行识别得到的多个词汇长度比较短第一词汇;所述多个第一词汇的顺序,与所述多个第一词汇在待识别文本中出现的顺序相同;考虑到词汇长度比较长的词汇,可以包括多个词汇长度比较短的词汇。鉴于此,在本申请实施例中,可以判断连续多个第一词汇是否满足预设组词条件,若满足,则按照所述连续多个第一词汇在所述待识别文本中的顺序,对所述连续多个第一词汇进行组合,将所述多个连续第一词汇组成的词汇确定为一个词汇,即目标词汇,从而实现了对长度比较长的词汇的识别。由此可见,利用本申请实施例的方案,能够给弥补现有技术的缺陷,可以识别长度比较长的词汇。

    一种医疗术语抽取方法及装置

    公开(公告)号:CN108170677A

    公开(公告)日:2018-06-15

    申请号:CN201711448103.4

    申请日:2017-12-27

    CPC classification number: G06F17/2785

    Abstract: 本申请公开了一种医疗术语抽取方法及装置,在获取目标电子病历中的自由文本后,可以利用预先建立的信息抽取模型对所述自由文本进行信息抽取,获取所述信息抽取模型所抽取到的医疗术语集合;然后,由于某些医疗术语之间预先定义了承接关系,因此,在所述医疗术语集合中,为预先定义有承接关系的每组医疗术语建立对应的承接关系。这样,可以使抽取出的医疗术语之间的承接关系得以体现,从而可以根据预定义属性对抽取出的医疗术语进行准确地归类,避免了抽取结果存在偏差,从而提高了医疗术语抽取结果的准确性,进而可以满足医生对自由文本处理结果的需求。

Patent Agency Ranking