-
公开(公告)号:CN105573981B
公开(公告)日:2018-09-07
申请号:CN201510951906.6
申请日:2015-12-17
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F17/27
Abstract: 本发明属于计算机语言学中的自然语言处理领域,具体涉及一种提取中文人名地名的方法及装置。该方法包括以下步骤S1,将文本转换为UTF‑8编码格式;S2,预设文本阈值L,判断文本长度T是否大于阈值L,如果T大于L,则采用延伸分段法将文本分段,分段后转到步骤S3,如果T小于等于L,则转到步骤S3;S3,对本文进行预处理去除脏数据;S4,对预处理后文本中的中文单字进行词性标注,并将标注后的单字进行分词组词;S5,将文本中与目标词组匹配的词组标记出来,并统计匹配结果。本发明能够广泛应用于搜索引擎、机器翻译、数据挖掘等领域中命名实体的识别。
-
公开(公告)号:CN105573981A
公开(公告)日:2016-05-11
申请号:CN201510951906.6
申请日:2015-12-17
Applicant: 厦门市美亚柏科信息股份有限公司
IPC: G06F17/27
CPC classification number: G06F17/278
Abstract: 本发明属于计算机语言学中的自然语言处理领域,具体涉及一种提取中文人名地名的方法及装置。该方法包括以下步骤S1,将文本转换为UTF-8编码格式;S2,预设文本阈值L,判断文本长度T是否大于阈值L,如果T大于L,则采用延伸分段法将文本分段,分段后转到步骤S3,如果T小于等于L,则转到步骤S3;S3,对本文进行预处理去除脏数据;S4,对预处理后文本中的中文单字进行词性标注,并将标注后的单字进行分词组词;S5,将文本中与目标词组匹配的词组标记出来,并统计匹配结果。本发明能够广泛应用于搜索引擎、机器翻译、数据挖掘等领域中命名实体的识别。
-